お問い合わせ

DMX-h

DMX-hはDMExressのHadoop版製品です。Hadoop上でネイティブに分散実行する唯一のデータインテグレーション製品です。

開発方法

アプリケーション開発はDMExpressと同様にGUIで行うことができます。
GUI開発だけで、MapReduceやSpark RDDなどを意識することなく最適な分散処理を実装できます。

稼働方法

通常のHadoop分散処理では、各ノード上でJavaベースのデータ処理が実行されます。
DMX-hでは、各ノードにSyncsortのエンジン(C++ベース)をインストールします。
このエンジンは、リソース(CPU, Memory, DiskI/O)を最適活用した高速データ処理を行うため、
通常のHadoop分散処理よりも高速に実行できます。

一般に、Hadoop上で分散処理ができるGUI製品はHiveやPigなどのコードジェネレータです。
その場合、自動生成されたコードは分散処理に最適化されていない場合があります。
DMX-hでは、GUIで開発したジョブが、透過的に最適な方法で分散実行されます。

※各ノードでDMX-hエンジンが稼働し、効率よく協調して分散処理を行います。

Spark対応

DMX-hでジョブを実行する際に、3種類の実行方法を選択できます。

・Hadoop実行
処理データが非常に大きい場合、もしくは、処理データを繰り返し利用しない場合

・Spark実行
処理データがクラスタのメモリ内に収まり、かつ繰り返しそのデータを利用する場合

・シングルサーバー実行
分散データではない通常のローカルファイルやデータベースなどを処理する場合

Write Once, Deploy Anywhere

Windows上のDMExressで開発・実行したモジュールを、そのままHadoop上のDMX-hで動作させることができます。
その場合、WindowsとHadoopのファイルパスの違いは環境変数などで吸収できます。