お問い合わせ

DMX-h

DMX-hはDMExressのHadoop版製品です。Hadoop上でネイティブに分散実行する唯一のETL製品です。

開発方法

アプリケーション開発はDMExpressと同様にGUIで行うことができます。複雑なJavaによるMapReduceを実装する必要はありません。

稼働方法

通常のHadoop分散処理では、各ノード上でJavaベースのデータ処理が実行されます。
DMX-hでは、各ノードに独自エンジンをインストールします。(このインストールも非常に簡単に行えます。)
このエンジンによりC++ベースのデータ処理を行うため、通常のHadoop分散処理よりも高速に実行できます。

DMX-hとは別に、GUIで開発できるHadoop上のETL製品も存在します。
しかし、それらは内部ではHiveやPigを実行しており、 HiveやPigの実態はJavaベースのデータ処理(MapReduce)です。
その結果、HiveやPigまた各ETL製品との比較ベンチマークにおいて、DMX-hのパフォーマンスの高さが確認されています。

※各ノードでDMX-hエンジンが稼働し、効率よく協調して分散処理を行います。

Spark対応

DMX-hでジョブを実行する際に、3種類の実行方法を選択できます。

・Hadoop実行
処理データが非常に大きい場合、もしくは、処理データを繰り返し利用しない場合

・Spark実行
処理データがクラスタのメモリ内に収まり、かつ繰り返しそのデータを利用する場合

・シングルサーバー実行
分散データではない通常のローカルファイルやデータベースなどを処理する場合

Write Once, Deploy Anywhere

Windows上のDMExressで開発・実行したモジュールを、そのままHadoop上のDMX-hで動作させることができます。
その場合、WindowsとHadoopのファイルパスの違いは環境変数などで吸収できます。