顧客から多くの要望を受けたHortonworksは、同社のHadoop製品にSotrmストリーム処理エンジンの統合を開始することを決定しました。Hadoopのバッチ処理設計を考えると、この作業は実に重要な意味を持ちます。
数年前、Backtypeはストリーム処理エンジンSotrmを開発し、Hadoopが持つストリーミングデータのリアルタイム処理機能の一部を補うことを期待していました。 Twitterは2011年にBacktypeを買収し、それ以来Stormの開発をリードしてきました。しかし、このオープンソースプロジェクトがウェブ開発に広く受け入れられるようになると、Hadoopとの統合やHadoop上での実行など、多くのイノベーションが生まれました。
Hortonworksのマーケティング担当バイスプレジデントであるDave McJannet氏は、次のように述べています。「Hortonworksの顧客は、StormがTwitterやYahoo!
Hortonworksの製品担当バイスプレジデントであるBob Page氏は、「Apache Software FoundationのインキュベータープロジェクトになったばかりのStormは、Hortonworksにとって価値ある投資でした。同社は通常、Hadoop関連のオープンソース技術をHortonworks Data Platform製品に統合することに重点を置いており、Stormのようなストリーム処理フレームワークを統合することは、ユーザーからの要望によるものです。Stormのようなストリーム処理フレームワークの統合は、ユーザーからの要望によるものです。
McJannetを通じて学んだように、この試みにおける主な課題は、主流の要件の多くを満たすエンタープライズグレードの製品に統合することにあります。
StormとHadoop MapReduceは、データを処理するタイミングと方法に関しては本質的に正反対であり、2つのテクノロジー間の統合の可能性は、少なからずYARNのクラスタ管理によるものです。 Hortonworksは現在、Tezと呼ばれる新しい処理フレームワークでHiveの速度向上に取り組んでおり、YARNはHadoopユーザーがSparkインメモリ処理フレームワークを実行することも可能にしています。Hortonworksは現在、新しい処理フレームワークTezでHiveの速度向上に取り組んでおり、YARNはHadoopユーザーがSparkインメモリ処理を実行することも可能にしています。MicrosoftもYARNを使用して、Hadoopを機械学習のユースケースにより適したものにしようとしています。
さらにYARNは、HBaseやGiraphのような異なるテクノロジーを同じクラスタ上で実行することを可能にします。さらに、クラスタ管理技術であるMesos(UC Berkeley、現在はApacheのプロジェクト)も、YARNのような機能をサポートしていますが、YARNのようにHDFSにバンドルされていません。
より多くの技術が統合されることで、ビッグデータ処理プラットフォームであるHadoopが決して一過性のものではないことを示すとともに、Hadoopがビッグデータアプリケーション分野でより高い優位性を獲得することになるでしょう。