SparkはHadoopに似たオープンソースのクラウドコンピューティングシステムですが、両者にはいくつかの違いがあります。SparkはHadoopに似たオープンソースのクラウドコンピューティングシステムですが、特定のワークロードに対してSparkを優位にする有用な違いがあります。
スパーク・アーキテクチャー
SparkはScala言語で実装されており、アプリケーションフレームワークとしてScalaを使用します。Hadoopとは異なり、SparkとScalaは緊密に統合することができ、Scalaは分散データセットをローカルのコレクションオブジェクトのように簡単に操作することができます。
Sparkは分散データセットの反復処理をサポートするために開発されましたが、実際にはHadooファイルシステム上で並列実行することでHadoopを補完しています。この動作は、Mesosと呼ばれるサードパーティのクラスタリングフレームワークによってサポートされています。SparkはUC BerkeleyのAMP Labによって開発され、大規模で低レイテンシのデータ分析アプリケーションを構築するために使用できます。
SparkRの実行
library(SparkR) sc <- sparkR.init(master="local")
プロジェクトホームページ