Apache Sparkの採用が増えている。最大の魅力は、MapReduceよりも圧倒的に高速なことだという。それ以外にも、さまざまな人が多くのメリットを語る。一方、Sparkを採用しないという意見もある。なぜか?
「MapReduce」よ、道を譲ってくれ。君はここまでよく頑張ってくれたが、今日のビッグデータ開発者が求めているのは、処理速度と簡潔性だ。
「Apache Hadoop」(以下Hadoop)環境で稼働するフレームワークとして、最近登場した、高速処理が得意な「Apache Spark」(以下Spark)の採用が急増している。この現象は少なくとも、Sparkを前面に押し出し、ビッグデータ界の次の主流となるだろうと予測するビッグデータサプライヤーからのメッセージとなっている。
本記事は、プレミアムコンテンツ「Computer Weekly日本語版 10月21日号」(PDF)掲載記事の抄訳版です。本記事の全文は、同プレミアムコンテンツで読むことができます。
なお、同コンテンツのEPUB版およびKindle(MOBI)版も提供しています。
2015年6月、米サンフランシスコで「Spark Summit」カンファレンスが開催された。その席上で米Clouderaの最高戦略責任者、マイク・オルソン氏はSparkの急成長を「息もつかせぬ勢い」と表現。顧客が求めるものが(MapReduceからSparkへと)完全に移行していることを、Hadoopディストリビューションも販売している同社の立場で実感していると報告した。
「近いうちに、SparkがHadoop向けの汎用(はんよう)処理フレームワークの主流になるとわれわれは予測している」と同氏は話す。「一般的な目的に適したエンジンを探しているのなら、今ならMapReduceではなくSparkを選ぶだろう」
オルソン氏はこの発言の際、言葉を慎重に選んだようだ。特に「一般的な目的」(general purpose)と限定したところにそれがうかがえる。同氏がそう表現したのは、Hadoopでは検索用の「Apache Solr」やSQLクエリ用の「Cloudera Impala」など、特殊用途向けに開発されたエンジンが活躍する領域も小さくないからだ(だから「一般的な目的」と同氏は限定した)。しかし多岐にわたるアナリティクスのワークロードを新規に作成する際に開発者が利用するフレームワークの覇権争いは、一騎打ちの様相を呈している。そしてどうやらSparkが優勢のようだ。
これは極めて単純な話だ。Sparkは、開発者が以前から再三批判してきたMapReduceが抱える多数の問題、特にレイテンシが高いことと、バッチモードの応答の遅さに見事に対処しているからだ。
「Hadoopが成長してきた世界の中で、MapReduceは長い間、その堅牢性に対する定評を維持してきた」と話すのは、米Hortonworksの創設者でアーキテクトのアラン・マーフィー氏だ。
マーフィー氏はMapReduceについて、これがGoogleのラボで作られたテクノロジーであり、非常に特殊なユースケース、つまりWeb検索を処理するためのものだったと指摘する。10年以上の時間をかけてこのテクノロジーは進化を重ねてきたが、それでもビッグデータアプリケーションに対して大規模組織が求める要件を満たすには恐らく不十分だ。
「MapReduceの長所は、複数のユースケースに対処できる柔軟性だ」と同氏は付け加える。「MapReduceが長らく使われてきたのは、これで解決できるユースケースが確かに存在するためだ。ただその処理は最適なものとはいえない。MapReduceがかつて他のテクノロジーを駆逐したように、新しいテクノロジーが登場して、MapReduceをお払い箱にする、またはこれに取って代わるのは極めて自然な流れだ」
では、Sparkがそんなに優れている点はどこなのか。開発者にとっての主な利点は処理速度だ。
本記事は抄訳版です。全文は、以下でダウンロード(無料)できます。
■Computer Weekly日本語版 最近のバックナンバー
Computer Weekly日本語版 10月7日号:ネットワークスローダウンの処方箋
Computer Weekly日本語版 9月16日号:フラッシュストレージ セカンドシーズン
Computer Weekly日本語版 9月2日号:Windows Server 2003少しだけ延命策
Copyright © ITmedia, Inc. All Rights Reserved.
広告や小売、観光振興、まちづくりなど、さまざまな領域で導入が進む「人流データ」。その活用でどのような施策が可能になり、どのような効果が期待できるのか。人流データ活用の6つのユースケースを紹介する。
人の動きを可視化した「人流データ」。屋外広告の効果測定や出店計画、まちづくりや観光振興など幅広い領域で活用されている。その特徴を確認しながら、価値のある分析・活用につなげるためのポイントを解説する。
多くの企業でデータ活用が模索されているが、データ処理の煩雑さや属人化が課題となっている企業は少なくない。そこで注目したいのが、データ分析ツールの活用で課題を一掃した「ゼンリンマーケティングソリューションズ」の取り組みだ。
複雑化を続けるITシステムの運用管理は、企業にとって大きな負担だ。そこで負担を軽減するものとして注目したいのが、クラウド上でさまざまな機能を利用できるマネージドサービスだ。本資料では、その詳細を解説する。
SAP ERPを活用して、事業部門のデータ作成/変更を行っているロクシタンでは、マスターデータ管理の煩雑さに伴う、処理時間の長さが課題となっていた。これを解消し、SAPデータの処理時間を4分の1に短縮した方法とは?
いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。
「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年4月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。
「ECプラットフォーム」売れ筋TOP10(2025年4月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。
「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年4月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...