MapReduceよりApache Sparkを採用すべき理由、採用できない理由ビッグデータも世代交代の時期か

Apache Sparkの採用が増えている。最大の魅力は、MapReduceよりも圧倒的に高速なことだという。それ以外にも、さまざまな人が多くのメリットを語る。一方、Sparkを採用しないという意見もある。なぜか?

2015年11月04日 08時00分 公開
[Jessica TwentymanComputer Weekly]
Computer Weekly

 「MapReduce」よ、道を譲ってくれ。君はここまでよく頑張ってくれたが、今日のビッグデータ開発者が求めているのは、処理速度と簡潔性だ。

 「Apache Hadoop」(以下Hadoop)環境で稼働するフレームワークとして、最近登場した、高速処理が得意な「Apache Spark」(以下Spark)の採用が急増している。この現象は少なくとも、Sparkを前面に押し出し、ビッグデータ界の次の主流となるだろうと予測するビッグデータサプライヤーからのメッセージとなっている。

Computer Weekly日本語版 10月21日号無料ダウンロード

本記事は、プレミアムコンテンツ「Computer Weekly日本語版 10月21日号」(PDF)掲載記事の抄訳版です。本記事の全文は、同プレミアムコンテンツで読むことができます。

なお、同コンテンツのEPUB版およびKindle(MOBI)版も提供しています。

ボタンボタン

 2015年6月、米サンフランシスコで「Spark Summit」カンファレンスが開催された。その席上で米Clouderaの最高戦略責任者、マイク・オルソン氏はSparkの急成長を「息もつかせぬ勢い」と表現。顧客が求めるものが(MapReduceからSparkへと)完全に移行していることを、Hadoopディストリビューションも販売している同社の立場で実感していると報告した。

 「近いうちに、SparkがHadoop向けの汎用(はんよう)処理フレームワークの主流になるとわれわれは予測している」と同氏は話す。「一般的な目的に適したエンジンを探しているのなら、今ならMapReduceではなくSparkを選ぶだろう」

 オルソン氏はこの発言の際、言葉を慎重に選んだようだ。特に「一般的な目的」(general purpose)と限定したところにそれがうかがえる。同氏がそう表現したのは、Hadoopでは検索用の「Apache Solr」やSQLクエリ用の「Cloudera Impala」など、特殊用途向けに開発されたエンジンが活躍する領域も小さくないからだ(だから「一般的な目的」と同氏は限定した)。しかし多岐にわたるアナリティクスのワークロードを新規に作成する際に開発者が利用するフレームワークの覇権争いは、一騎打ちの様相を呈している。そしてどうやらSparkが優勢のようだ。

 これは極めて単純な話だ。Sparkは、開発者が以前から再三批判してきたMapReduceが抱える多数の問題、特にレイテンシが高いことと、バッチモードの応答の遅さに見事に対処しているからだ。

 「Hadoopが成長してきた世界の中で、MapReduceは長い間、その堅牢性に対する定評を維持してきた」と話すのは、米Hortonworksの創設者でアーキテクトのアラン・マーフィー氏だ。

 マーフィー氏はMapReduceについて、これがGoogleのラボで作られたテクノロジーであり、非常に特殊なユースケース、つまりWeb検索を処理するためのものだったと指摘する。10年以上の時間をかけてこのテクノロジーは進化を重ねてきたが、それでもビッグデータアプリケーションに対して大規模組織が求める要件を満たすには恐らく不十分だ。

 「MapReduceの長所は、複数のユースケースに対処できる柔軟性だ」と同氏は付け加える。「MapReduceが長らく使われてきたのは、これで解決できるユースケースが確かに存在するためだ。ただその処理は最適なものとはいえない。MapReduceがかつて他のテクノロジーを駆逐したように、新しいテクノロジーが登場して、MapReduceをお払い箱にする、またはこれに取って代わるのは極めて自然な流れだ」

実行速度と簡素性

 では、Sparkがそんなに優れている点はどこなのか。開発者にとっての主な利点は処理速度だ。

Copyright © ITmedia, Inc. All Rights Reserved.

鬮ォ�エ�ス�ス�ス�ス�ス�ー鬯ィ�セ�ス�ケ�ス縺、ツ€鬩幢ス「隴取得�ス�ク陷エ�・�ス�。鬩幢ス「�ス�ァ�ス�ス�ス�、鬩幢ス「隴主�讓滂ソス�ス�ス�ス鬩幢ス「隴趣ス「�ス�ス�ス�シ鬩幢ス「隴乗��ス�サ�ス�」�ス�ス�ス�ス

製品資料 ジオテクノロジーズ株式会社

6つのユースケースから学ぶ、「人流データ」の効果的な活用方法

広告や小売、観光振興、まちづくりなど、さまざまな領域で導入が進む「人流データ」。その活用でどのような施策が可能になり、どのような効果が期待できるのか。人流データ活用の6つのユースケースを紹介する。

製品資料 ジオテクノロジーズ株式会社

基礎から解説:「人流データ」の特徴から活用におけるポイントまで

人の動きを可視化した「人流データ」。屋外広告の効果測定や出店計画、まちづくりや観光振興など幅広い領域で活用されている。その特徴を確認しながら、価値のある分析・活用につなげるためのポイントを解説する。

事例 アルテリックス・ジャパン合同会社

地図情報によるデータ分析作業を効率化、ゼンリングループ企業はどう実現した?

多くの企業でデータ活用が模索されているが、データ処理の煩雑さや属人化が課題となっている企業は少なくない。そこで注目したいのが、データ分析ツールの活用で課題を一掃した「ゼンリンマーケティングソリューションズ」の取り組みだ。

製品資料 サイオステクノロジー株式会社

ITインフラの自動化を実現、いま注目のクラウド型マネージドサービスの実力

複雑化を続けるITシステムの運用管理は、企業にとって大きな負担だ。そこで負担を軽減するものとして注目したいのが、クラウド上でさまざまな機能を利用できるマネージドサービスだ。本資料では、その詳細を解説する。

事例 プリサイスリー・ソフトウェア株式会社

SAPデータの処理時間を4分の1に短縮、ロクシタンはどうやって実現した?

SAP ERPを活用して、事業部門のデータ作成/変更を行っているロクシタンでは、マスターデータ管理の煩雑さに伴う、処理時間の長さが課題となっていた。これを解消し、SAPデータの処理時間を4分の1に短縮した方法とは?

鬩幢ス「隴主�蜃ス�ス雜」�ス�ヲ鬩幢ス「隰ィ魑エツ€鬩幢ス「隴趣ス「�ス�ス�ス�シ鬩幢ス「�ス�ァ�ス�ス�ス�ウ鬩幢ス「隴趣ス「�ス�ス�ス�ウ鬩幢ス「隴趣ス「�ス�ソ�ス�ス�ス雜」�ス�ヲ鬩幢ス「隴趣ス「�ス�ソ�ス�スPR

From Informa TechTarget

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。

MapReduceよりApache Sparkを採用すべき理由、採用できない理由:ビッグデータも世代交代の時期か - TechTargetジャパン データ分析 鬮ォ�エ�ス�ス�ス�ス�ス�ー鬯ィ�セ�ス�ケ�ス縺、ツ€鬯ョ�ォ�ス�ェ髯区サゑスソ�ス�ス�ス�ス�コ�ス�ス�ス�ス

TechTarget鬩幢ス「�ス�ァ�ス�ス�ス�ク鬩幢ス「隴趣ス「�ス�ス�ス�」鬩幢ス「隴乗��ス�サ�ス�」�ス雜」�ス�ヲ 鬮ォ�エ�ス�ス�ス�ス�ス�ー鬯ィ�セ�ス�ケ�ス縺、ツ€鬯ョ�ォ�ス�ェ髯区サゑスソ�ス�ス�ス�ス�コ�ス�ス�ス�ス

鬩幢ス「隴取得�ス�ク陷エ�・�ス�。鬩幢ス「�ス�ァ�ス�ス�ス�、鬩幢ス「隴主�讓滂ソス�ス�ス�ス鬩幢ス「隴趣ス「�ス�ス�ス�シ鬩幢ス「隴乗��ス�サ�ス�」�ス�ス�ス�ス鬩幢ス「隴趣ス「�ス�ス�ス�ゥ鬩幢ス「隴趣ス「�ス�ス�ス�ウ鬩幢ス「�ス�ァ�ス�ス�ス�ュ鬩幢ス「隴趣ス「�ス�ス�ス�ウ鬩幢ス「�ス�ァ�ス�ス�ス�ー

2025/05/06 UPDATE

ITmedia マーケティング新着記事

news014.png

「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年4月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。

news046.png

「ECプラットフォーム」売れ筋TOP10(2025年4月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。

news026.png

「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年4月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...