今はポストHadoopの時代なのか。支持者に言わせれば、ビッグデータフレームワークの最新版「Apache Hadoop 3.0」は機械学習アプリケーションとクラウドシステムで成功を収めており、まだその時代は終わっていない。
華々しい新技術の中でもまだ居場所はあるかもしれないが、「Apache Hadoop」はかつてのような目新しい存在でも、華々しい存在でもなくなった。そのことは、やや控え目な「Apache Hadoop 3.0」のデビューに反映されている。
それを表す事例として2017年、かつて“Hadoopカンファレンス”として知られていた複数のイベントから、Hadoopの名が消えた。また、IBMがHadoopのディストリビューションプロバイダーから抜け、機械学習アプリケーションや「Apache Spark」および「TensorFlow」のようなツールが、ビッグデータの取り組みの多くで注目を浴びるようになった。
従って、2017年12月半ばのHadoop 3.0リリースに伴う宣伝が控え目だったことに、それほどの驚きはない。だが今回のリリースには特筆すべき進化がある。登場から11年になるこの分散型データフレームワークのアップデートでは、ストレージ条件が低くなり、最新のグラフィックス処理ユニット(GPU)リソース上でのクラスタプールが可能になり、新しいフェデレーションスキームが加わって、要となるリソースマネジャーのYARNとジョブスケジューラが1つのクラスタで実行できるHadoopノードの数が大幅に増大した。
この後者の機能は、多くが目指していると思われるHadoopクラウドアプリケーションに利用できる。
「YARNのためのフェデレーションは、はるかに大型のクラスタへの拡張を意味する」。Microsoftの主席サイエンティストで、Hadoopの貢献者であり、Hadoop Project Management Committee(PMC)のメンバーでもあるカルロ・オルド・キュリノ氏はそう語る。フェデレーションによって実質的に、ルーティング層がHadoop Distributed File System(HDFS)クラスタの前に置かれるようになったと同氏は解説する。
キュリノ氏は、PMCメンバーとしての立場で話をしているのであって、Microsoftの立場から話をしているのではないと強調する。ただ、拡張性の向上は、Microsoftの「Microsoft Azure」のようなクラウドで役に立つと付け加えた。「最大級のHadoopクラスタ(の大半)は、これまでは数千ノードの前半の規模だったが、ユーザーは数万ノードへの拡張を望んでいる」と同氏は言う。
もしHadoopアプリケーションに、YARNを実行している何百万台ものマシンが含まれるようになれば、フェデレーションもそこに到達する必要が生じると同氏は指摘する。将来に目を向けると、Hadoopの今後のアップデートではYARNにスポットが当てられると同氏は予想する。
実際に、2013年にリリースされたHadoop 2.0では、YARNが最大の焦点だった。これは特に、もともとのMapReduce処理エンジンへの依存状態からHadoopを切り離したことによる。従って、これがHadoop 3.0で中心的な役割を担っていることに意外性はない。
キュリノ氏の予想では、YARNは分散型アーキテクチャの中で重要な新トレンドを推し進める。「YARNはサーバレス運動の原点だった」と同氏は言う。サーバレスのコンピューティングスキームは、Dockerコンテナを背景に浮上して存在感を増している。
同氏によると、正式提供が開始され、プロダクション対応となったHadoop 3.0に盛り込まれた重要なアップデートの一部は、これまでのポイントアップデートの中で醸成されてきた。
Copyright © ITmedia, Inc. All Rights Reserved.
ゼンリンマーケティングソリューションズでは、地図情報によるデータ分析作業を効率化するため、プログラミング不要のデータ分析ツールを導入した。同社はどのような製品を採用し、課題解決につなげていったのだろう。
工場や倉庫などの現場では、人手不足などにより業務負担の増大が懸念されており、業務のデジタル化と業務プロセスの改善が急務となっている。そこでモバイルアプリの作成からデータ連携までをノーコードで実現できる製品が注目されている。
広告や小売、観光振興、まちづくりなど、さまざまな領域で導入が進む「人流データ」。その活用でどのような施策が可能になり、どのような効果が期待できるのか。人流データ活用の6つのユースケースを紹介する。
人の動きを可視化した「人流データ」。屋外広告の効果測定や出店計画、まちづくりや観光振興など幅広い領域で活用されている。その特徴を確認しながら、価値のある分析・活用につなげるためのポイントを解説する。
SAP ERPを活用して、事業部門のデータ作成/変更を行っているロクシタンでは、マスターデータ管理の煩雑さに伴う、処理時間の長さが課題となっていた。これを解消し、SAPデータの処理時間を4分の1に短縮した方法とは?
いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。
「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...
「マーケティングオートメーション」 国内売れ筋TOP10(2025年5月)
今週は、マーケティングオートメーション(MA)ツールの売れ筋TOP10を紹介します。
「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年4月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。