今はポストHadoopの時代なのか。支持者に言わせれば、ビッグデータフレームワークの最新版「Apache Hadoop 3.0」は機械学習アプリケーションとクラウドシステムで成功を収めており、まだその時代は終わっていない。
華々しい新技術の中でもまだ居場所はあるかもしれないが、「Apache Hadoop」はかつてのような目新しい存在でも、華々しい存在でもなくなった。そのことは、やや控え目な「Apache Hadoop 3.0」のデビューに反映されている。
それを表す事例として2017年、かつて“Hadoopカンファレンス”として知られていた複数のイベントから、Hadoopの名が消えた。また、IBMがHadoopのディストリビューションプロバイダーから抜け、機械学習アプリケーションや「Apache Spark」および「TensorFlow」のようなツールが、ビッグデータの取り組みの多くで注目を浴びるようになった。
従って、2017年12月半ばのHadoop 3.0リリースに伴う宣伝が控え目だったことに、それほどの驚きはない。だが今回のリリースには特筆すべき進化がある。登場から11年になるこの分散型データフレームワークのアップデートでは、ストレージ条件が低くなり、最新のグラフィックス処理ユニット(GPU)リソース上でのクラスタプールが可能になり、新しいフェデレーションスキームが加わって、要となるリソースマネジャーのYARNとジョブスケジューラが1つのクラスタで実行できるHadoopノードの数が大幅に増大した。
この後者の機能は、多くが目指していると思われるHadoopクラウドアプリケーションに利用できる。
「YARNのためのフェデレーションは、はるかに大型のクラスタへの拡張を意味する」。Microsoftの主席サイエンティストで、Hadoopの貢献者であり、Hadoop Project Management Committee(PMC)のメンバーでもあるカルロ・オルド・キュリノ氏はそう語る。フェデレーションによって実質的に、ルーティング層がHadoop Distributed File System(HDFS)クラスタの前に置かれるようになったと同氏は解説する。
キュリノ氏は、PMCメンバーとしての立場で話をしているのであって、Microsoftの立場から話をしているのではないと強調する。ただ、拡張性の向上は、Microsoftの「Microsoft Azure」のようなクラウドで役に立つと付け加えた。「最大級のHadoopクラスタ(の大半)は、これまでは数千ノードの前半の規模だったが、ユーザーは数万ノードへの拡張を望んでいる」と同氏は言う。
もしHadoopアプリケーションに、YARNを実行している何百万台ものマシンが含まれるようになれば、フェデレーションもそこに到達する必要が生じると同氏は指摘する。将来に目を向けると、Hadoopの今後のアップデートではYARNにスポットが当てられると同氏は予想する。
実際に、2013年にリリースされたHadoop 2.0では、YARNが最大の焦点だった。これは特に、もともとのMapReduce処理エンジンへの依存状態からHadoopを切り離したことによる。従って、これがHadoop 3.0で中心的な役割を担っていることに意外性はない。
キュリノ氏の予想では、YARNは分散型アーキテクチャの中で重要な新トレンドを推し進める。「YARNはサーバレス運動の原点だった」と同氏は言う。サーバレスのコンピューティングスキームは、Dockerコンテナを背景に浮上して存在感を増している。
同氏によると、正式提供が開始され、プロダクション対応となったHadoop 3.0に盛り込まれた重要なアップデートの一部は、これまでのポイントアップデートの中で醸成されてきた。
アドビ、Adobe Firefly機能搭載の「Adobe Express」モバイル版アプリを一般提供
アドビは、生成AI「Adobe Firefly」の機能を利用できる「Adobe Express」モバイル版アプ...
2度あることは3度あった GoogleのサードパーティーCookie廃止再延期にアドテク各社がコメント
Googleは2024年末までに完了する予定だったWebブラウザ「Chrome」でのサードパーティーCo...
天候と位置情報を活用 ルグランとジオロジックが新たな広告サービスを共同開発
ルグランとジオロジックが新たな「天気連動型広告」を共同開発した。ルグランが気象デー...