検索
特集/連載

Hadoop 3.0が“控え目”にデビュー、クラウドとGPU対応を強化ブームは去っても重要なインフラに変わりはない

今はポストHadoopの時代なのか。支持者に言わせれば、ビッグデータフレームワークの最新版「Apache Hadoop 3.0」は機械学習アプリケーションとクラウドシステムで成功を収めており、まだその時代は終わっていない。

Share
Tweet
LINE
Hatena

 華々しい新技術の中でもまだ居場所はあるかもしれないが、「Apache Hadoop」はかつてのような目新しい存在でも、華々しい存在でもなくなった。そのことは、やや控え目な「Apache Hadoop 3.0」のデビューに反映されている。

 それを表す事例として2017年、かつて“Hadoopカンファレンス”として知られていた複数のイベントから、Hadoopの名が消えた。また、IBMがHadoopのディストリビューションプロバイダーから抜け、機械学習アプリケーションや「Apache Spark」および「TensorFlow」のようなツールが、ビッグデータの取り組みの多くで注目を浴びるようになった。

 従って、2017年12月半ばのHadoop 3.0リリースに伴う宣伝が控え目だったことに、それほどの驚きはない。だが今回のリリースには特筆すべき進化がある。登場から11年になるこの分散型データフレームワークのアップデートでは、ストレージ条件が低くなり、最新のグラフィックス処理ユニット(GPU)リソース上でのクラスタプールが可能になり、新しいフェデレーションスキームが加わって、要となるリソースマネジャーのYARNとジョブスケジューラが1つのクラスタで実行できるHadoopノードの数が大幅に増大した。

 この後者の機能は、多くが目指していると思われるHadoopクラウドアプリケーションに利用できる。

数万ノードへの拡張

 「YARNのためのフェデレーションは、はるかに大型のクラスタへの拡張を意味する」。Microsoftの主席サイエンティストで、Hadoopの貢献者であり、Hadoop Project Management Committee(PMC)のメンバーでもあるカルロ・オルド・キュリノ氏はそう語る。フェデレーションによって実質的に、ルーティング層がHadoop Distributed File System(HDFS)クラスタの前に置かれるようになったと同氏は解説する。

 キュリノ氏は、PMCメンバーとしての立場で話をしているのであって、Microsoftの立場から話をしているのではないと強調する。ただ、拡張性の向上は、Microsoftの「Microsoft Azure」のようなクラウドで役に立つと付け加えた。「最大級のHadoopクラスタ(の大半)は、これまでは数千ノードの前半の規模だったが、ユーザーは数万ノードへの拡張を望んでいる」と同氏は言う。

 もしHadoopアプリケーションに、YARNを実行している何百万台ものマシンが含まれるようになれば、フェデレーションもそこに到達する必要が生じると同氏は指摘する。将来に目を向けると、Hadoopの今後のアップデートではYARNにスポットが当てられると同氏は予想する。

 実際に、2013年にリリースされたHadoop 2.0では、YARNが最大の焦点だった。これは特に、もともとのMapReduce処理エンジンへの依存状態からHadoopを切り離したことによる。従って、これがHadoop 3.0で中心的な役割を担っていることに意外性はない。

 キュリノ氏の予想では、YARNは分散型アーキテクチャの中で重要な新トレンドを推し進める。「YARNはサーバレス運動の原点だった」と同氏は言う。サーバレスのコンピューティングスキームは、Dockerコンテナを背景に浮上して存在感を増している。

 同氏によると、正式提供が開始され、プロダクション対応となったHadoop 3.0に盛り込まれた重要なアップデートの一部は、これまでのポイントアップデートの中で醸成されてきた。

Hadoop 3.0の内容

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る