検索
特集/連載

パブリッククラウドのHadoop対応状況を比較する──IBM、Microsoftの場合クラウドビッグデータ元年のPaaS動向【後編】

最も自動化が進んだクラウドベースのHadoopビッグデータ分析サービスを提供するベンダーはどこか。前編に続いて、IBM、MicrosoftのHadoop対応を見ていこう。

PC用表示 関連情報
Share
Tweet
LINE
Hatena

 パブリッククラウドでApache Hadoopのインプリメンテーションを最も包括的な形で提供しているのはどのベンダーだろうか。前編「パブリッククラウドHadoop対応状況──Amazon、Google、Herokuの場合」では米Amazon.com、米Google、米Heroku(米Salesforce.com)のHadoop対応状況を紹介した。後編では米IBM、米MicrosoftのパブリックラウドのHadoop対応状況をまとめる。

IBMのSmartCloud用Apache Hadoop

 IBMは2011年10月、IBM SmartCloud Enterpriseに「InfoSphere BigInsights Basic」という形でHadoopベースのデータ分析機能の提供を開始した。10Tバイトのデータまで管理できるBigInsights Basicは、Linuxシステム用に無償でダウンロードできる。一方、「BigInsights Enterprise」のダウンロードは有料。両ダウンロード版には、Apache Hadoop、HDFS、MapReduceフレームワークの他、Hadoopサブプロジェクトの完全セットが含まれる。さらにダウンロード版Enterpriseエディションには、テキストベースの分析プログラムを作成するためのEclipseベースのプラグイン、スプレッドシート型のデータディスカバリー/探索ツール、NetezzaとDB2への接続機能も含まれる。両エディションとも、統合型インストール/管理ツールが付属する。

 筆者が作成した「Test-Driving IBM's SmartCloud Enterprise Infrastructure as a Service」チュートリアルのPart 1)とPart 2)では、2011年春に提供されたSmartCloud Enterpriseの無償トライアル版の管理機能について解説している。IBMの技術資料では、BigInsightsのダウンロード版のどの機能がパブリッククラウドで利用できるのかが明らかにされていない。同社の「Cloud Computing: Community resources for IT professionals」のページには、1つのソフトウェアイメージ(BigInsights Basic 1.1: Hadoop Master and Data Nodes)しか掲載されていない。IBMの担当者によると、SmartCloud版にはMapReduceやその他のHadoopサブオブジェクトは含まれないという。SmartCloud用として提供されているHadoopチュートリアルには、SmartCloud Enterprise上で3ノードのクラスタのプロビジョニングとテストを行う方法が説明されている。現行のクラウド版BigInsightsには、データ分析を行うための重要な要素が欠落しているように思える。

MicrosoftのApache Hadoop on Windows Azure

 米Microsoftは「Apache Hadoop on Windows Azure(HoA)」を実装するために米Hortonworks(米Yahoo!から分社化した企業でHadoopのコンサルティングを専門とする)と提携した。HoAは2011年12月14日以来、招待制のコミュニティー技術プレビュー(CTPすなわちプライベートβ)の段階にとどまっている。

 MicrosoftはHadoop分野に参入するまでは、ビッグデータ分析の処理にDryad(Microsoft Researchが開発したグラフ型データベース)、そしてハイパフォーマンスコンピューティング用アドオン(LINQ to HPC)を利用していた。Hadoop on Windows Azure CTPでは、「Small」(4コンピューティングノード、4Tバイトのストレージ)から「Extra Large」(32ノード、16 Tバイト)までの定義済みHadoopクラスタを用意することにより、MapReduceの運用を簡素化している。リリース前のコンピューティングノードやストレージを利用するためにCTPに参加するのは無料だ。

 さらにMicrosoftは、HadoopでJavaScriptを主要なプログラミング言語の1つにするために新しいJavaScriptライブラリを提供している。これは、JavaScriptプログラマーがJavaScriptを使ってMapReduceプログラムを記述し、これらのジョブをWebブラウザから実行できることを意味する。これにより、HadoopとMapReduce導入のハードルが低くなる。CTPにはMicrosoft Excel用のHiveアドインが含まれており、ユーザーはHadoop内のデータをやりとりできる。このアドインからHiveクエリを発行することにより、Hadoopから取り出した非構造型データを、なじみのあるExcelのユーザーインタフェースを使って分析できる。同プレビュー版には、HadoopをMicrosoftの各種BI(ビジネスインテリジェンス)ツールに連係するためのHive ODBC Driverも含まれている。筆者はApache Hadoop Services for Windows Azureに関する最近のブログ記事の中で、MapReduceの4つのサンプルジョブ(図1)の1つであるTerasortベンチマークの実行方法について説明した。

画像
図1:MicrosoftはHadoop/MapReduceの4つのサンプルプロジェクトを提供。「円周率(π)の計算」「Terasortベンチマークの実行」「WordCountベンチマークの実行」「C#を使ってストリーミングデータ用のMapReduceプログラムを記述する」《クリックで拡大》

 2012年半ばに計画されているWindows Azureの新機能と機能強化の“春の一斉発表”でHoAのアップグレードも発表される予定だ。このアップグレードでは、HoA開発チームがさらに多くのテスターをCTPに受け入れるとともに、オンプレミスあるいはプライベート/ハイブリッドクラウドのインプリメンテーション用として約束されていた「Apache Hadoop on Windows Server 2008 R2」が提供されるもとのと思われる。Microsoftは2011年末から2012年初頭にかけて、Windows Azureのコンピュートインスタンスとストレージの料金を大幅に値下げした。Hadoop on Azureのリリース版は、Amazon Elastic MapReduceに対抗できる価格に設定されるだろう。

ビッグデータはHadoopとMapReduceの普及を促す

 米Forrester Researchのアナリスト、ジェームズ・コビーラス氏はブログ記事の中で「ビッグデータ宇宙の中でHadoop/MapReduceは重要な開発フレームワークになるだろうが、それが唯一のフレームワークではない」と記しているが、筆者も同じ意見だ。Microsoftは.NET Framework用に「Cloud Numerics」というコードネームのCTPを提供している。これは、DevOpsチームがWindows Azure内の大規模な分散データセットに対して数値主体型の演算を実行することを可能にするというものだ。

 Microsoft Researchは、MapReduceの反復型インプリメンテーションとなるプロジェクト「Daytona」によって、Windows Azure内でExcelによるクラウドデータ分析を実装するためのソースコードを公開した。しかし当分の間は、オープンソースのApache Hadoopと関連サブプロジェクトがクラウドホスティング分野を支配するものと予想される。

 ビッグデータサイエンティストとデータ分析プロフェッショナルから最も強く支持されるのは、Hadoop、MapReduceおよびHiveで最も自動化されたインプリメンテーションを提供するPaaS業者だろう。セルフサービス型BIのユーザーが増える中、BIアプリケーション用にExcelフロントエンドを用意するMicrosoftのビッグデータ製品は機先を制することができそうだ。AWSとMicrosoftは現在、最も包括的かつ自動化が進んだクラウドベースのHadoopビッグデータ分析サービスを提供している。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る