最も自動化が進んだクラウドベースのHadoopビッグデータ分析サービスを提供するベンダーはどこか。前編に続いて、IBM、MicrosoftのHadoop対応を見ていこう。
パブリッククラウドでApache Hadoopのインプリメンテーションを最も包括的な形で提供しているのはどのベンダーだろうか。前編「パブリッククラウドHadoop対応状況──Amazon、Google、Herokuの場合」では米Amazon.com、米Google、米Heroku(米Salesforce.com)のHadoop対応状況を紹介した。後編では米IBM、米MicrosoftのパブリックラウドのHadoop対応状況をまとめる。
IBMは2011年10月、IBM SmartCloud Enterpriseに「InfoSphere BigInsights Basic」という形でHadoopベースのデータ分析機能の提供を開始した。10Tバイトのデータまで管理できるBigInsights Basicは、Linuxシステム用に無償でダウンロードできる。一方、「BigInsights Enterprise」のダウンロードは有料。両ダウンロード版には、Apache Hadoop、HDFS、MapReduceフレームワークの他、Hadoopサブプロジェクトの完全セットが含まれる。さらにダウンロード版Enterpriseエディションには、テキストベースの分析プログラムを作成するためのEclipseベースのプラグイン、スプレッドシート型のデータディスカバリー/探索ツール、NetezzaとDB2への接続機能も含まれる。両エディションとも、統合型インストール/管理ツールが付属する。
筆者が作成した「Test-Driving IBM's SmartCloud Enterprise Infrastructure as a Service」チュートリアルのPart 1)とPart 2)では、2011年春に提供されたSmartCloud Enterpriseの無償トライアル版の管理機能について解説している。IBMの技術資料では、BigInsightsのダウンロード版のどの機能がパブリッククラウドで利用できるのかが明らかにされていない。同社の「Cloud Computing: Community resources for IT professionals」のページには、1つのソフトウェアイメージ(BigInsights Basic 1.1: Hadoop Master and Data Nodes)しか掲載されていない。IBMの担当者によると、SmartCloud版にはMapReduceやその他のHadoopサブオブジェクトは含まれないという。SmartCloud用として提供されているHadoopチュートリアルには、SmartCloud Enterprise上で3ノードのクラスタのプロビジョニングとテストを行う方法が説明されている。現行のクラウド版BigInsightsには、データ分析を行うための重要な要素が欠落しているように思える。
米Microsoftは「Apache Hadoop on Windows Azure(HoA)」を実装するために米Hortonworks(米Yahoo!から分社化した企業でHadoopのコンサルティングを専門とする)と提携した。HoAは2011年12月14日以来、招待制のコミュニティー技術プレビュー(CTPすなわちプライベートβ)の段階にとどまっている。
MicrosoftはHadoop分野に参入するまでは、ビッグデータ分析の処理にDryad(Microsoft Researchが開発したグラフ型データベース)、そしてハイパフォーマンスコンピューティング用アドオン(LINQ to HPC)を利用していた。Hadoop on Windows Azure CTPでは、「Small」(4コンピューティングノード、4Tバイトのストレージ)から「Extra Large」(32ノード、16 Tバイト)までの定義済みHadoopクラスタを用意することにより、MapReduceの運用を簡素化している。リリース前のコンピューティングノードやストレージを利用するためにCTPに参加するのは無料だ。
さらにMicrosoftは、HadoopでJavaScriptを主要なプログラミング言語の1つにするために新しいJavaScriptライブラリを提供している。これは、JavaScriptプログラマーがJavaScriptを使ってMapReduceプログラムを記述し、これらのジョブをWebブラウザから実行できることを意味する。これにより、HadoopとMapReduce導入のハードルが低くなる。CTPにはMicrosoft Excel用のHiveアドインが含まれており、ユーザーはHadoop内のデータをやりとりできる。このアドインからHiveクエリを発行することにより、Hadoopから取り出した非構造型データを、なじみのあるExcelのユーザーインタフェースを使って分析できる。同プレビュー版には、HadoopをMicrosoftの各種BI(ビジネスインテリジェンス)ツールに連係するためのHive ODBC Driverも含まれている。筆者はApache Hadoop Services for Windows Azureに関する最近のブログ記事の中で、MapReduceの4つのサンプルジョブ(図1)の1つであるTerasortベンチマークの実行方法について説明した。
2012年半ばに計画されているWindows Azureの新機能と機能強化の“春の一斉発表”でHoAのアップグレードも発表される予定だ。このアップグレードでは、HoA開発チームがさらに多くのテスターをCTPに受け入れるとともに、オンプレミスあるいはプライベート/ハイブリッドクラウドのインプリメンテーション用として約束されていた「Apache Hadoop on Windows Server 2008 R2」が提供されるもとのと思われる。Microsoftは2011年末から2012年初頭にかけて、Windows Azureのコンピュートインスタンスとストレージの料金を大幅に値下げした。Hadoop on Azureのリリース版は、Amazon Elastic MapReduceに対抗できる価格に設定されるだろう。
米Forrester Researchのアナリスト、ジェームズ・コビーラス氏はブログ記事の中で「ビッグデータ宇宙の中でHadoop/MapReduceは重要な開発フレームワークになるだろうが、それが唯一のフレームワークではない」と記しているが、筆者も同じ意見だ。Microsoftは.NET Framework用に「Cloud Numerics」というコードネームのCTPを提供している。これは、DevOpsチームがWindows Azure内の大規模な分散データセットに対して数値主体型の演算を実行することを可能にするというものだ。
Microsoft Researchは、MapReduceの反復型インプリメンテーションとなるプロジェクト「Daytona」によって、Windows Azure内でExcelによるクラウドデータ分析を実装するためのソースコードを公開した。しかし当分の間は、オープンソースのApache Hadoopと関連サブプロジェクトがクラウドホスティング分野を支配するものと予想される。
ビッグデータサイエンティストとデータ分析プロフェッショナルから最も強く支持されるのは、Hadoop、MapReduceおよびHiveで最も自動化されたインプリメンテーションを提供するPaaS業者だろう。セルフサービス型BIのユーザーが増える中、BIアプリケーション用にExcelフロントエンドを用意するMicrosoftのビッグデータ製品は機先を制することができそうだ。AWSとMicrosoftは現在、最も包括的かつ自動化が進んだクラウドベースのHadoopビッグデータ分析サービスを提供している。
Copyright © ITmedia, Inc. All Rights Reserved.
AIの進化が加速する「プラットフォームビジネス」とは?
マーケットプレイス構築を支援するMiraklが日本で初のイベントを開催し、新たな成長戦略...
「マーケティングオートメーション」 国内売れ筋TOP10(2024年12月)
今週は、マーケティングオートメーション(MA)ツールの売れ筋TOP10を紹介します。
2024年の消費者購買行動変化 「日本酒」に注目してみると……
2023年と比較して2024年の消費者の購買行動にはどのような変化があったのか。カタリナマ...