パブリッククラウドのHadoop対応状況を比較する──IBM、Microsoftの場合クラウドビッグデータ元年のPaaS動向【後編】

最も自動化が進んだクラウドベースのHadoopビッグデータ分析サービスを提供するベンダーはどこか。前編に続いて、IBM、MicrosoftのHadoop対応を見ていこう。

2012年05月30日 09時00分 公開
[Roger Jennings,TechTarget]

 パブリッククラウドでApache Hadoopのインプリメンテーションを最も包括的な形で提供しているのはどのベンダーだろうか。前編「パブリッククラウドHadoop対応状況──Amazon、Google、Herokuの場合」では米Amazon.com、米Google、米Heroku(米Salesforce.com)のHadoop対応状況を紹介した。後編では米IBM、米MicrosoftのパブリックラウドのHadoop対応状況をまとめる。

IBMのSmartCloud用Apache Hadoop

 IBMは2011年10月、IBM SmartCloud Enterpriseに「InfoSphere BigInsights Basic」という形でHadoopベースのデータ分析機能の提供を開始した。10Tバイトのデータまで管理できるBigInsights Basicは、Linuxシステム用に無償でダウンロードできる。一方、「BigInsights Enterprise」のダウンロードは有料。両ダウンロード版には、Apache Hadoop、HDFS、MapReduceフレームワークの他、Hadoopサブプロジェクトの完全セットが含まれる。さらにダウンロード版Enterpriseエディションには、テキストベースの分析プログラムを作成するためのEclipseベースのプラグイン、スプレッドシート型のデータディスカバリー/探索ツール、NetezzaとDB2への接続機能も含まれる。両エディションとも、統合型インストール/管理ツールが付属する。

 筆者が作成した「Test-Driving IBM's SmartCloud Enterprise Infrastructure as a Service」チュートリアルのPart 1)とPart 2)では、2011年春に提供されたSmartCloud Enterpriseの無償トライアル版の管理機能について解説している。IBMの技術資料では、BigInsightsのダウンロード版のどの機能がパブリッククラウドで利用できるのかが明らかにされていない。同社の「Cloud Computing: Community resources for IT professionals」のページには、1つのソフトウェアイメージ(BigInsights Basic 1.1: Hadoop Master and Data Nodes)しか掲載されていない。IBMの担当者によると、SmartCloud版にはMapReduceやその他のHadoopサブオブジェクトは含まれないという。SmartCloud用として提供されているHadoopチュートリアルには、SmartCloud Enterprise上で3ノードのクラスタのプロビジョニングとテストを行う方法が説明されている。現行のクラウド版BigInsightsには、データ分析を行うための重要な要素が欠落しているように思える。

MicrosoftのApache Hadoop on Windows Azure

 米Microsoftは「Apache Hadoop on Windows Azure(HoA)」を実装するために米Hortonworks(米Yahoo!から分社化した企業でHadoopのコンサルティングを専門とする)と提携した。HoAは2011年12月14日以来、招待制のコミュニティー技術プレビュー(CTPすなわちプライベートβ)の段階にとどまっている。

 MicrosoftはHadoop分野に参入するまでは、ビッグデータ分析の処理にDryad(Microsoft Researchが開発したグラフ型データベース)、そしてハイパフォーマンスコンピューティング用アドオン(LINQ to HPC)を利用していた。Hadoop on Windows Azure CTPでは、「Small」(4コンピューティングノード、4Tバイトのストレージ)から「Extra Large」(32ノード、16 Tバイト)までの定義済みHadoopクラスタを用意することにより、MapReduceの運用を簡素化している。リリース前のコンピューティングノードやストレージを利用するためにCTPに参加するのは無料だ。

 さらにMicrosoftは、HadoopでJavaScriptを主要なプログラミング言語の1つにするために新しいJavaScriptライブラリを提供している。これは、JavaScriptプログラマーがJavaScriptを使ってMapReduceプログラムを記述し、これらのジョブをWebブラウザから実行できることを意味する。これにより、HadoopとMapReduce導入のハードルが低くなる。CTPにはMicrosoft Excel用のHiveアドインが含まれており、ユーザーはHadoop内のデータをやりとりできる。このアドインからHiveクエリを発行することにより、Hadoopから取り出した非構造型データを、なじみのあるExcelのユーザーインタフェースを使って分析できる。同プレビュー版には、HadoopをMicrosoftの各種BI(ビジネスインテリジェンス)ツールに連係するためのHive ODBC Driverも含まれている。筆者はApache Hadoop Services for Windows Azureに関する最近のブログ記事の中で、MapReduceの4つのサンプルジョブ(図1)の1つであるTerasortベンチマークの実行方法について説明した。

画像 図1:MicrosoftはHadoop/MapReduceの4つのサンプルプロジェクトを提供。「円周率(π)の計算」「Terasortベンチマークの実行」「WordCountベンチマークの実行」「C#を使ってストリーミングデータ用のMapReduceプログラムを記述する」《クリックで拡大》

 2012年半ばに計画されているWindows Azureの新機能と機能強化の“春の一斉発表”でHoAのアップグレードも発表される予定だ。このアップグレードでは、HoA開発チームがさらに多くのテスターをCTPに受け入れるとともに、オンプレミスあるいはプライベート/ハイブリッドクラウドのインプリメンテーション用として約束されていた「Apache Hadoop on Windows Server 2008 R2」が提供されるもとのと思われる。Microsoftは2011年末から2012年初頭にかけて、Windows Azureのコンピュートインスタンスとストレージの料金を大幅に値下げした。Hadoop on Azureのリリース版は、Amazon Elastic MapReduceに対抗できる価格に設定されるだろう。

ビッグデータはHadoopとMapReduceの普及を促す

 米Forrester Researchのアナリスト、ジェームズ・コビーラス氏はブログ記事の中で「ビッグデータ宇宙の中でHadoop/MapReduceは重要な開発フレームワークになるだろうが、それが唯一のフレームワークではない」と記しているが、筆者も同じ意見だ。Microsoftは.NET Framework用に「Cloud Numerics」というコードネームのCTPを提供している。これは、DevOpsチームがWindows Azure内の大規模な分散データセットに対して数値主体型の演算を実行することを可能にするというものだ。

 Microsoft Researchは、MapReduceの反復型インプリメンテーションとなるプロジェクト「Daytona」によって、Windows Azure内でExcelによるクラウドデータ分析を実装するためのソースコードを公開した。しかし当分の間は、オープンソースのApache Hadoopと関連サブプロジェクトがクラウドホスティング分野を支配するものと予想される。

 ビッグデータサイエンティストとデータ分析プロフェッショナルから最も強く支持されるのは、Hadoop、MapReduceおよびHiveで最も自動化されたインプリメンテーションを提供するPaaS業者だろう。セルフサービス型BIのユーザーが増える中、BIアプリケーション用にExcelフロントエンドを用意するMicrosoftのビッグデータ製品は機先を制することができそうだ。AWSとMicrosoftは現在、最も包括的かつ自動化が進んだクラウドベースのHadoopビッグデータ分析サービスを提供している。

Copyright © ITmedia, Inc. All Rights Reserved.

鬮ォ�エ�ス�ス�ス�ス�ス�ー鬯ィ�セ�ス�ケ�ス縺、ツ€鬩幢ス「隴取得�ス�ク陷エ�・�ス�。鬩幢ス「�ス�ァ�ス�ス�ス�、鬩幢ス「隴主�讓滂ソス�ス�ス�ス鬩幢ス「隴趣ス「�ス�ス�ス�シ鬩幢ス「隴乗��ス�サ�ス�」�ス�ス�ス�ス

製品資料 サイオステクノロジー株式会社

ITインフラの自動化を実現、いま注目のクラウド型マネージドサービスの実力

複雑化を続けるITシステムの運用管理は、企業にとって大きな負担だ。そこで負担を軽減するものとして注目したいのが、クラウド上でさまざまな機能を利用できるマネージドサービスだ。本資料では、その詳細を解説する。

事例 プリサイスリー・ソフトウェア株式会社

SAPデータの処理時間を4分の1に短縮、ロクシタンはどうやって実現した?

SAP ERPを活用して、事業部門のデータ作成/変更を行っているロクシタンでは、マスターデータ管理の煩雑さに伴う、処理時間の長さが課題となっていた。これを解消し、SAPデータの処理時間を4分の1に短縮した方法とは?

事例 株式会社primeNumber

一週間かかっていたデータ転送が30分で完了、事例に学ぶデータ基盤の導入効果

データの利活用を進めるためにはデータ基盤の導入が必要だ。しかし、データ基盤を構築/運用するためにはさまざまな課題を乗り越えなければならない。本資料では、データ活用環境の構築に成功した15社の事例からそのヒントを解説する。

製品レビュー 日本オラクル株式会社

有用なインサイトを獲得するには? 実践を阻む課題を解消するデータ基盤活用術

データから得られるインサイトを活用して、企業の競争力を強化していくことの重要性が高まっている。しかし、有用なインサイトの生成は簡単なことではない。その実践を阻む課題を確認しながら、解決策について解説する。

製品資料 ユーソナー株式会社

潜在ターゲットへのアプローチを効率化、消費者の真のニーズを捉える方法とは?

昨今、法人営業においては消費者のニーズを正確に捉え、迅速に対応することが求められている。こうした中で注目されているのが、インテントデータ活用による顧客の興味関心の可視化だ。本資料では、インテントデータのポイントを解説する。

驛「譎冗函�趣スヲ驛「謨鳴€驛「譎「�ス�シ驛「�ァ�ス�ウ驛「譎「�ス�ウ驛「譎「�ソ�ス�趣スヲ驛「譎「�ソ�スPR

From Informa TechTarget

お知らせ
米国TechTarget Inc.とInforma Techデジタル事業が業務提携したことが発表されました。TechTargetジャパンは従来どおり、アイティメディア(株)が運営を継続します。これからも日本企業のIT選定に役立つ情報を提供してまいります。

繧「繧ッ繧サ繧ケ繝ゥ繝ウ繧ュ繝ウ繧ー

2025/04/24 UPDATE

パブリッククラウドのHadoop対応状況を比較する──IBM、Microsoftの場合:クラウドビッグデータ元年のPaaS動向【後編】 - TechTargetジャパン データ分析 髫エ�ス�ス�ー鬨セ�ケ�つ€鬮ォ�ェ陋滂ソス�ス�コ�ス�ス

TechTarget驛「�ァ�ス�ク驛「譎「�ス�」驛「譏懶スサ�」�趣スヲ 髫エ�ス�ス�ー鬨セ�ケ�つ€鬮ォ�ェ陋滂ソス�ス�コ�ス�ス

鬩幢ス「隴取得�ス�ク陷エ�・�ス�。鬩幢ス「�ス�ァ�ス�ス�ス�、鬩幢ス「隴主�讓滂ソス�ス�ス�ス鬩幢ス「隴趣ス「�ス�ス�ス�シ鬩幢ス「隴乗��ス�サ�ス�」�ス�ス�ス�ス鬩幢ス「隴趣ス「�ス�ス�ス�ゥ鬩幢ス「隴趣ス「�ス�ス�ス�ウ鬩幢ス「�ス�ァ�ス�ス�ス�ュ鬩幢ス「隴趣ス「�ス�ス�ス�ウ鬩幢ス「�ス�ァ�ス�ス�ス�ー

2025/04/24 UPDATE

ITmedia マーケティング新着記事

news046.png

「ECプラットフォーム」売れ筋TOP10(2025年4月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。

news026.png

「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年4月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...

news130.jpg

Cookieを超える「マルチリターゲティング」 広告効果に及ぼす影響は?
Cookieレスの課題解決の鍵となる「マルチリターゲティング」を題材に、AI技術によるROI向...