英国の公共テレビ局Channel 4では、どのようにビッグデータを管理し、オンデマンドサービスを提供しているのか? 同社CTOが本音を語る。
デービッド・アブラハム氏は、3年前に英公共テレビ局Channel 4の最高経営責任者に就任した。そのとき彼の頭の中は、「データ」のことでいっぱいだった。
アブラハム氏は、オンラインテレビの試聴者が生成するデータを活用できれば、Channel 4は競合と差別化できる新しいサービスを開発できることに、早々に気が付いていたのだ。
本記事は、プレミアムコンテンツ「Computer Weekly日本語版 2013年8月7日号」(PDF)掲載記事の抄訳版です。本記事の全文は、同プレミアムコンテンツで読むことができます。
なお、同コンテンツのEPUB版およびKindle(MOBI)版も提供しています。
「アブラハムは、データを収集、高速処理、分析して、(Channel 4の)事業にデータを活用したがっていた」と話すのは、同局の最高技術責任者(CTO)、ボブ・ハリス氏だ。
例えば、視聴者が好きな端末を使って、番組の続きを前回中断したところから視聴できる機能や、視聴者のそれまでの視聴履歴を基に、関心がありそうな番組のメニューを提供するといった簡単なことでも、付加価値サービスになるだろう。
「しかし、Channel 4をデータ主導型のテレビ局にするというアブラハムのビジョンを実現するのであれば、ITについての考えを変えなければならなかった」(ハリス氏)
Channel 4は、既にビジネスインテリジェンス(BI)実現のために最新のITシステムを導入していた。Channel 4では、SunサーバでOracleデータベースを実行し、SAPのBusinessObjectsスイートとIBMのSPSS統計解析ソフトウェアをデータ分析に使っていた。このシステムは、広告売上をほぼリアルタイムで分析できるほど強力だが、アブラハム氏の頭にあるビッグデータ活用には適していなかった。
「データベース担当者、データ記録担当者、BIチームと会合を持ち、データの急増にどのように対応していくかを論議した」とハリス氏は語る。
Channel 4の研究開発部門は早くも2001年に、台頭し始めたビッグデータ関連テクノロジーの動向を追い始めた。その中で際立っていたのが、Hadoop MapReduceだ。これは、オープンソースコミュニティーによって開発されたソフトウェアフレームワークで、膨大なデータを分析・処理するプログラムの開発を可能にする。「(Hadoop MapReduceは)大量のデータを扱うための、最先端のテクノロジーであるように思えた」とハリス氏はコメントしている。ITチームは、Clouderaなどのビッグデータを専門とする企業の協力の下で、幾つかの概念実証試験を実施した。しかし、これはハリス氏の予想よりも困難な作業であることが分かった。
「ビッグデータの分析や処理を行うプログラムを安価なコンピュータを使って社内で開発するのは、人がいうほど簡単ではないと判断した」(ハリス氏)
そこでChannel 4は、同局のメインのクラウドコンピューティングサービスプロバイダーである米Amazonが提供する、オンデマンドのビッグデータサービスを検討し始めた。
結局、Channel 4はAmazonのElastic MapReduce(EMR)サービスを選んだ。EMRは、Hadoopを使ったオンデマンドのビッグデータ処理機能を提供する。ハリス氏は、2012年いっぱいは、Channel 4の既存のBIシステムと並行してEMRを運用し、成果を比較することにした。
「最初は、弊社のBIシステムで大量のビッグデータ処理を始めたが、EMRを代わりに使うようになった」とハリス氏は言う。EMRの方が従来のBIソフトウェアよりも段違いに大量のデータを処理でき、Channel 4のデータをはるかに短い時間で処理できることが明らかになった。
「数日かかっていたジョブのほとんどが、10時間未満で処理できるようになったので、生産性が大幅に向上した」(ハリス氏)
生産性は、デスクトップPCから膨大な量のデータを探索できるHadoop用のプログラミングツール「Hive」を導入したことで、さらに向上した。
ユーザーは各自のデスクトップPCから数十万行のデータをクエリでき、結果は数分〜数時間で出るという。これだけ大量のデータを処理する場合のメリットは、全体の1〜2%以下であることが前提だが、質の悪いデータがあっても、重大な問題を引き起こすことなく除外できることだ。
「あまりに細かい点にこだわりすぎないようにしよう。われわれが目指しているのは統計分析であり、銀行取引のような、内容が限られたトランザクションを扱うのではないのだから」。Channel 4では、Hiveのクエリ結果の分析に、従来のデータベースとBIスイートを利用できている。
通常、1回のビッグデータ探索では、2000万行のデータが処理され、1000万行の結果が生成される。結果として返された1000万行の格納先として最適な場所は、一般的なデータウェアハウスだというのが、ハリス氏の意見だ。
Channel 4は、従来のBIテクノロジーに数千万ポンドを投じていて、腕の立つスタッフを抱えている。また、大半の従来のITメーカーは、ビッグデータ向けのインタフェースを開発しているため、従来のBIシステムをすぐに置き換える必要はないとハリス氏は見ている。
「私自身も含めて、大抵のITリーダーは、数百万ポンドを投資してきているので、こういった(従来の)テクノロジーは当面はなくならないだろう」
ハリス氏にとって、Channel 4のこれまでの過程は、Hadoopなどビッグデータ専用のテクノロジーの方が、リレーショナルデータベース管理システム(RDBMS)を基盤とする従来のBIテクノロジーよりもはるかに優れていることを示している。
「同じジョブでも、MapReduceでは数時間で処理できるところを、RDBMSテクノロジーを実行する高性能のSunサーバでは数百日を要する上、コストも跳ね上がる」とハリス氏は語る。ITベンダーは、超並列コンピュータを基盤にプロプライエタリ製品を開発しているが、そういった製品から得られる投資1ポンド当たりのリターンは、Hadoopと比べてかなり劣る。
ハリス氏は「こういったプロプライエタリ製品に投資をしている大勢のユーザーと話をしたが、それらの製品で全ての要件に対応できていると答えた人は1人もいない」というエピソードを紹介。実際にビッグデータテクノロジーを導入するのであれば、商用パッケージソフトウェアではなく、Hadoopなどのオープンソースソフトウェアを選ぶ方が賢明だとしている。
ハリス氏は、オープンソーステクノロジーこそ「最先端の」テクノロジーであり、「本当に問題を解決できるプロプライエタリのビッグデータテクノロジーは見たことがない。多くのベンダーが、オープンソースソフトウェアと安いハードウェアを組み合わせて、それぞれにパッケージ製品を作り、法外な値段で売ろうとしている」(ハリス氏)
本記事は抄訳版です。全文は、以下でダウンロード(無料)できます。
Copyright © ITmedia, Inc. All Rights Reserved.
AIの進化が加速する「プラットフォームビジネス」とは?
マーケットプレイス構築を支援するMiraklが日本で初のイベントを開催し、新たな成長戦略...
「マーケティングオートメーション」 国内売れ筋TOP10(2024年12月)
今週は、マーケティングオートメーション(MA)ツールの売れ筋TOP10を紹介します。
2024年の消費者購買行動変化 「日本酒」に注目してみると……
2023年と比較して2024年の消費者の購買行動にはどのような変化があったのか。カタリナマ...