「プロプライエタリ製品はダメ」、英公共テレビ局のビッグデータ導入記オープンソースこそ「最先端の」テクノロジー

英国の公共テレビ局Channel 4では、どのようにビッグデータを管理し、オンデマンドサービスを提供しているのか? 同社CTOが本音を語る。

2013年08月16日 08時00分 公開
[Bill Goodwin,Computer Weekly]
Computer Weekly

 デービッド・アブラハム氏は、3年前に英公共テレビ局Channel 4の最高経営責任者に就任した。そのとき彼の頭の中は、「データ」のことでいっぱいだった。

 アブラハム氏は、オンラインテレビの試聴者が生成するデータを活用できれば、Channel 4は競合と差別化できる新しいサービスを開発できることに、早々に気が付いていたのだ。

Computer Weekly日本語版 2013年8月7日号無料ダウンロード

本記事は、プレミアムコンテンツ「Computer Weekly日本語版 2013年8月7日号」(PDF)掲載記事の抄訳版です。本記事の全文は、同プレミアムコンテンツで読むことができます。

なお、同コンテンツのEPUB版およびKindle(MOBI)版も提供しています。


 「アブラハムは、データを収集、高速処理、分析して、(Channel 4の)事業にデータを活用したがっていた」と話すのは、同局の最高技術責任者(CTO)、ボブ・ハリス氏だ。

 例えば、視聴者が好きな端末を使って、番組の続きを前回中断したところから視聴できる機能や、視聴者のそれまでの視聴履歴を基に、関心がありそうな番組のメニューを提供するといった簡単なことでも、付加価値サービスになるだろう。

BIとは異なるアプローチが必要

 「しかし、Channel 4をデータ主導型のテレビ局にするというアブラハムのビジョンを実現するのであれば、ITについての考えを変えなければならなかった」(ハリス氏)

 Channel 4は、既にビジネスインテリジェンス(BI)実現のために最新のITシステムを導入していた。Channel 4では、SunサーバでOracleデータベースを実行し、SAPのBusinessObjectsスイートとIBMのSPSS統計解析ソフトウェアをデータ分析に使っていた。このシステムは、広告売上をほぼリアルタイムで分析できるほど強力だが、アブラハム氏の頭にあるビッグデータ活用には適していなかった。

急増するデータを考えたツール選定

 「データベース担当者、データ記録担当者、BIチームと会合を持ち、データの急増にどのように対応していくかを論議した」とハリス氏は語る。

 Channel 4の研究開発部門は早くも2001年に、台頭し始めたビッグデータ関連テクノロジーの動向を追い始めた。その中で際立っていたのが、Hadoop MapReduceだ。これは、オープンソースコミュニティーによって開発されたソフトウェアフレームワークで、膨大なデータを分析・処理するプログラムの開発を可能にする。「(Hadoop MapReduceは)大量のデータを扱うための、最先端のテクノロジーであるように思えた」とハリス氏はコメントしている。ITチームは、Clouderaなどのビッグデータを専門とする企業の協力の下で、幾つかの概念実証試験を実施した。しかし、これはハリス氏の予想よりも困難な作業であることが分かった。

 「ビッグデータの分析や処理を行うプログラムを安価なコンピュータを使って社内で開発するのは、人がいうほど簡単ではないと判断した」(ハリス氏)

 そこでChannel 4は、同局のメインのクラウドコンピューティングサービスプロバイダーである米Amazonが提供する、オンデマンドのビッグデータサービスを検討し始めた。

AmazonのElastic MapReduce

 結局、Channel 4はAmazonのElastic MapReduce(EMR)サービスを選んだ。EMRは、Hadoopを使ったオンデマンドのビッグデータ処理機能を提供する。ハリス氏は、2012年いっぱいは、Channel 4の既存のBIシステムと並行してEMRを運用し、成果を比較することにした。

 「最初は、弊社のBIシステムで大量のビッグデータ処理を始めたが、EMRを代わりに使うようになった」とハリス氏は言う。EMRの方が従来のBIソフトウェアよりも段違いに大量のデータを処理でき、Channel 4のデータをはるかに短い時間で処理できることが明らかになった。

 「数日かかっていたジョブのほとんどが、10時間未満で処理できるようになったので、生産性が大幅に向上した」(ハリス氏)

デスクトップPCから数十万行のデータを照会

 生産性は、デスクトップPCから膨大な量のデータを探索できるHadoop用のプログラミングツール「Hive」を導入したことで、さらに向上した。

 ユーザーは各自のデスクトップPCから数十万行のデータをクエリでき、結果は数分〜数時間で出るという。これだけ大量のデータを処理する場合のメリットは、全体の1〜2%以下であることが前提だが、質の悪いデータがあっても、重大な問題を引き起こすことなく除外できることだ。

 「あまりに細かい点にこだわりすぎないようにしよう。われわれが目指しているのは統計分析であり、銀行取引のような、内容が限られたトランザクションを扱うのではないのだから」。Channel 4では、Hiveのクエリ結果の分析に、従来のデータベースとBIスイートを利用できている。

 通常、1回のビッグデータ探索では、2000万行のデータが処理され、1000万行の結果が生成される。結果として返された1000万行の格納先として最適な場所は、一般的なデータウェアハウスだというのが、ハリス氏の意見だ。

 Channel 4は、従来のBIテクノロジーに数千万ポンドを投じていて、腕の立つスタッフを抱えている。また、大半の従来のITメーカーは、ビッグデータ向けのインタフェースを開発しているため、従来のBIシステムをすぐに置き換える必要はないとハリス氏は見ている。

 「私自身も含めて、大抵のITリーダーは、数百万ポンドを投資してきているので、こういった(従来の)テクノロジーは当面はなくならないだろう」

ビッグデータから得た教訓

 ハリス氏にとって、Channel 4のこれまでの過程は、Hadoopなどビッグデータ専用のテクノロジーの方が、リレーショナルデータベース管理システム(RDBMS)を基盤とする従来のBIテクノロジーよりもはるかに優れていることを示している。

 「同じジョブでも、MapReduceでは数時間で処理できるところを、RDBMSテクノロジーを実行する高性能のSunサーバでは数百日を要する上、コストも跳ね上がる」とハリス氏は語る。ITベンダーは、超並列コンピュータを基盤にプロプライエタリ製品を開発しているが、そういった製品から得られる投資1ポンド当たりのリターンは、Hadoopと比べてかなり劣る。

 ハリス氏は「こういったプロプライエタリ製品に投資をしている大勢のユーザーと話をしたが、それらの製品で全ての要件に対応できていると答えた人は1人もいない」というエピソードを紹介。実際にビッグデータテクノロジーを導入するのであれば、商用パッケージソフトウェアではなく、Hadoopなどのオープンソースソフトウェアを選ぶ方が賢明だとしている。

 ハリス氏は、オープンソーステクノロジーこそ「最先端の」テクノロジーであり、「本当に問題を解決できるプロプライエタリのビッグデータテクノロジーは見たことがない。多くのベンダーが、オープンソースソフトウェアと安いハードウェアを組み合わせて、それぞれにパッケージ製品を作り、法外な値段で売ろうとしている」(ハリス氏)

Hadoopが技術者の間に巻き起こす宗教的な議論

続きはComputer Weekly日本語版 2013年8月7日号にて

本記事は抄訳版です。全文は、以下でダウンロード(無料)できます。


ITmedia マーケティング新着記事

news149.jpg

最も利用率の高いショート動画サービスはTikTokではない?
ADKマーケティング・ソリューションズは、ショート動画に関する調査結果を発表しました。

news131.jpg

古くて新しいMMM(マーケティングミックスモデリング)が今注目される理由
大手コスメブランドのEstee Lauder Companiesはブランドマーケティングとパフォーマンス...

news087.png

Yahoo!広告 検索広告、生成AIがタイトルや説明文を提案してくれる機能を無料で提供
LINEヤフーは「Yahoo!広告 検索広告」において、ユーザーが誘導先サイトのURLを入力する...