2017年05月16日 08時00分 UPDATE
特集/連載

エグゼクティブインタビューブルームバーグのデータサイエンス担当者が見た機械学習の課題

Bloombergでデータサイエンス(自然言語処理、情報の検索と取得、機械学習)を引きているギデオン・マン氏。2008年から機械学習を手掛けてきた同氏には、機械学習の可能性とともに課題も見えている。

[Cliff Saran,Computer Weekly]
Computer Weekly

 金融ニュースやデータを提供するBloombergのCTO(最高技術責任者)オフィスは4つの分野に重点的に取り組んでいる。そのうちの一分野がデータサイエンスで、これを率いるのがギデオン・マン氏だ。

Computer Weekly日本語版 5月10日号無料ダウンロード

本記事は、プレミアムコンテンツ「Computer Weekly日本語版 5月10日号」(PDF)掲載記事の抄訳版です。本記事の全文は、同プレミアムコンテンツで読むことができます。

なお、同コンテンツのEPUB版およびKindle(MOBI)版も提供しています。

ボタンボタン

 マン氏が考えるデータサイエンスはこれまでの定義とは異なるという。同氏は次のように話す。「データサイエンスには多種多様な定義がある。Bloombergでのデータサイエンスは従来の定義とは異なり、自然言語処理、情報の検索と取得、中核となる機械学習という3つのテクノロジー分野に重点を置いている」

 恐らく、情報の検索と取得がデータサイエンスの従来の定義に最も近いといえる。マン氏によれば、「1990年代、GoogleもBingもYahooもなかった時代を思い起こしてみると、当時はインターネットでは何も見つからなかった。これは今とは全く違う」という。

 だが、検索エンジンが進化しても限界があると同氏は話す。「目的のドキュメントを見つけたとしても、必要な情報の一部しか見つかっていない可能性もある。情報が複数のドキュメントに散在していればなすすべはない」

 あるテーマを調べるときは、図書館に出向いて目録を読み、本を探して集める。かつてはこれを何度も繰り返し、多くの時間を費やしていた。「ドキュメントを全て集めるのは速くなった。だが、事前に1カ所にまとめられていなければ、情報を評価する手順が必要になることは変わらない」と同氏は言う。

 無駄な情報があまりにも多い。検索エンジンが技術的に飛躍的な進化を遂げたとしても、その膨大な情報の中から真の意味を理解できる人はいないとマン氏は考える。「何が真実か、何が起きているか、別の事実があるかを判断しようとあらゆる議論が行われることで、ドキュメントを集めることから意味を引き出すことへの大きな一歩になる」と同氏は話す。

 Bloombergの自然言語処理は、テキストから情報を取り出す。マン氏によれば、例えば特定の企業に対する感情(センチメント)を見極めるのに自然言語処理を使える可能性があるという。「テキストには多くの情報が含まれている。例えば、Kraftの製品について調べるとする。これまでなら、データ分析を構築する手法を採用していた。これからは、複数のライブラリから情報を取り出すことを検討することになる」

中核となる機械学習

 通常、コンピュータは所定のデータセットを基に正しい結果を導き出すようプログラミングされるが、機械学習が問題を解決する方法はこれとは大きく異なる。そのため、特定の問題解決に機械学習が適しているとしても、IT担当者が当然のようにこの方法を採用することはないと考えられる。

 だが、マン氏は次のように指摘する。

この記事が気に入ったらTechTargetジャパンに「いいね!」しよう

この記事を読んだ人にお薦めのホワイトペーパー

この記事を読んだ人にお薦めの関連記事

Loading

注目テーマ

ITmedia マーケティング新着記事

news105.jpg

ソニーマーケティング、顧客満足度の向上につなげるカスタマーサービスのノウハウを外販
ソニーマーケティングは、企業と顧客との円滑なコミュニケーションをサポートし、顧客満...

news122.jpg

BIからAI(拡張知能)への進化、QlikのCTOが語る
さまざまな洞察を得るため、最適化されたビジュアルを提供するツールへ進化するセルフサ...

news024.jpg

Adobe Systems、テレビ広告運用プラットフォーム「Adobe Advertising Cloud TV」を発表
Adobe Systemsは、データに基づき自動的にテレビ広告のプランニングとバイイングができる...