ブルームバーグのデータサイエンス担当者が見た機械学習の課題：エグゼクティブインタビュー

Bloombergでデータサイエンス（自然言語処理、情報の検索と取得、機械学習）を引きているギデオン・マン氏。2008年から機械学習を手掛けてきた同氏には、機械学習の可能性とともに課題も見えている。

≫ 2017年05月16日 08時00分公開

[Cliff Saran，Computer Weekly]

　金融ニュースやデータを提供するBloombergのCTO（最高技術責任者）オフィスは4つの分野に重点的に取り組んでいる。そのうちの一分野がデータサイエンスで、これを率いるのがギデオン・マン氏だ。

Computer Weekly日本語版　5月10日号無料ダウンロード

本記事は、プレミアムコンテンツ「Computer Weekly日本語版　5月10日号」（PDF）掲載記事の抄訳版です。本記事の全文は、同プレミアムコンテンツで読むことができます。

Computer Weekly日本語版　5月10日号：システム導入を阻む反対派への対処法

なお、同コンテンツのEPUB版およびKindle（MOBI）版も提供しています。

　マン氏が考えるデータサイエンスはこれまでの定義とは異なるという。同氏は次のように話す。「データサイエンスには多種多様な定義がある。Bloombergでのデータサイエンスは従来の定義とは異なり、自然言語処理、情報の検索と取得、中核となる機械学習という3つのテクノロジー分野に重点を置いている」

　恐らく、情報の検索と取得がデータサイエンスの従来の定義に最も近いといえる。マン氏によれば、「1990年代、GoogleもBingもYahooもなかった時代を思い起こしてみると、当時はインターネットでは何も見つからなかった。これは今とは全く違う」という。

　だが、検索エンジンが進化しても限界があると同氏は話す。「目的のドキュメントを見つけたとしても、必要な情報の一部しか見つかっていない可能性もある。情報が複数のドキュメントに散在していればなすすべはない」

　あるテーマを調べるときは、図書館に出向いて目録を読み、本を探して集める。かつてはこれを何度も繰り返し、多くの時間を費やしていた。「ドキュメントを全て集めるのは速くなった。だが、事前に1カ所にまとめられていなければ、情報を評価する手順が必要になることは変わらない」と同氏は言う。

　無駄な情報があまりにも多い。検索エンジンが技術的に飛躍的な進化を遂げたとしても、その膨大な情報の中から真の意味を理解できる人はいないとマン氏は考える。「何が真実か、何が起きているか、別の事実があるかを判断しようとあらゆる議論が行われることで、ドキュメントを集めることから意味を引き出すことへの大きな一歩になる」と同氏は話す。

　Bloombergの自然言語処理は、テキストから情報を取り出す。マン氏によれば、例えば特定の企業に対する感情（センチメント）を見極めるのに自然言語処理を使える可能性があるという。「テキストには多くの情報が含まれている。例えば、Kraftの製品について調べるとする。これまでなら、データ分析を構築する手法を採用していた。これからは、複数のライブラリから情報を取り出すことを検討することになる」

中核となる機械学習

　通常、コンピュータは所定のデータセットを基に正しい結果を導き出すようプログラミングされるが、機械学習が問題を解決する方法はこれとは大きく異なる。そのため、特定の問題解決に機械学習が適しているとしても、IT担当者が当然のようにこの方法を採用することはないと考えられる。

　だが、マン氏は次のように指摘する。

続きはComputer Weekly日本語版　5月10日号にて

本記事は抄訳版です。全文は、以下でダウンロード（無料）できます。

Computer Weekly日本語版　5月10日号：システム導入を阻む反対派への対処法

■Computer Weekly日本語版最近のバックナンバー

Computer Weekly日本語版　4月19日号　RAID vs. イレージャーコーディング

Computer Weekly日本語版　4月5日号　ファイアウォール管理の悩み

Computer Weekly日本語版　3月22日号　ムーアの法則との決別

TechTargetジャパントップデータ分析