Bloombergでデータサイエンス(自然言語処理、情報の検索と取得、機械学習)を引きているギデオン・マン氏。2008年から機械学習を手掛けてきた同氏には、機械学習の可能性とともに課題も見えている。
金融ニュースやデータを提供するBloombergのCTO(最高技術責任者)オフィスは4つの分野に重点的に取り組んでいる。そのうちの一分野がデータサイエンスで、これを率いるのがギデオン・マン氏だ。
本記事は、プレミアムコンテンツ「Computer Weekly日本語版 5月10日号」(PDF)掲載記事の抄訳版です。本記事の全文は、同プレミアムコンテンツで読むことができます。
なお、同コンテンツのEPUB版およびKindle(MOBI)版も提供しています。
マン氏が考えるデータサイエンスはこれまでの定義とは異なるという。同氏は次のように話す。「データサイエンスには多種多様な定義がある。Bloombergでのデータサイエンスは従来の定義とは異なり、自然言語処理、情報の検索と取得、中核となる機械学習という3つのテクノロジー分野に重点を置いている」
恐らく、情報の検索と取得がデータサイエンスの従来の定義に最も近いといえる。マン氏によれば、「1990年代、GoogleもBingもYahooもなかった時代を思い起こしてみると、当時はインターネットでは何も見つからなかった。これは今とは全く違う」という。
だが、検索エンジンが進化しても限界があると同氏は話す。「目的のドキュメントを見つけたとしても、必要な情報の一部しか見つかっていない可能性もある。情報が複数のドキュメントに散在していればなすすべはない」
あるテーマを調べるときは、図書館に出向いて目録を読み、本を探して集める。かつてはこれを何度も繰り返し、多くの時間を費やしていた。「ドキュメントを全て集めるのは速くなった。だが、事前に1カ所にまとめられていなければ、情報を評価する手順が必要になることは変わらない」と同氏は言う。
無駄な情報があまりにも多い。検索エンジンが技術的に飛躍的な進化を遂げたとしても、その膨大な情報の中から真の意味を理解できる人はいないとマン氏は考える。「何が真実か、何が起きているか、別の事実があるかを判断しようとあらゆる議論が行われることで、ドキュメントを集めることから意味を引き出すことへの大きな一歩になる」と同氏は話す。
Bloombergの自然言語処理は、テキストから情報を取り出す。マン氏によれば、例えば特定の企業に対する感情(センチメント)を見極めるのに自然言語処理を使える可能性があるという。「テキストには多くの情報が含まれている。例えば、Kraftの製品について調べるとする。これまでなら、データ分析を構築する手法を採用していた。これからは、複数のライブラリから情報を取り出すことを検討することになる」
通常、コンピュータは所定のデータセットを基に正しい結果を導き出すようプログラミングされるが、機械学習が問題を解決する方法はこれとは大きく異なる。そのため、特定の問題解決に機械学習が適しているとしても、IT担当者が当然のようにこの方法を採用することはないと考えられる。
だが、マン氏は次のように指摘する。
本記事は抄訳版です。全文は、以下でダウンロード(無料)できます。
■Computer Weekly日本語版 最近のバックナンバー
Computer Weekly日本語版 4月19日号 RAID vs. イレージャーコーディング
Computer Weekly日本語版 4月5日号 ファイアウォール 管理の悩み
Computer Weekly日本語版 3月22日号 ムーアの法則との決別
天候と位置情報を活用 ルグランとジオロジックが新たな広告サービスを共同開発
ルグランとジオロジックが新たな「天気連動型広告」を共同開発した。ルグランが気象デー...
“AI美女”を広告に起用しない ユニリーバ「Dove」はなぜそう決めたのか
Unilever傘下の美容ケアブランド「Dove」は、「Real Beauty」の20周年を機に、生成AIツー...
有料動画サービス 34歳以下では過半数が利用経験、4割は1日1回以上利用
「ニールセン・ビデオコンテンツ アンド アド レポート 2024」を基に、テレビ画面での動...