Bloombergでデータサイエンス(自然言語処理、情報の検索と取得、機械学習)を引きているギデオン・マン氏。2008年から機械学習を手掛けてきた同氏には、機械学習の可能性とともに課題も見えている。
金融ニュースやデータを提供するBloombergのCTO(最高技術責任者)オフィスは4つの分野に重点的に取り組んでいる。そのうちの一分野がデータサイエンスで、これを率いるのがギデオン・マン氏だ。
本記事は、プレミアムコンテンツ「Computer Weekly日本語版 5月10日号」(PDF)掲載記事の抄訳版です。本記事の全文は、同プレミアムコンテンツで読むことができます。
なお、同コンテンツのEPUB版およびKindle(MOBI)版も提供しています。
マン氏が考えるデータサイエンスはこれまでの定義とは異なるという。同氏は次のように話す。「データサイエンスには多種多様な定義がある。Bloombergでのデータサイエンスは従来の定義とは異なり、自然言語処理、情報の検索と取得、中核となる機械学習という3つのテクノロジー分野に重点を置いている」
恐らく、情報の検索と取得がデータサイエンスの従来の定義に最も近いといえる。マン氏によれば、「1990年代、GoogleもBingもYahooもなかった時代を思い起こしてみると、当時はインターネットでは何も見つからなかった。これは今とは全く違う」という。
だが、検索エンジンが進化しても限界があると同氏は話す。「目的のドキュメントを見つけたとしても、必要な情報の一部しか見つかっていない可能性もある。情報が複数のドキュメントに散在していればなすすべはない」
あるテーマを調べるときは、図書館に出向いて目録を読み、本を探して集める。かつてはこれを何度も繰り返し、多くの時間を費やしていた。「ドキュメントを全て集めるのは速くなった。だが、事前に1カ所にまとめられていなければ、情報を評価する手順が必要になることは変わらない」と同氏は言う。
無駄な情報があまりにも多い。検索エンジンが技術的に飛躍的な進化を遂げたとしても、その膨大な情報の中から真の意味を理解できる人はいないとマン氏は考える。「何が真実か、何が起きているか、別の事実があるかを判断しようとあらゆる議論が行われることで、ドキュメントを集めることから意味を引き出すことへの大きな一歩になる」と同氏は話す。
Bloombergの自然言語処理は、テキストから情報を取り出す。マン氏によれば、例えば特定の企業に対する感情(センチメント)を見極めるのに自然言語処理を使える可能性があるという。「テキストには多くの情報が含まれている。例えば、Kraftの製品について調べるとする。これまでなら、データ分析を構築する手法を採用していた。これからは、複数のライブラリから情報を取り出すことを検討することになる」
通常、コンピュータは所定のデータセットを基に正しい結果を導き出すようプログラミングされるが、機械学習が問題を解決する方法はこれとは大きく異なる。そのため、特定の問題解決に機械学習が適しているとしても、IT担当者が当然のようにこの方法を採用することはないと考えられる。
だが、マン氏は次のように指摘する。
本記事は抄訳版です。全文は、以下でダウンロード(無料)できます。
■Computer Weekly日本語版 最近のバックナンバー
Computer Weekly日本語版 4月19日号 RAID vs. イレージャーコーディング
Computer Weekly日本語版 4月5日号 ファイアウォール 管理の悩み
Computer Weekly日本語版 3月22日号 ムーアの法則との決別
Copyright © ITmedia, Inc. All Rights Reserved.
お知らせ
米国TechTarget Inc.とInforma Techデジタル事業が業務提携したことが発表されました。TechTargetジャパンは従来どおり、アイティメディア(株)が運営を継続します。これからも日本企業のIT選定に役立つ情報を提供してまいります。
Metaに潰されないために残された生き残りの道は?――2025年のSNS大予測(Snapchat編)
若年層に人気のSnapchatだが、大人にはあまり浸透していない。一方で、AR(拡張現実)開...
「猛暑」「米騒動」「インバウンド」の影響は? 2024年に最も売り上げが伸びたものランキング
小売店の推定販売金額の伸びから、日用消費財の中で何が売れたのかを振り返るランキング...
Netflixコラボが止まらない 「イカゲーム」シーズン2公開で人気爆上がり必至のアプリとは?
Duolingoは言語学習アプリとNetflixの大人気ドラマを結び付けたキャンペーンを展開。屋外...