2019年07月26日 05時00分 公開
特集/連載

「AI」の学習用データ収集 その課題と解決策は【後編】Facebook、IBMは「AI」の学習用データをどう作成しているのか

機械学習ベースのAIシステムが有益な判断を下せるようにするには、学習に利用するデータの質が重要だ。FacebookとIBMのAIシステム担当者の話から、データの質を高める方法を探る。

[Kassidy Kelley,TechTarget]
画像

 人工知能(AI)システムの誤った判断につながるバイアス。その軽減に必要なことは、機械学習の学習用データ(教師データとも)のクリーニングと、データ収集方法の見直しだ。

 前編「AIの学習用データをクリーンにするには“ゴミデータ”を排除すべし」に引き続き、O'Reilly が2019年4月に開催したAIカンファレンス「Artificial Intelligence Conference」の講演を基に、企業が学習用データを作成するときの課題と、その解決方法について説明する。

 FacebookでAIインフラ研究のシニアエンジニアリングマネジャーを務めるキム・ヘーゼルウッド氏は講演で、AIシステムの出力をプログラムの意図に合わせるために微調整するとき、同社が直面した問題について語った。

 「機械学習をあらゆるユーザーに拡大しようとする際の大きな課題の一つは、大規模なデータ活用だった」とヘーゼルウッド氏は話す。

 ヘーゼルウッド氏によると、Facebookは、

  1. 非構造化データを収集
  2. AIモデルがそれらのデータを使って学習
  3. 学習済みのAIモデルを運用環境に導入

という3つの手順でAIシステムの導入に取り組んでいるという。

 最初の手順ではデータエンジニアが、機械学習用にデータをクリーニングして、自動テキスト翻訳や顔認識などの用途に合わせて最適化する必要がある。ヘーゼルウッド氏が率いるチームは、データセットの要件を絶えず変更している。なぜなら機械学習ベースのAIシステムの中核要素であるAIモデルは、継続的なトレーニングが必要な上、出力にさまざまな要件があるためだ。

 Facebookの技術者には巨大なデータのラベリング、クリーニング、最適化のための時間とリソースがある。そうではない企業が独自の機械学習ベースのAIシステムを構築しようとする場合、大きな障害に直面する。

学習を自動化するツールの登場

ITmedia マーケティング新着記事

news033.jpg

ブランドは信頼に値するか? 「イエス」は日本ではわずか38%――エデルマン・ジャパン調査
エデルマン・ジャパンは、世界8カ国、1万6000人を対象に実施した消費者意識調査の日本に...

news019.jpg

「ラグビーワールドカップ2019」がおじさんの心を動かす――CCC調査
「ラグビーワールドカップ2019」が日本で開催されたことで日本人のラグビー愛にどう変化...

news044.jpg

誰のためのBI? 本当の「アナリティクスの民主化」って? マイクロストラテジー・ジャパン社長に聞く
「エンタープライズBI+セルフサービスBI」を掲げるMicroStrategy。同社日本法人社長に話...