人工知能(AI)システムの誤った判断につながるバイアス。その軽減に必要なことは、機械学習の学習用データ(教師データとも)のクリーニングと、データ収集方法の見直しだ。
前編「AIの学習用データをクリーンにするには“ゴミデータ”を排除すべし」に引き続き、O'Reilly が2019年4月に開催したAIカンファレンス「Artificial Intelligence Conference」の講演を基に、企業が学習用データを作成するときの課題と、その解決方法について説明する。
FacebookでAIインフラ研究のシニアエンジニアリングマネジャーを務めるキム・ヘーゼルウッド氏は講演で、AIシステムの出力をプログラムの意図に合わせるために微調整するとき、同社が直面した問題について語った。
「機械学習をあらゆるユーザーに拡大しようとする際の大きな課題の一つは、大規模なデータ活用だった」とヘーゼルウッド氏は話す。
ヘーゼルウッド氏によると、Facebookは、
という3つの手順でAIシステムの導入に取り組んでいるという。
最初の手順ではデータエンジニアが、機械学習用にデータをクリーニングして、自動テキスト翻訳や顔認識などの用途に合わせて最適化する必要がある。ヘーゼルウッド氏が率いるチームは、データセットの要件を絶えず変更している。なぜなら機械学習ベースのAIシステムの中核要素であるAIモデルは、継続的なトレーニングが必要な上、出力にさまざまな要件があるためだ。
Facebookの技術者には巨大なデータのラベリング、クリーニング、最適化のための時間とリソースがある。そうではない企業が独自の機械学習ベースのAIシステムを構築しようとする場合、大きな障害に直面する。
ARで小売業との連携を強化、ショッピングにより強いSNSに――2024年のSNS大予測(Pinterest編)
2024年のPinterestのテーマはIRL(In Real Life:現実世界)との接続となるだろう。
データ分析系ニュースまとめ(2023年12月第1週)
今週は、SEO対策の内製化を支援するアシストの新サービスなど3つのニュースを取り上げる。
ディズニーなど主要広告主に暴言 イーロン・マスク氏はなぜX離れが加速しても煽りをやめないのか?
New York Timesが主催するイベントの壇上でイーロン・マスク氏は、彼の投稿がきっかけと...