AIの学習用データをクリーンにするには“ゴミデータ”を排除すべし「AI」の学習用データ収集 その課題と解決策は【前編】

機械学習導入の最初のステップは、質が高くクリーンな学習用データを用意することだ。研究機関と企業の事例から、学習用データの質を高める方法について解説する。

2019年07月17日 05時00分 公開
[Kassidy KelleyTechTarget]

関連キーワード

機械学習 | システム構築 | 技術解説


画像

 人工知能(AI)技術、特に機械学習によって業務プロセスを自動化するには、膨大な量の学習用データ(教師データとも)が必要だと考えられてきた。この見方が変わりつつある。機械学習では、誤った判断につながる不適切なバイアスが問題になっている。そのため学習用データの質が重視されるようになっている。機械学習をベースにしたAIシステムから有益な結果を得るためには、データのクリーニングによって質の高い学習用データを用意する必要がある。

 2019年4月にO'Reillyが開催したAIカンファレンス「Artificial Intelligence Conference」の各登壇者は、企業が大規模データセットを管理する際に直面した問題について詳しく語った。データのクリーニングで成功を収める方法についても説明した。

 米ニュージャージー州のスティーブンス工科大学(Stevens Institute of Technology)で視覚芸術およびテクノロジー学科の准教授兼主任を務めるジェフ・トンプソン氏は、自身のプロジェクト「Empty Apartments」について語った。このプロジェクトでは、賃貸物件のリストから空き家の画像を収集し、照明や間取り、写真の形などの類似性に基づいて分類する。分類に使用するのが機械学習モデルだ。

 機械学習の学習プロセスには、ターゲットを絞り、更にクリーニングした学習用データを使った。そして写真を相互に関連付けて、特徴に基づいて分類し、大きなテーマで表すことを可能にした。Empty Apartmentsの場合は、オンライン広告サイト「craigslist」に掲載された画像のうち、空き家に絞った写真を利用した。

不要なデータを減らして学習用データをクリーンに

Copyright © ITmedia, Inc. All Rights Reserved.

From Informa TechTarget

お知らせ
米国TechTarget Inc.とInforma Techデジタル事業が業務提携したことが発表されました。TechTargetジャパンは従来どおり、アイティメディア(株)が運営を継続します。これからも日本企業のIT選定に役立つ情報を提供してまいります。

ITmedia マーケティング新着記事

news199.jpg

天気に合わせて屋外広告を自動切り替え 気象データ×DOOHで何ができる?
ジーニーが気象データと連携したDOOH広告の新サービスを発表。屋外にいるターゲットの状...

news152.jpg

日本の動画配信市場は成長鈍化 それでもNetflixに迫る大幅成長を遂げたサブスクサービスとは?
GEM Partnersは、動画配信(VOD)市場の現状と今後の予測をまとめた年次レポートを公開し...

news077.jpg

ヘリから飛び降り、ガラスを破る……アカデミー賞広告主5社が、ド迫力アクションCMを競作した狙い
2025年のアカデミー賞では前代未聞の共同広告キャンペーンが実現。Carnival Cruise Line...