AIの学習用データをクリーンにするには“ゴミデータ”を排除すべし「AI」の学習用データ収集 その課題と解決策は【前編】

機械学習導入の最初のステップは、質が高くクリーンな学習用データを用意することだ。研究機関と企業の事例から、学習用データの質を高める方法について解説する。

2019年07月17日 05時00分 公開
[Kassidy KelleyTechTarget]

関連キーワード

機械学習 | システム構築 | 技術解説


画像

 人工知能(AI)技術、特に機械学習によって業務プロセスを自動化するには、膨大な量の学習用データ(教師データとも)が必要だと考えられてきた。この見方が変わりつつある。機械学習では、誤った判断につながる不適切なバイアスが問題になっている。そのため学習用データの質が重視されるようになっている。機械学習をベースにしたAIシステムから有益な結果を得るためには、データのクリーニングによって質の高い学習用データを用意する必要がある。

 2019年4月にO'Reillyが開催したAIカンファレンス「Artificial Intelligence Conference」の各登壇者は、企業が大規模データセットを管理する際に直面した問題について詳しく語った。データのクリーニングで成功を収める方法についても説明した。

 米ニュージャージー州のスティーブンス工科大学(Stevens Institute of Technology)で視覚芸術およびテクノロジー学科の准教授兼主任を務めるジェフ・トンプソン氏は、自身のプロジェクト「Empty Apartments」について語った。このプロジェクトでは、賃貸物件のリストから空き家の画像を収集し、照明や間取り、写真の形などの類似性に基づいて分類する。分類に使用するのが機械学習モデルだ。

 機械学習の学習プロセスには、ターゲットを絞り、更にクリーニングした学習用データを使った。そして写真を相互に関連付けて、特徴に基づいて分類し、大きなテーマで表すことを可能にした。Empty Apartmentsの場合は、オンライン広告サイト「craigslist」に掲載された画像のうち、空き家に絞った写真を利用した。

不要なデータを減らして学習用データをクリーンに

会員登録(無料)が必要です

Copyright © ITmedia, Inc. All Rights Reserved.

新着ホワイトペーパー

製品レビュー ストックマーク株式会社

AI技術を使って必要な情報を自動で抽出/要約する「情報収集サービス」の実力

日々情報が増え続ける今、業務に必要な全ての情報を、社内外の関連ニュースや論文、特許情報などから収集していくのは至難の業だ。そこで業務に必要な情報を着実に届けるための仕組み作りに役立つサービスを紹介する。

製品資料 ゼットスケーラー株式会社

セキュリティリーダー必見:データセキュリティの複雑化によるリスクの解消方法             

クラウド利用の拡大に伴い、データが分散・肥大化する中、従来のセキュリティ対策の限界が見え始めている。データの所在や利用状況を可視化し、リスクを事前に把握して対応することが求められる今、有効となる新たなアプローチを探る。

市場調査・トレンド ゼットスケーラー株式会社

AI/MLトランザクション分析から読み取る、企業のリスク管理とセキュリティ課題

AIの活用が急速に進む一方で、セキュリティリスクの増大が懸念され、企業の対応が急務となっている。本資料では、2024年2~12月までの5365億件のAI/ML(機械学習)トランザクションの分析に基づき、その実態と対策を多角的に考察する。

事例 富士通株式会社

富士通が実践、AI時代に最適な設計プロセスを実現する方法

製造業の設計現場では、設計プロセスの複雑化などの課題が山積している。こうした中、注目を集めているのが生成AIの活用だ。本資料では、生成AIがもたらす設計業務の未来について、詳しく解説する。

製品資料 富士通株式会社

チャットbotだけで終わらせない、生成AIの“高度な活用”を実現するには?

多くの企業が業務における生成AIの有用性を実感する一方、高度な活用を目指すに当たり、壁に突き当たっているケースは多い。既存の業務やシステムと生成AIをスムーズに組み合わせ、自社に合った形で活用するには、どうすればよいのか。

From Informa TechTarget

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。

ITmedia マーケティング新着記事

news017.png

「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。

news027.png

「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。

news023.png

「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...