AIの学習用データをクリーンにするには“ゴミデータ”を排除すべし「AI」の学習用データ収集 その課題と解決策は【前編】

機械学習導入の最初のステップは、質が高くクリーンな学習用データを用意することだ。研究機関と企業の事例から、学習用データの質を高める方法について解説する。

2019年07月17日 05時00分 公開
[Kassidy KelleyTechTarget]

関連キーワード

機械学習 | システム構築 | 技術解説


画像

 人工知能(AI)技術、特に機械学習によって業務プロセスを自動化するには、膨大な量の学習用データ(教師データとも)が必要だと考えられてきた。この見方が変わりつつある。機械学習では、誤った判断につながる不適切なバイアスが問題になっている。そのため学習用データの質が重視されるようになっている。機械学習をベースにしたAIシステムから有益な結果を得るためには、データのクリーニングによって質の高い学習用データを用意する必要がある。

 2019年4月にO'Reillyが開催したAIカンファレンス「Artificial Intelligence Conference」の各登壇者は、企業が大規模データセットを管理する際に直面した問題について詳しく語った。データのクリーニングで成功を収める方法についても説明した。

 米ニュージャージー州のスティーブンス工科大学(Stevens Institute of Technology)で視覚芸術およびテクノロジー学科の准教授兼主任を務めるジェフ・トンプソン氏は、自身のプロジェクト「Empty Apartments」について語った。このプロジェクトでは、賃貸物件のリストから空き家の画像を収集し、照明や間取り、写真の形などの類似性に基づいて分類する。分類に使用するのが機械学習モデルだ。

 機械学習の学習プロセスには、ターゲットを絞り、更にクリーニングした学習用データを使った。そして写真を相互に関連付けて、特徴に基づいて分類し、大きなテーマで表すことを可能にした。Empty Apartmentsの場合は、オンライン広告サイト「craigslist」に掲載された画像のうち、空き家に絞った写真を利用した。

不要なデータを減らして学習用データをクリーンに

会員登録(無料)が必要です

Copyright © ITmedia, Inc. All Rights Reserved.

隴�スー騾ケツ€郢晏ク厥。郢ァ�、郢晏現�ス郢晢スシ郢昜サ」�ス

技術文書・技術解説 サイオステクノロジー株式会社

平気でうそをつくLLM、正直者へと変身させるRAGアプリケーションの作成法とは

LLMはビジネスに計り知れない恩恵をもたらす可能性を秘めているが、問題点の1つは、平気でうそをつくこと(ハルシネーション)だ。そこで、この問題を解決するために役立つ、RAGアプリケーションの作成方法を紹介する。

市場調査・トレンド ServiceNow Japan合同会社

AIを利用して組織全体の生産性を向上させる方法とは?

生成AIの登場によって、AIを業務活用しようとする企業が増えてきている。しかし、AIをどのような形で導入すればよいのか悩んでいる企業も少なくない。本資料では組織全体にAIと生成AIを組み込む方法について解説する。

技術文書・技術解説 Asana Japan株式会社

AI導入の現在地:知っておくべき6つのメリットと「2026年問題」とは?

労働力不足の解消や生産性の向上など、多くのメリットが見込める、職場へのAI導入。一方、LLM(大規模言語モデル)の学習データが枯渇する「2026年問題」が懸念されている点には注意が必要だ。それによる影響と、企業が取るべき対策とは?

市場調査・トレンド Asana Japan株式会社

AI活用がカギ、最新調査で読み解く日本企業がイノベーションを推進する方法

現代のビジネス環境下で企業が成長を続けるには「イノベーション」の推進が不可欠だ。最新調査で明らかになった日本企業におけるイノベーションの現状を基に、イノベーション推進の鍵を握るAI活用やベロシティ向上の重要性を解説する。

製品資料 SB C&S株式会社

ワンランク上の「AI+PDF」活用、生産性・効率を飛躍的に向上させる秘訣

今やビジネスを中心に、多様な場面でやりとりされているPDF。このPDFをより便利にするためには、文書の能動的な活用がポイントとなる。本資料では、アドビの生成AIを用いながら生産性や効率を飛躍的に向上させる活用方法を紹介する。

郢晏生ホヲ郢敖€郢晢スシ郢ァ�ウ郢晢スウ郢晢ソスホヲ郢晢ソスPR

From Informa TechTarget

お知らせ
米国TechTarget Inc.とInforma Techデジタル事業が業務提携したことが発表されました。TechTargetジャパンは従来どおり、アイティメディア(株)が運営を継続します。これからも日本企業のIT選定に役立つ情報を提供してまいります。

AIの学習用データをクリーンにするには“ゴミデータ”を排除すべし:「AI」の学習用データ収集 その課題と解決策は【前編】 - TechTargetジャパン エンタープライズAI 隴�スー騾ケツ€髫ェ蛟�スコ�ス

TechTarget郢ァ�ク郢晢ス」郢昜サ」ホヲ 隴�スー騾ケツ€髫ェ蛟�スコ�ス

ITmedia マーケティング新着記事

news046.png

「ECプラットフォーム」売れ筋TOP10(2025年4月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。

news026.png

「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年4月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...

news130.jpg

Cookieを超える「マルチリターゲティング」 広告効果に及ぼす影響は?
Cookieレスの課題解決の鍵となる「マルチリターゲティング」を題材に、AI技術によるROI向...