AIの学習用データをクリーンにするには“ゴミデータ”を排除すべし：「AI」の学習用データ収集　その課題と解決策は【前編】

機械学習導入の最初のステップは、質が高くクリーンな学習用データを用意することだ。研究機関と企業の事例から、学習用データの質を高める方法について解説する。

≫ 2019年07月17日 05時00分公開

併せて読みたいお薦め記事

AIの「バイアス」について考える

AIの学習データについて事例をもっと見る

　米ニュージャージー州のスティーブンス工科大学（Stevens Institute of Technology）で視覚芸術およびテクノロジー学科の准教授兼主任を務めるジェフ・トンプソン氏は、自身のプロジェクト「Empty Apartments」について語った。このプロジェクトでは、賃貸物件のリストから空き家の画像を収集し、照明や間取り、写真の形などの類似性に基づいて分類する。分類に使用するのが機械学習モデルだ。

　機械学習の学習プロセスには、ターゲットを絞り、更にクリーニングした学習用データを使った。そして写真を相互に関連付けて、特徴に基づいて分類し、大きなテーマで表すことを可能にした。Empty Apartmentsの場合は、オンライン広告サイト「craigslist」に掲載された画像のうち、空き家に絞った写真を利用した。

不要なデータを減らして学習用データをクリーンに

#CmsMembersControl .CmsMembersControlIn {width:100%;background:url(https://image.itmedia.co.jp/images/spacer.gif) #DDD;opacity:0.05;filter:progid:DXImageTransform.Microsoft.Alpha(Enabled=1,Style=0,Opacity=5);z-index:1;}

続きを閲覧するには、ブラウザの JavaScript の設定を有効にする必要があります。

TechTargetジャパントップエンタープライズAI