大量データは使わない「フューショット学習」と「普通の教師あり学習」の違い:AI開発の制約をどう克服するか【前編】
AIモデルの開発にはデータが欠かせないが、常に十分なデータを収集できるとは限らない。そこで注目されているのが「フューショット学習」という手法だ。
AI(人工知能)モデルの開発に欠かせないのが「学習データ」だが、そのデータや学習に必要なコンピューティングリソースを十分に確保できるとは限らない。こうした課題を解決する手法の一つとして注目されているのが「フューショット学習」(Few-shot Learning)だ。一般的な教師あり学習と何が違うのか。基礎を押さえておこう。
「フューショット学習」と「教師あり学習」の違い
フューショット学習は、限られたデータでも高精度な識別や予測を可能にする機械学習手法だ。従来の機械学習アルゴリズムは、大量のデータを学習してパターンを抽出することで、新たなデータを正確に識別できるようにする。フューショット学習は、ごく少量のデータを一般化することで、未知のデータを識別できるようにする。
一般的な教師あり学習では、AIモデルの分類能力や判断能力を高めるために、数千件から数十万件ものラベル付きデータを用いる。一方で、大量のデータを用意することが難しい、あるいはそもそも存在しないケースもある。こうした状況では、従来の学習方法は実用的とは言えない。
フューショット学習は、既に識別や分類が得意な事前学習済みのAIモデルを基盤とし、最小限の追加学習によって新たな分類能力を付与する。つまり、ゼロからAIモデルを訓練するのではなく、既存のモデルを迅速かつ効率的に拡張することを目的としたアプローチだ。
前提条件として、フューショット学習では、AIモデルが有用なデータの学習を済ませている必要がある。例えば、鳥の種類を識別するAIモデルが、何千種類もの鳥の画像を学習済みだったとしよう。新種の鳥が発見され、そのラベル付き画像が数枚しか存在しない場合でも、フューショット学習を適用すれば、AIモデルは新種の識別能力を獲得できる。これは、新しいデータが、学習済みデータの基本的な構造と一致するため、わずかな画像だけで新種を認識できるという仕組みだ。
「Nショット学習」とは?
フューショット学習は「Nショット学習」(N-Shot learning)の一種だ。Nショット学習とは、学習データの入手や品質に関する課題を解決するために生まれたAIトレーニング手法だ。ここでの「N」とは、使用するデータサンプルの数を指す。
Nショット学習には、主に以下3つのバリエーションがある。
- フューショット学習(One-shot learning)
- 比較的少数のラベル付きデータを使用してAIモデルを学習させる方法
- One-shot learning
- フューショット学習の一種。1つのラベル付きサンプルを使ってAIモデルを訓練する手法)
- Zero-shot learning
- 既存のデータサンプルを一切使用せず新しいデータを処理しようとする、極端なアプローチ
次回は、フューショット学習が適するユースケースを紹介する。
TechTarget発 エンジニア虎の巻
米国Informa TechTargetの豊富な記事の中から、開発のノウハウや技術知識など、ITエンジニアの問題解決に役立つ情報を厳選してお届けします。
Copyright © ITmedia, Inc. All Rights Reserved.