LLMの性能をまとめて評価したい場合に有用なのが、リーダーボードだ。さまざまなLLMの性能を評価した情報が公開されている。LLM選びの参考にできる、主要なリーダーボードを紹介する。
大規模言語モデル(LLM)の性能は日々更新され、さまざまなベンチマークが存在する。そのため、ベンチマークテストの実行やツールの比較は簡単ではない。本稿は、ベンチマークやLLMを比較検討するためのリーダーボード(ランキング表)を掲載しているWebサイトを紹介する。
LLMやベンチマークの情報を収集するのであれば、AI(人工知能)モデルやデータセットの共有・公開サービス「Hugging Face」を訪れるのは一つの手だ。Hugging Faceは、エンドユーザーがLLMの性能をランキング形式で掲載するリーダーボードを提供している。注目すべきリーダーボードには以下がある。
ベンチマークを選定するに当たっては利用料がどの程度発生するかも考慮に入れる必要がある。オープンソースソフトウェア(OSS)であれば、ソースコードが公開されており、無料または安価な費用で利用できる。エンドユーザーの手元にある端末で実行可能だ。一方、ソースコードが公開されていないクローズドソースソフトウェアはその性能やセキュリティといった要素の評価が難しい上、利用料も発生する。
Hugging Face以外でベンチマークの評価、測定値といった情報を入手したい場合、以下の情報が役に立つ。
LLMのベンチマークには、組織が抱える特定の課題を反映できないという制約がある。代表的な例が「HumanEval」だ。HumanEvalは、プログラミング言語「Python」で記述したソースコードをどの程度実用的かつ正確に生成できるかを評価する。
HumanEvalを使えば、単純な英語のプロンプト(質問や指示)からソースコードをどの程度の精度で生成できるかを評価することは可能だ。一方、以下の要素はHumanEvalの評価対象外だ。
一般的に、ベンチマークの大半は、ツールの処理速度やレイテンシ(遅延)、システムやセキュリティといった運用面の課題は評価の対象外だ。LLMベンチマークであれば、クラウドサービス、自社のサーバあるいは端末でLLMを稼働させた場合、性能がどう異なるのかは評価できない。例としてHumanEvalは、GUI(グラフィカルユーザーインタフェース)で生じる画面サイズ変更時のエラー、フォントの視認性、アクセシビリティー(利用のしやすさ)といった項目は評価対象外だ。
AIモデルが自律的に意思決定して行動する「AIエージェント」についても、信頼性の高い網羅的な評価手法は存在していない。一部の専門家は、AIエージェントが自律的にソースコードをソースコード管理ツールに登録したり、データベースを更新したり、CIツールを実行して本番環境にソースコードを反映させたりするようになると期待している。一方で、AIエージェントに関するベンチマークには、2022年に公開された「MARL-eval」や2024年に公開された「Sotopia-π」があるが、信頼性の確立は途上にある。
MARL-eval:Towards a Standardised Performance Evaluation Protocol for Cooperative MARL
Sotopia-π:SOTOPIA-: Interactive Learning of Socially Intelligent Language Agents
LLMは言語の翻訳、数学的な問題への回答、3D画像の形状調整、データの中にある不適切な項目の識別、事実の記憶、段落の構成など、単一のモーダル(データ形式)を処理するのが得意だ。
現行のLLMのベンチマークでは、感情的知性、人間性、誠実さといった要素の測定は難しい。そのため、どのLLMを、誰が、いつ、どの業務に使うかは、各組織が自ら判断する必要がある。多角的な評価指標を持つことで、自組織にとって適切なLLMを見極める助けになる。
TechTarget.AI編集部は生成AIなどのサービスを利用し、米国Informa TechTargetの記事を翻訳して国内向けにお届けします。
Copyright © ITmedia, Inc. All Rights Reserved.
本記事は制作段階でChatGPT等の生成系AIサービスを利用していますが、文責は編集部に帰属します。
「テレワークでネットが遅い」の帯域幅じゃない“真犯人”はこれだ
ネットワークの問題は「帯域幅を増やせば解決する」と考えてはいないだろうか。こうした誤解をしているIT担当者は珍しくない。ネットワークを快適に利用するために、持つべき視点とは。
「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。
「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。
「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...