「AIトークン破産」を防げ　情シスが主導すべき生成AIコスト最適化戦略：トークン消費から「提供」へ

生成AIのコスト増大とデジタル主権への懸念が情シス部門を直撃している。パブリッククラウドの「トークン課金」による予算圧迫を回避するため、Red Hatは自社環境でAIを運用する「トークンプロバイダー」への転換を提唱した。

LINE

Hatena

　エージェント型AIへの移行や推論ニーズの拡大に伴い、企業には「規制への対応」と「コスト管理」という新たな障壁が立ちはだかっている。AIをビジネスに活用していくには、これらの課題を克服しなければならない。

　米ジョージア州アトランタで開催の「Red Hat Summit 2026」でRed Hatが発表した製品アップデートは、こうした顧客の懸念に対する同社の回答を凝縮したものだ。その核心は「クラウド事業者にAIトークン料金を支払うのをやめ、自社で生成を始める」という提案である。

　同社は、過去2年間に開発したソフトウェア群「Red Hat AI Enterprise」プラットフォームの活用を推奨している。これには「Red Hat AI Inference Server」や「OpenShift AI」が含まれる。また、2026年2月にNVIDIAと共同で立ち上げた「Red Hat AI Factory with NVIDIA」とも連携する。Red Hat AIは、オープンソースの大規模言語モデル（LLM）や小規模言語モデル（SLM）に、vLLMやllm-dといった推論ユーティリティーをパッケージ化したものだ。プラットフォームエンジニアが社内ユーザーに「AI as a Service」を提供する基盤となる。

　Red HatでAI部門のバイスプレジデント兼ゼネラルマネジャーを務めるジョー・フェルナンデス氏は、5月7日の記者会見で次のように述べた。「多くの顧客にとって、推論コストはパブリッククラウドのAIサービスを利用し始めた瞬間に発生する」。しかし、運用規模が大きくなればコストが壁になる。「自社管理環境でトークンの『消費者』から『供給者』に転換する選択肢を提示したい」（フェルナンデス氏）

自社でトークン生成を始めるには

「経営とAI」に関連する編集部のお薦め記事

　今回のイベントで披露された「Red Hat AI 3.4」の新機能は、エージェント型AIの可観測性とセキュリティ制御、推論管理、モデルの社内プラットフォーム化を支援するものだ。主な内容は以下の通りである。

MLflowによるトレイシング。LLMの呼び出し、推論ステップ、ツールの実行、モデルの応答、トークン使用量などエージェントのワークフローを可視化する
SPIFFE/SPIREによる暗号化ID管理。AIエージェントで有効期間の短い資格情報や最小権限の原則を適用する
2025年12月に買収したChatterbox Labsの技術を用いたAIの安全性テストツール
ID管理ツールと統合された新しいAIゲートウェイによる「Model-as-a-Service」
LLM、AIアプリケーション、エージェントを用いた社内の実験を追跡・管理する評価ハブとプロンプトレジストリ
データセットの取得や機械学習モデルの開発を自動化するAutoRAGおよびAutoMLの統合
遅延に敏感なワークロードを優先処理し、推論処理を最適化してレイテンシを削減するリクエスト優先順位付けとスペキュレイティブデコーディング
CoreWeaveやMicrosoft Azureなど、Red Hat OpenShift以外のKubernetesサービスへの推論サポート

トークンの供給者か、消費者か

　企業が生成AIアシスタントから自律型AIエージェントへの移行を進めるにつれ、業界の関心は「モデルの学習」から「推論」へと移っている。AIエージェントはLLMに比べ、プロンプトでより大量かつ高価な出力トークンを生成する。これが、特にサードパーティーのサービスを利用するユーザーにとって、トークンコストを悪化させる要因となっている。

　結果として、クラウド利用者のトークン消費量は爆発的に増加した。Amazonのアンディ・ジャシーCEOが2026年4月に株主に宛てた書簡によれば、推論サービス「Amazon Bedrock」が2026年第1四半期に処理したトークン数は、それまでの累計を上回ったという。

　AIゲートウェイの活用や、SaaSベンダーによる価格体系の見直しなど、コストを抑える手段は他にもある。しかし、TheCube ResearchおよびSmuget Consultingのアナリストであるロブ・ストレチャイ氏は、企業での実運用が拡大すれば戦略的な決断を迫られると予測する。「AI利用のために予算を倍増させるのか、それともトークン代を捻出するために人員を削減するのか。経営会議で議論されるような大きな予算争いになるだろう」（ストレチャイ氏）

　ハイパースケーラー側も、トークン使用量の増加を静観しているわけではない。主要なクラウド事業者は独自のチップを用いた低コストな推論サービスを開始している。例えばGoogleは「TPU 8i」を年内に投入予定だ。Amazon Web Services（AWS）は、「Amazon EC2 Inf1」インスタンスがGPUベースのインスタンスより最大70％低コストだと主張している。

　Red Hatの競合であるBroadcomも、VMwareベースのプライベートAIプラットフォームでクラウドコストからの脱却を提案している。ストレチャイ氏は、Red Hatが一貫してハイブリッドクラウドの立場を取っている点に注目する。オンプレミス管理の労力とパブリッククラウドの費用の間で、中間的な解決策になる可能性があるからだ。

　「Red Hatは、企業が全てをオンプレミスで完結させないことを理解している。インフラを最適化して効率を高めることで、顧客はAWS、Azure、Googleのどこからでも始められる。AMDでもGoogleのTPUでもNVIDIAのGPUでも、スタックを自由に選べるのが強みだ」（ストレチャイ氏）

ソブリンAIを巡るSUSEとの対抗

　過去2年間でAIの利用が普及したことで、欧州の「EU AI法」などの規制枠組みが登場した。AIシステムや関連データは、GDPR（一般データ保護規則）などのプライバシー法やデジタル主権の懸念にもさらされている。

　各国はAIを国家安全保障の優先事項と見なし、独自の「ソブリンAI（主権AI）」プロジェクトを開始している。特に欧州や英国では、米国系クラウド事業者の支配に対する懸念が根強い。米国の規制により、クラウド事業者が顧客データを政府に引き渡すよう強制される可能性があるためだ。

　IBMがOpenShiftベースの「IBM Sovereign Core」の一般提供を開始したのに合わせ、Red Hatも複数の製品で主権保護機能を強化した。監視データを境界外に送信しないローカルテレメトリーや、外部からアップデートをダウンロードしないローカル環境でのソフトウェア配信がその一例だ。同社はCore42、Datacom、富士通、NxtGenといった事業者との新たなソブリンクラウド契約を発表した。また、使用中のデータを暗号化する「NVIDIA Confidential Computing」への対応もプレビュー公開した。

　アナリストによれば、これらのアップデートは2026年4月の「SUSECON 2026」でデジタル主権を強調して「AI Factory」を発表したSUSEへの事実上の対抗策だという。Forrester Researchのアナリスト、ブレント・エリス氏は次のように分析する。「SUSEとRed Hatは似たようなゴールを目指している。主権にはワークロードの制御、地政学的な制御、コンプライアンスの3つの側面がある。SUSEはその全てに注力しているが、Red Hatはコンプライアンスの側面を重視している」。

　理論上、機密コンピューティングと顧客が管理する暗号鍵を組み合わせれば、クラウド環境でのデータアクセスを防ぐ一定の保護効果は期待できる。しかし、エリス氏は「それが万全というわけではない」と指摘している。

　欧州の一部の組織にとって、Red Hatとその親会社であるIBMが米国企業であるという事実は、いかなるプライバシー技術でも克服できない壁となる可能性がある。「Red Hatは象徴的な米国企業の系譜と見なされている。サプライチェーンからの独立を望むのであれば、SUSEのようなインフラソフトウェアを選択するのが最短ルートになるだろう」（エリス氏）