検索
特集/連載

インフラの限界を「Oracle Cloud」と「Kubernetes」で打開するAIベンダーの挑戦厳しい要件に応えるAIツール提供

AI導入においてインフラの費用とセキュリティは大きな課題だ。OCIとオープンソースツールを組み合わせ、規制の厳しい企業でも安全に実行できるシステム構成を構築したCohereのインフラ戦略を紹介する。

PC用表示 関連情報
Share
Tweet
LINE
Hatena

 生成AIの活用が企業で本格化する中、ITインフラはかつてない課題に直面している。高精度なAIモデルの開発と運用には膨大なコンピューティングリソースが必要な一方、GPUなどの演算装置やIT予算は有限であり、投資対効果の最大化が極めて重要になっている。金融や医療など規制の厳しい業界においては、イノベーションの推進と同時に、自社の機密データを厳格に保護しなければならない。アクセス制御と詳細な監査機能を備え、ミッションクリティカルな処理を安定して実行し続けることが可能な強固なシステムが求められている。

 この要請に対し、企業向けAIモデルを開発するCohereは、オープンソースツールを最大限に活用している。アーキテクチャの中核に据えられているのは、コンテナオーケストレーションツール「Kubernetes」だ。このアプローチによって、顧客の多様なニーズに機敏に適合できるシステムを実現している。

 Cohereはどのようにして大規模な学習と推論を効率化し、複雑なインフラの壁を乗り越えているのか。多様なシステム構成へ展開する同社のインフラ戦略の裏側には、驚くべき技術的選択があった。

厳格な要件を求める顧客に「どこでも動くAIツール」を提供する

 本稿は、2025年11月に開催された「KubeCon + CloudNativeCon North America 2025」における基調講演の内容を基に、Cohereのアーキテクチャを解説する。セッション「Cloud Scale Enterprise AI: How Cohere Runs on Open Source with Oracle Cloud」には、Oracleのクラウドインフラサービスである「Oracle Cloud Infrastructure」(OCI)の製品担当バイスプレジデントを務めるアーナンド・クリシュナン氏と、Cohereのエンジニアリング担当バイスプレジデントであるオータム・マウダー氏が登壇した。セッションでは、規制が厳しい業界における大規模AIモデルのトレーニングや提供から得られた教訓、アーキテクチャの選択に関する情報を共有した。

 マウダー氏によれば、同社が提供するエンタープライズ規模のAIエージェントのインフラには、大きく分けて「トレーニング」と「アプリケーションへのパッケージ化」という2つの重要な要素が存在するという。

CNCFプロジェクトを活用したコンピューティングリソースの最適化

 1つ目の要素であるAIモデルのトレーニング用のシステム構築において、Cohereはクラウドネイティブ技術の普及を推進するCNCF(Cloud Native Computing Foundation)のプロジェクトを多用している。同社はGPUなどのコンピューティングリソースの効率的なスケーリングと割り当てを実現するため、リソース管理ツールの「Kueue」や、並列ジョブ実行ツールの「JobSet」といったオープンソースプロジェクトを早期から導入した。

 これらの技術を活用することで、大規模な事前学習ジョブから小規模な推論ワークロードまで、全てを同一のKubernetesクラスタ内で処理可能になった。複数のクラウドサービスにまたがるシステム構成であっても、一貫したコンピューティングリソースの管理が行えるため、有限なGPUの稼働率を飛躍的に向上させている。

 このインフラを支えているのが、OCIが提供するベアメタルサーバだ。仮想マシン(VM)だけではなく、ハードウェアを占有できるベアメタル構成を利用できることは、自社でデータセンターを物理的に運用する費用を抑えつつ、限りなくベアメタルサーバ本来のパフォーマンスを引き出せるという優位性をもたらす。

 CohereのAI研究者が高い演算能力を求めた際は、OCIのベアメタルサーバへのアクセスを提供し、その後、それらのコンピューティングリソースを、OCIのマネージド型Kubernetesサービスである「Oracle Cloud Infrastructure Container Engine for Kubernetes」(OKE)のクラスタに組み込んでいる。開発の俊敏性とインフラの管理性が、高いレベルで両立している状態だ。

複合Helmチャートがもたらす圧倒的な展開力

 AIモデルの構築は、企業向けAIツールを提供するプロセスの半分に過ぎない。構築したAIモデルを顧客が利用しやすいアプリケーションとして製品化し、迅速に価値を生み出すことが2つ目の要素だ。

 規制が厳格な業界の顧客は、データの主権を維持するためにセルフホストを強く希望する。そのためソフトウェアは、外部ネットワークから完全に遮断されたシステム、オンプレミスデータセンター、あるいはパブリッククラウドやプライベートクラウドなど、あらゆる条件で稼働しなければならない。

 この要求に応えるため、CohereはAIアプリケーションの実行に必要な全ての構成要素をパッケージ化する手法を採用した。パッケージ管理ツール「Helm」の仕組みを用いて、単一の「複合Helmチャート」としてパッケージ化している。このパッケージは、単一ノード上の組み込み型Kubernetesクラスタだろうと、OCIのような大規模なクラウドサービス内の本番環境だろうと、完全に同一のコードで実行できる。

 Cohereはこの仕組みを用いて、7つの異なるクラウドインフラや、さまざまな種類のマネージドKubernetesサービスにまたがって、顧客にシステムを展開することに成功している。システム全体を共通の標準に基づいて構築したからこそ実現できた展開力だ。

クラウドネイティブが切り開くAIの未来

 アーキテクチャの標準化とマネージドコンポーネントの活用によって、Cohereの顧客はインフラの複雑さを意識することなく、AIチャットbotや自動化、AI検索といった高度な機能を享受できる。同時に、自社のデータが外部に流出しないという保証を得ながら、安全なシステムでAIモデルを実行できるようになった。

 Cohere自身も、インフラの運用保守をOCIなどのクラウドサービスに委ねることで、自らの強みであるAIモデルと自律的な機能の開発に全力を注いでいる。

 オープンソースコミュニティーの革新とクラウドベンダーの強固なシステム、AI技術者の知見の融合が、企業におけるAI導入のハードルを下げている。インフラの進化が、次世代のビジネス変革を後押しすることは間違いない。

本稿は、CNCFが2025年11月14日に公開した動画「Sponsored Keynote: Cloud Scale Enterprise AI: How Cohere Runs... Aanand Krishnan & Autumn Moulder」を基に作成しました。

Copyright © ITmedia, Inc. All Rights Reserved.
本記事は制作段階でChatGPT等の生成系AIサービスを利用していますが、文責は編集部に帰属します。

ページトップに戻る