GPU不足が深刻化する中、企業では組織やプロジェクト間のリソース争奪戦が起きている。この問題の解決に役立つのがNVIDIAの「KAI Scheduler」だ。GPUリソースの効率的な管理をどのように実現するのか。
GPU(グラフィックス処理装置)ベンダーのNVIDIAは、コンテナオーケストレーションツール「Kubernetes」向けのGPUスケジューラー「KAI Scheduler」を、オープンソースライセンス「Apache License 2.0」の下で公開した。GPUリソースの最適な割り当てと利用効率の向上をどのように実現するのか。その仕組みを解説する。
KAI Schedulerは、AIワークロード(AI関連のタスク)の効率的な管理を目的としたツール「NVIDIA Run:AI」の中核機能として開発された。GPU不足が深刻化する中で、限られたGPUリソースを複数のチームやプロジェクト間で公平かつ効率的に分配するための仕組みを提供する。NVIDIAによれば、KAI SchedulerはGPUリソースの需要変動を管理し、割り当てまでの待機時間を短縮する。GPUリソースの保証や適切な割り当ても実現している。
GitHubの公式リポジトリの情報によると、KAI Schedulerは、小規模な対話型タスクから大規模なトレーニングや推論まで、Kubernetesクラスタ内におけるさまざまなAIワークロードを対象にする。NVIDIAは、異なるアプリケーション間での公平性を維持しつつ、最適なGPUリソース割り当てを保証すると説明している。
このツールにより、Kubernetesクラスタの管理者は、GPUリソースを動的にワークロードに割り当てられるようになる。KAI Schedulerは他のスケジューラーと共存して動作することも可能だ。
NVIDIAのソフトウェアシステム担当バイスプレジデントのロネン・ダール氏と、NVIDIA Run:aiのデータサイエンティストであるエキン・カラブルト氏は、ブログ記事で次のように述べている。「例えば、データ探索のような対話型作業にはGPUが1つあれば足りる一方で、分散トレーニングや複数の実験を実施する場合には、複数のGPUが必要なことがある」。従来のスケジューラーは、こうしたニーズの変動に対応できないという。
KAI Schedulerは、公平なリソースシェア値を継続的に再計算し、クォータ(割り当て上限)や制限値をリアルタイムで調整する。こうした動的アプローチにより、管理者が手動で介入する必要なく、効率的なGPUリソース配分が可能になるという。
機械学習エンジニアは、KAI Schedulerを以下のような手法と組み合わせることで、ジョブの待機時間を短縮する。
これにより、ユーザーはジョブをバッチとしてまとめて投入でき、GPUリソースが利用可能になり次第、優先度や公平性に基づいて順次実行される。
GPUリソースの需要変動に対応するために、KAI Schedulerは「ビンパッキング」を使用している。ビンパッキングとは、限られた容量の容器であるビンに、さまざまなサイズの物体を効率よく詰め込むアルゴリズムだ。未使用のGPUリソースに小規模タスクを優先的に割り当てることで、リソースの断片化を防ぎ、計算資源の利用率を最大化する。
ノード(コンテナを実行するための物理サーバや仮想マシン)の断片化にも対処するため、KAI Schedulerはタスクをノード間で再割り当てする。ワークロードを分散させることで、各ノードの負荷を最小化し、リソースの可用性を高めている。
共有クラスタの運用においては、一部ユーザーがGPUリソースを過剰に確保し、GPUの未使用クォータが発生するケースがある。「一部の研究者はGPUの利用を確保するために、必要以上のGPUを早めに確保することがある。これにより、他のチームに未使用クォータがあるにもかかわらず、リソースの未活用を引き起こすことがある」とダール氏とカラブルト氏は説明する。KAI Schedulerはリソース保証機能を通じて、GPUリソースの独占を防ぎ、Kubernetesクラスタ全体の効率性を高めるという。
KAI Schedulerは、Pod(Kubernetesでの基本的な実行単位)のグループを自動的に検出および管理する機能を備えている。これにより、以下のような機械学習フレームワークやツールを自動検出して接続する。
これにより、Kubernetesクラスタの構成の複雑さを軽減し、開発スピードを向上させるとNVIDIAは主張している。
(翻訳・編集協力:編集プロダクション雨輝)
米国Informa TechTargetが運営する英国Computer Weeklyの豊富な記事の中から、海外企業のIT製品導入事例や業種別のIT活用トレンドを厳選してお届けします。
Copyright © ITmedia, Inc. All Rights Reserved.
日々情報が増え続ける今、業務に必要な全ての情報を、社内外の関連ニュースや論文、特許情報などから収集していくのは至難の業だ。そこで業務に必要な情報を着実に届けるための仕組み作りに役立つサービスを紹介する。
クラウド利用の拡大に伴い、データが分散・肥大化する中、従来のセキュリティ対策の限界が見え始めている。データの所在や利用状況を可視化し、リスクを事前に把握して対応することが求められる今、有効となる新たなアプローチを探る。
AIの活用が急速に進む一方で、セキュリティリスクの増大が懸念され、企業の対応が急務となっている。本資料では、2024年2~12月までの5365億件のAI/ML(機械学習)トランザクションの分析に基づき、その実態と対策を多角的に考察する。
製造業の設計現場では、設計プロセスの複雑化などの課題が山積している。こうした中、注目を集めているのが生成AIの活用だ。本資料では、生成AIがもたらす設計業務の未来について、詳しく解説する。
多くの企業が業務における生成AIの有用性を実感する一方、高度な活用を目指すに当たり、壁に突き当たっているケースは多い。既存の業務やシステムと生成AIをスムーズに組み合わせ、自社に合った形で活用するには、どうすればよいのか。
いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。
「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。
「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...
「マーケティングオートメーション」 国内売れ筋TOP10(2025年5月)
今週は、マーケティングオートメーション(MA)ツールの売れ筋TOP10を紹介します。