NVIDIAの切り札「Cosmos」とは? “思考するロボット”を動かす新AIモデル“ロボットが想定通りに動かない”を解消へ

AIモデルに物理世界を理解させ、人のように推論させる「世界モデル」の開発が進んでいる。NVIDIAのSDK「Omniverse」と基盤モデル「Cosmos」は、ロボット開発におけるシミュレーションと現実の差をどう埋めるのか。

2025年09月24日 05時00分 公開
[Esther ShittuTechTarget]

関連キーワード

人工知能


 人工知能(AI)技術に関する議論が広まる中、NVIDIAをはじめとするITベンダーは、物理的な実体を持って現実世界で活動するAIシステム「フィジカルAI」の実現に向けた技術開発に取り組んでいる。

 NVIDIAは2025年8月、産業用AIモデルやロボット工学向けアプリケーションを構築、展開するためのSDK(ソフトウェア開発キット)「Omniverse」を強化するライブラリ群と、世界基盤モデルファミリー「Cosmos」の新たなモデルを発表した。世界基盤モデルとは、さまざまな物理AIやロボットに応用できる、大規模で汎用(はんよう)的な世界モデル(物理世界での現象をシミュレーションするAIモデル)だ。

シミュレーションは完璧でもなぜロボットは動かない?

 Omniverseを利用することで、ロボット開発者は、3D(3次元)シーン記述のためのオープンソースプログラム群「Universal Scene Description」(USD、「OpenUSD」とも)、ロボット工学で利用される物理エンジン「MuJoCo」などの異なる技術を使って、ロボットのシミュレーションを実行できるようになる。

 Omniverseのライブラリには、新たなレンダリング技術「Omniverse NuRec」が導入された。この技術はセンサーデータから現実世界を捉えてデジタル空間に再構築し、シミュレーションを実行することを可能にする。

 今回の発表に伴って、ロボット開発のためのシミュレーションツール「NVIDIA Isaac Sim」バージョン5.0と「NVIDIA Isaac Lab」バージョン2.2が、ソースコード共有サービス「GitHub」で新たに公開された。Isaac Simにはセンサーの仕様が定義されており、開発者はこれを利用してシミュレーションと現実との誤差を縮めることができる。

 NVIDIAは、プロンプト(指示)の入力を簡素化し、写真のようにリアルな合成データの生成を高速化する世界基盤モデル「Cosmos Transfer」のバージョン2のリリースも予告した。この他、Cosmos Transferの処理を軽量化した「蒸留版」も発表している。AIモデルによるデータ生成プロセスを従来よりも大幅に軽量化したことで、企業向けサーバ「NVIDIA RTX Pro Server」で手軽に稼働させられるようになった。

 オープンソースコミュニティーへの貢献として、NVIDIAはフィジカルAIとロボット工学に特化した視覚言語モデル(視覚情報と言語情報の両方を理解できるAIモデル)「NVIDIA Cosmos Reason」を発表した。このモデルは70億のパラメータを持つ、オープンかつカスタマイズ可能な推論モデル(未知の問題を解決したり結論を導き出したりすることを目指したAIモデル)だ。「NVIDIA Cosmos Reasonを用いることで、ロボットやAIエージェントに、人のような推論能力を与えることができる」とNVIDIAは説明する。

 NVIDIA Cosmos Reasonの用途としては、データの整理やアノテーション(ラベル付け)、ロボットの行動計画と推論、映像解析AIエージェントなどがある。

フィジカルAIとロボット開発の現在

 テキストや画像などを自動生成するAI技術「生成AI」、AIモデルが自律的にタスクを実行するシステム「AIエージェント」の成熟が進む中、今回発表されたフィジカルAI向けの新モデル群は、フィジカルAIへの市場の関心が高まっていることを示している。

 調査会社Gartnerのアナリストであるトゥオン・フイ・グエン氏は、「世界モデルとその関連技術は、AI分野における大きな飛躍だ」と評価する。その一方で、「AIモデルが世界をより深く理解し、予測し、反応するための技術が構築されている段階であり、まだ最終形態ではない」とも述べる。

 「NVIDIAが発表したような世界モデルは、ロボットが現実世界とより効果的に関わる方法を見つけ出すことを目的としている」とグエン氏は付け加える。これによって、ロボットは重力、質量、速度、光、音、物体といった物理法則や概念を理解できるようになる。

 この分野で開発を進めているのはNVIDIAだけではない。非営利AI研究機関のAllen Institute for Artificial Intelligence(Ai2)は、AIモデルの新たなカテゴリー「Action Reasoning Models」(ARM)を提唱した。これは、ロボットが言語モデルや視覚言語モデルのみを使って推論する際の課題や限界を克服するためのものだ。同機関が公開した初のARM「MolmoAct」は、Ai2のオープンソース視覚言語モデル「Molmo」を基に構築されている。「MolmoActが言語と行動の間の隔たりを埋め、ロボットが指示通りに動くことを支援する」と同機関は説明する。

フィジカルAIが直面する課題

 フィジカルAIは、物理法則が作用する現実世界で行動するためのトレーニングが必要になる。トレーニングをするためには、現実の物理的な動きを反映したデータの整備と、適切なAIモデルをベースモデルとして選択することが重要だ。フィジカルAIのベースモデルには、テキストや画像の処理に最適化されたAIモデルではなく、NVIDIAやAi2が提供するような、物理的な現象に特化したAIモデルが不可欠だ。

 Futurum Groupのアナリストであるレイ・ワン氏は、「ヒューマノイド(人型ロボット)を制御するソフトウェアの開発は極めて複雑だ」と指摘する。ヒューマノイドを訓練するためには、フィジカルAIの処理に特化して設計されたモデルが不可欠だという。

 ワン氏によると、ヒューマノイドには画像や物体を的確に認識、理解し、それを基に行動を計画する能力が求められる。

 NVIDIAは、開発者がフィジカルAIアプリケーションを開発するための技術を提供するだけではなく、AI技術を取り巻くエコシステムを拡大しているとワン氏は分析する。

 一方でワン氏は、NVIDIAの技術に対する信頼性が同社に大きな優位性をもたらしていることを認めつつも、「フィジカルAIを商用化するには、まだ課題が山積している」と述べる。「市場はまだ成熟していないが、フィジカルAI関連のソフトウェア開発がここ数年で急速に進化したことは確かだ」(同氏)

Copyright © ITmedia, Inc. All Rights Reserved.
本記事は制作段階でChatGPT等の生成系AIサービスを利用していますが、文責は編集部に帰属します。

アイティメディアからのお知らせ

From Informa TechTarget

なぜクラウド全盛の今「メインフレーム」が再び脚光を浴びるのか

なぜクラウド全盛の今「メインフレーム」が再び脚光を浴びるのか
メインフレームを支える人材の高齢化が進み、企業の基幹IT運用に大きなリスクが迫っている。一方で、メインフレームは再評価の時を迎えている。

ITmedia マーケティング新着記事

news017.png

「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。

news027.png

「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。

news023.png

「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...