NVIDIA Cosmos™とは？使い方からかかる料金まで解説

最終更新日:2026/04/01

NVIDIA Cosmos™とは？

自社で今後フィジカルAIの開発に力を入れるにあたり、まずは開発環境をしっかり整えたいと考えている方も多いのではないでしょうか。

優れた開発アイデアがあっても、GPUやシミュレーション環境といった基盤がなければ、実用レベルのフィジカルAI開発は困難です。

特に、フィジカルAIは人手不足という社会的課題の解消にもつながる分野であり、開発環境の選定や設計には慎重さが求められます。

この記事では、フィジカルAIの開発を支えるNVIDIA Cosmos™について詳しく解説します。

NVIDIA Cosmos™とは？

NVIDIA Cosmos™とは、NVIDIAが提供するフィジカルAIシステムの設計を支援する、開発者向けプラットフォームです。

Cosmos-PredictやCosmos-Transfer、Cosmos-Reasonといった世界基盤モデル（World Foundation Model：WFM）を中心に、推論、合成データ生成、後学習（post-training）、評価などの作業を進めやすくしているのが特徴です。

生成パイプラインにはCosmos Guardrailが組み込まれており、入力プロンプトや生成結果に対してコンテンツ安全対策が行われます。

NVIDIA Cosmos™とOmniverse™の違い

NVIDIA Cosmos™とOmniverse™の違いは以下の通りです。

要素	Cosmos™	Omniverse™
概要	世界基盤モデル（WFM）を中心に、フィジカルAI向けの推論や合成データ生成、後学習などを行うプラットフォーム	物理演算を含む3Dワークフローやデジタルツイン構築を支えるプラットフォーム／ツール群
使用するメリット	実データが不足しがちな領域で、条件を制御した合成データ（画像・動画）を用意しやすい後学習（post-training）の手順を組み込みやすい生成データの評価にReason系モデルを使える	高忠実度の3Dシミュレーション環境を作りやすいロボットシミュレーションや産業デジタルツインなど幅広い用途に展開できる既存の3Dツールやパイプラインと連携しやすい

例えばNVIDIA Omniverse™などで作成したシミュレーション映像を入力として、NVIDIA Cosmos™（主にCosmos Transfer）で環境条件を制御した合成動画データを生成し、学習や評価に活用する流れが考えられます。

それぞれ役割が補完関係にあるため、フィジカルAIの開発現場では用途に応じて連携させることで開発の幅が広がります。

参考：NVIDIA Cosmos
参考：NVIDIA Omniverse

NVIDIA Cosmos™でできること

ここでは、NVIDIA Cosmos™で代表的にできることを4つご紹介します。

画像・動画の合成データを生成できる（推論）

NVIDIA Cosmos™では、プロンプトから画像や動画の合成データを生成できます。

これはCosmos Predictなどの世界基盤モデルによる推論処理で行われ、入力されたテキストや条件に基づいて実世界に近いシーンを画像や動画として生成する仕組みです。

フィジカルAIのモデルに学習させるデータは、実世界に近い分布や条件を押さえる必要があります。

NVIDIA Cosmos™では高品質な合成データセットを生成できるため、自動運転のトレーニングシナリオやロボティクスの動作データなど、実機データが不足しがちな領域でも学習用データの拡充に役立ちます。

合成データ生成機能は、フィジカルAIにより現実に近い条件を学習させたい場合に向いています。

参考：Cosmos Predict 2 Text2Image for Intelligent Transportation System (ITS) Images

現場データに合わせてAIを最適化できる（後学習・Fine-Tuning）

フィジカルAIの開発現場では、、進捗に伴い「モデルを新たな環境に適応させたい」というニーズが生じます。

そのようなニーズに応えられるのが、NVIDIA Cosmos™の教師ありファインチューニング（Supervised Fine-Tuning：SFT）です。

教師ありファインチューニングとは、事前学習済みモデルにラベル付きデータを与え、特定のタスクや指示に沿って出力できるように調整する手法です。

教師ありファインチューニングは、一般に以下の流れで進めます。

データ準備
教師ありファインチューニングの実施
量子化（quantization＝モデルを軽量化し、推論効率を高める工程）
推論用デプロイ

量子化は必須ではありませんが、推論時のGPUメモリ使用量や処理時間を抑えたい場合に検討されます。

教師ありファインチューニングは、モデルを特定ドメインや実環境条件に合わせて調整したい場合に向いています。

参考：Intelligent Transportation Post-Training with Cosmos Reason 1
参考：Intelligent Transportation Post-Training with Cosmos Reason 2

ロボット・自動運転向け学習データを生成できる

NVIDIA Cosmos™は、収集に多大な時間とコストが必要となるロボット・自動運転向け学習データを合成データを生成できます。

例えばITS（高度道路交通システム）向けに学習データが必要な場合、NVIDIA Cosmos™では以下のことができます。

出現頻度の低いクラス（特定の標識、自転車など）を意図的に増やし、クラス不均衡を補正しながらリアリティを維持したデータセットを構築できる
カメラ視点、照明条件、天候、シーン構成を体系的に変化させ、ドメインシフトを緩和しつつモデルの汎化性能を向上させられる

ロボット・自動運転向け学習データの生成機能は、実データでは収集が難しいレアケースや特定条件も含めて開発を進めたい現場に適しています。

実証実験・PoC環境を短期間で構築できる

PoC（Proof of Concept：概念実証）は、特定のアイデアや技術が実際に機能するかどうかを確かめるための試作や実験のことです。

フィジカルAIの開発においては、ロボットや自動運転モデルが実環境で正しく動作するかを事前に検証する必要があります。

しかし、実機を用いた検証には時間やコスト、安全面の課題が伴います。

NVIDIA Cosmos™では、NVIDIA Omniverse™などで作成したシミュレーション映像を、より現実に近い見た目へ変換し、そのデータを用いてモデルを学習・評価できます。

これにより、実機を用いた大規模な検証に入る前段階として、仮想環境上で概念実証を効率的に行うことが可能です。

参考：All recipes

NVIDIA Cosmos™で使われているモデル

NVIDIA Cosmos™で使用されている主なモデルは次の3つです。

項目	概要	使用するメリット
Cosmos Predict（Predict2.5／Predict2／Predict1）	テキスト、画像、動画などを入力に、未来の世界状態を動画として生成する世界基盤モデル（WFM）	実環境で取りにくいシーンを含む合成データを用意しやすい Text2ImageやVideo2Worldなど用途に合わせて推論できる後学習（post-training）でドメイン適応を行える
Cosmos Transfer（Transfer2.5／Transfer1）	シミュレーション映像や既存動画を入力に、深度やセグメンテーションなどの制御信号も使いながら、環境条件を変えた動画へ変換するモデル群	同一シーンを多様な天候・照明・背景に展開できる Sim2Realの前処理として見た目の差を詰めやすい学習用データのバリエーションを増やせる
Cosmos Reason（Reason2／Reason1）	映像や画像を理解し、物理世界の状況に関する質問応答や推論を行うビジョン言語モデル（VLM）	生成データのチェックや説明付けに使える危険検知や物理的整合性の確認など、評価工程を支援できる映像解析の前処理や検証にも活用しやすい

Cosmos Predict、Cosmos Transfer、Cosmos Reasonは上記のようにそれぞれ役割が異なりますが、連携して使用することができます。

例えば、Cosmos Predictで生成した動画をCosmos Transferで環境条件を変更し、Cosmos Reasonで解析・評価するワークフローが構築可能です。

これにより、実環境テストの前段階で検証を進められるため、データ収集コストや検証サイクルを削減しながら効率的に開発を進められます。

NVIDIA Cosmos™の使い方

NVIDIA Cosmos™を業務利用するなら、NVIDIA共通の利用規約とプライバシーポリシーにあらかじめ目を通しておきましょう。

利用規約にはNVIDIAのサービスを使用する上で守らなければならないこと、プライバシーポリシーには情報の取り扱いについて記載されています。業務利用するにあたっては、これらの内容を確認したうえで導入を進める必要があるでしょう。

NVIDIA Cosmos™のソースコードはApache License 2.0、学習済みモデルはNVIDIA Open Model Licenseの下で提供されています。モデルを取得するリポジトリや配布元（Hugging Face Hubなど）で表示されるライセンス条項も合わせて確認しておくとよいでしょう。

使い方を4つのステップに分けてご紹介します。ただし、手順は今後更新される可能性があるため、導入時は公式情報を確認してください。

リポジトリの設定

最初にCosmos CookbookをGitHubから取得します。

具体的にはGitHub上のCosmos Cookbookリポジトリを、git clone コマンドなどでローカル環境に取得します。

Cosmos Cookbookには複数のディレクトリがありますが、まずは以下の2つを押さえると全体像をつかみやすくなります。

項目	概要
docs/	技術ガイド、ワークフロー、使用例、チュートリアルなど、マークダウン形式で記述されたドキュメントのソースが格納されている
scripts/	データ処理用スクリプト、評価パイプラインなど、Cookbook 内で参照されている実行可能なスクリプトが格納されている

ドキュメントと実装が分離されているため、仕様確認と実行作業を効率的に行えます。

動作要件の確認

NVIDIA Cosmos™は高性能GPU環境を前提とした開発プラットフォームであるため、導入後の環境不整合を防ぐためにも、自社のインフラ環境が要件を満たしているかあらかじめ確認しておきましょう。

また、モデルファミリーごとに必要なGPU数やメモリ容量が異なるため、導入前にPrerequisitesと各Model Matrixを確認してください。ここでは代表的な要件をまとめます。

項目	内容
GPUアーキテクチャ	基本はAmpere世代以降（例：RTX 30シリーズ、A100など）です。ただしReason2はHopper／Blackwellでの検証が中心です。
GPU数・メモリ	推論／後学習（post-training）で要件が変わるため、各Model Matrixを参照してください。例としてReason1は推論が1 GPU（24GB）、後学習は4 GPU（各80GB）が目安です。
Predict2.5・Transfer2.5	Ampere世代以降のGPUを使用し、必要なGPU数とメモリはModel Matrixに従います。
Predict1	H100-80GBまたはA100-80GBでの推論・後学習が前提です。
補足	ローカルでドキュメントを閲覧するのみの場合はGPU不要です。

また、必要なソフトウェア要件は以下の通りです。

項目	内容
OS	Ubuntu 24.04 / 22.04 / 20.04
Python	3.10以上
NVIDIA Container Toolkit	1.16.2以上
CUDA	12.4以上
Docker Engine	必須
ネットワーク環境	モデルおよび依存関係をダウンロードするためのインターネット接続

ポテンシャルを十分に発揮させるためにも、慎重な確認が求められます。

汎用ツールのインストール

Cosmos Cookbookを実行するには、以下のシステム依存ツールが必要です。

項目	概要	インストール方法
pkgx	CLIツールのインストールと管理を行うパッケージマネージャー依存関係を自動解決し、分離された実行環境を構築できます。	brew install pkgx
uv	高速なPythonパッケージインストーラー兼依存関係解決ツール pipより高速で再現性の高い環境構築が可能です。	curl -LsSf https://astral.sh/uv/install.sh
Hugging Face CLI	Hugging Face Hubから学習済みモデルを取得するためのコマンドラインツールです。	uv tool install -U “huggingface_hub[cli]” → hf auth login