生成AI

最終更新日:2026/03/02
NVIDIA Cosmos™とは?
自社で今後フィジカルAIの開発に力を入れるにあたり、まずは開発環境をしっかり整えたいと考えている方も多いのではないでしょうか。
どれだけ新たな開発アイデアを思いついたとしても、それを具現化するのに、GPUやシミュレーション環境などの基盤が整っていなければ、実用レベルのフィジカルAIを開発するのは難しいでしょう。
特にフィジカルAIは人手不足という社会的課題の解消にもつながる分野であり、開発環境の選定や設計には慎重さが求められます。
この記事では、フィジカルAIの開発を支えるNVIDIA Cosmos™について詳しく解説します。

NVIDIA Cosmos™とは、NVIDIAが提供するフィジカルAIシステムの設計に向けた開発者向けプラットフォームです。
Cosmos-PredictやCosmos-Transfer、Cosmos-Reasonといった世界基盤モデル(World Foundation Model:WFM)を中心に、推論、合成データ生成、後学習(post-training)、評価などの作業を進めやすくしているのが特徴です。
生成パイプラインにはCosmos Guardrailが組み込まれており、入力プロンプトや生成結果に対してコンテンツ安全対策が行われます。
NVIDIA Cosmos™とOmniverse™の違いは以下の通りです。
| 要素 | Cosmos™ | Omniverse™ |
|---|---|---|
| 概要 | 世界基盤モデル(WFM)を中心に、フィジカルAI向けの推論や合成データ生成、後学習などを行うプラットフォーム | 物理演算を含む3Dワークフローやデジタルツイン構築を支えるプラットフォーム/ツール群 |
| 使用するメリット | 実データが不足しがちな領域で、条件を制御した合成データ(画像・動画)を用意しやすい 後学習(post-training)の手順を組み込みやすい 生成データの評価にReason系モデルを使える | 高忠実度の3Dシミュレーション環境を作りやすい ロボットシミュレーションや産業デジタルツインなど幅広い用途に展開できる 既存の3Dツールやパイプラインと連携しやすい |
例えばNVIDIA Omniverse™などで作成したシミュレーション映像を入力として、NVIDIA Cosmos™(主にCosmos Transfer)で環境条件を制御した合成動画データを生成し、学習や評価に活用する流れが考えられます。
それぞれ役割が補完関係にあるため、フィジカルAIの開発現場では用途に応じて連携させることで開発の幅が広がります。
参考:NVIDIA Cosmos
参考:NVIDIA Omniverse
ここでは、NVIDIA Cosmos™で代表的にできることを4つご紹介します。
NVIDIA Cosmos™では、プロンプトから画像や動画の合成データを生成できます。
これはCosmos Predictなどの世界基盤モデルによる推論処理で行われ、入力されたテキストや条件に基づいて実世界に近いシーンを画像や動画として生成する仕組みです。
フィジカルAIのモデルに学習させるデータは、実世界に近い分布や条件を押さえる必要があります。
NVIDIA Cosmos™では高品質な合成データセットを生成できるため、自動運転のトレーニングシナリオやロボティクスの動作データなど、実機データが不足しがちな領域でも学習用データの拡充に役立ちます。
合成データ生成機能は、フィジカルAIにより現実に近い条件を学習させたい場合に向いています。
参考:Cosmos Predict 2 Text2Image for Intelligent Transportation System (ITS) Images
フィジカルAIの開発現場では、開発を進めるにつれモデルを新たな環境でも学習させたいというニーズが出てくることもあるでしょう。
そのようなニーズに応えられるのが、NVIDIA Cosmos™の教師ありファインチューニング(Supervised Fine-Tuning:SFT)です。
教師ありファインチューニングとは、事前学習済みモデルにラベル付きデータを与え、特定のタスクや指示に沿って出力できるように調整する手法です。
教師ありファインチューニングは、一般に以下の流れで進めます。
量子化は必須ではありませんが、推論時のGPUメモリ使用量や処理時間を抑えたい場合に検討されます。
教師ありファインチューニングは、モデルを特定ドメインや実環境条件に合わせて調整したい場合に向いています。
参考:Intelligent Transportation Post-Training with Cosmos Reason 1
参考:Intelligent Transportation Post-Training with Cosmos Reason 2
NVIDIA Cosmos™は、収集に多大な時間とコストが必要となるロボット・自動運転向け学習データを合成生成することが可能です。
例えばITS(高度道路交通システム)向けに学習データが必要な場合、NVIDIA Cosmos™では以下のことができます。
ロボット・自動運転向け学習データの生成機能は、実データでは収集が難しいレアケースや特定条件も含めて開発を進めたい現場に適しています。
PoC(Proof of Concept:概念実証)は、特定のアイデアや技術が実際に機能するかどうかを確かめるための試作や実験のことです。
フィジカルAIの開発においては、ロボットや自動運転モデルが実環境で正しく動作するかを事前に検証する必要があります。
しかし、実機を用いた検証には時間やコスト、安全面の課題が伴います。
NVIDIA Cosmos™では、NVIDIA Omniverse™などで作成したシミュレーション映像を、より現実に近い見た目へ変換し、そのデータを用いてモデルを学習・評価できます。
これにより、実機を用いた大規模な検証に入る前段階として、仮想環境上で概念実証を効率的に行うことが可能です。
参考:All recipes
NVIDIA Cosmos™で使用されている主なモデルは次の3つです。
| 項目 | 概要 | 使用するメリット |
|---|---|---|
| Cosmos Predict(Predict2.5/Predict2/Predict1) | テキスト、画像、動画などを入力に、未来の世界状態を動画として生成する世界基盤モデル(WFM) | 実環境で取りにくいシーンを含む合成データを用意しやすい Text2ImageやVideo2Worldなど用途に合わせて推論できる 後学習(post-training)でドメイン適応を行える |
| Cosmos Transfer(Transfer2.5/Transfer1) | シミュレーション映像や既存動画を入力に、深度やセグメンテーションなどの制御信号も使いながら、環境条件を変えた動画へ変換するモデル群 | 同一シーンを多様な天候・照明・背景に展開できる Sim2Realの前処理として見た目の差を詰めやすい 学習用データのバリエーションを増やせる |
| Cosmos Reason(Reason2/Reason1) | 映像や画像を理解し、物理世界の状況に関する質問応答や推論を行うビジョン言語モデル(VLM) | 生成データのチェックや説明付けに使える 危険検知や物理的整合性の確認など、評価工程を支援できる 映像解析の前処理や検証にも活用しやすい |
Cosmos Predict、Cosmos Transfer、Cosmos Reasonは上記のようにそれぞれ役割が異なりますが、連携して使用することができます。
例えば、Cosmos Predictで生成した動画をCosmos Transferで環境条件を変更し、Cosmos Reasonで解析・評価するワークフローが構築可能です。
これにより、実環境テストの前段階で検証を進められるため、データ収集コストや検証サイクルを削減しながら効率的に開発を進められます。

NVIDIA Cosmos™を業務利用するなら、NVIDIA共通の利用規約とプライバシーポリシーにあらかじめ目を通しておきましょう。
利用規約にはNVIDIAのサービスを使用する上で守らなければならないこと、プライバシーポリシーには情報の取り扱いについて記載されています。業務利用するにあたっては、これらの内容を確認したうえで導入を進める必要があるでしょう。
NVIDIA Cosmos™のソースコードはApache License 2.0、学習済みモデルはNVIDIA Open Model Licenseの下で提供されています。モデルを取得するリポジトリや配布元(Hugging Face Hubなど)で表示されるライセンス条項も合わせて確認しておくとよいでしょう。
使い方を4つのステップに分けてご紹介します。ただし、手順は今後更新される可能性があるため、導入時は公式情報を確認してください。
最初にCosmos CookbookをGitHubから取得します。
具体的にはGitHub上のCosmos Cookbookリポジトリを、git clone コマンドなどでローカル環境に取得します。
Cosmos Cookbookには複数のディレクトリがありますが、まずは以下の2つを押さえると全体像をつかみやすくなります。
| 項目 | 概要 |
|---|---|
| docs/ | 技術ガイド、ワークフロー、使用例、チュートリアルなど、マークダウン形式で記述されたドキュメントのソースが格納されている |
| scripts/ | データ処理用スクリプト、評価パイプラインなど、Cookbook 内で参照されている実行可能なスクリプトが格納されている |
ドキュメントと実装が分離されているため、仕様確認と実行作業を効率的に行えます。
NVIDIA Cosmos™は高性能GPU環境を前提とした開発プラットフォームであるため、導入後の環境不整合を防ぐためにも、自社のインフラ環境が要件を満たしているかあらかじめ確認しておきましょう。
また、モデルファミリーごとに必要なGPU数やメモリ容量が異なるため、導入前にPrerequisitesと各Model Matrixを確認してください。ここでは代表的な要件をまとめます。
| 項目 | 内容 |
|---|---|
| GPUアーキテクチャ | 基本はAmpere世代以降(例:RTX 30シリーズ、A100など)です。ただしReason2はHopper/Blackwellでの検証が中心です。 |
| GPU数・メモリ | 推論/後学習(post-training)で要件が変わるため、各Model Matrixを参照してください。例としてReason1は推論が1 GPU(24GB)、後学習は4 GPU(各80GB)が目安です。 |
| Predict2.5・Transfer2.5 | Ampere世代以降のGPUを使用し、必要なGPU数とメモリはModel Matrixに従います。 |
| Predict1 | H100-80GBまたはA100-80GBでの推論・後学習が前提です。 |
| 補足 | ローカルでドキュメントを閲覧するのみの場合はGPU不要です。 |
また、必要なソフトウェア要件は以下の通りです。
| 項目 | 内容 |
|---|---|
| OS | Ubuntu 24.04 / 22.04 / 20.04 |
| Python | 3.10以上 |
| NVIDIA Container Toolkit | 1.16.2以上 |
| CUDA | 12.4以上 |
| Docker Engine | 必須 |
| ネットワーク環境 | モデルおよび依存関係をダウンロードするためのインターネット接続 |
ポテンシャルを十分に発揮させるためにも、慎重な確認が求められます。
Cosmos Cookbookを実行するには、以下のシステム依存ツールが必要です。
| 項目 | 概要 | インストール方法 |
|---|---|---|
| pkgx | CLIツールのインストールと管理を行うパッケージマネージャー 依存関係を自動解決し、分離された実行環境を構築できます。 | brew install pkgx |
| uv | 高速なPythonパッケージインストーラー兼依存関係解決ツール pipより高速で再現性の高い環境構築が可能です。 | curl -LsSf https://astral.sh/uv/install.sh |
| Hugging Face CLI | Hugging Face Hubから学習済みモデルを取得するためのコマンドラインツールです。 | uv tool install -U “huggingface_hub[cli]” → hf auth login |
Hugging Face CLIを利用するには、Hugging Faceアカウントとアクセストークンによる認証が必要となるため注意しましょう。
またアクセストークンは社内ポリシーに従い、安全に管理してください。
NVIDIA Cosmos™は必ずしもローカル環境で使用しなければならないわけではなく、クラウド環境でも使用できます。
クラウド環境では、GPUリソースを自前で用意せずに実行できる点が特徴的です。
Brevは、GPU付きの開発環境をクラウド上で立ち上げて、セットアップ済みの環境から素早く検証を始められるサービスです。Cosmos CookbookでもBrev上でのクイックスタート手順が用意されているため、ローカルにGPUサーバーを用意せずに試したい場合に選択肢になります。
Brev上でCosmos Reason1を始めたい場合は、NVIDIA Cosmos Cookbookのページを参考にしましょう。また、BrevでTransfer2.5とPredict2.5を始めたい場合はこちらのページを参考にしてみてください。
いずれのページにも操作画面の画像が掲載されているため、手順を確認しながら進められます。
NVIDIA Cosmos™のソースコードはApache License 2.0で公開されており、学習済みモデルはNVIDIA Open Model Licenseの下で提供されています。
そのため、Cosmos自体に固定の利用料金が設定されているわけではなく、主な費用は実行に使うGPU環境(オンプレミスの設備費、クラウドのGPU利用料など)に依存します。
クラウドで検証する場合は、GPUインスタンスの課金単位に加えてストレージやデータ転送料なども含めて確認しておくと見積もりやすくなります。
NVIDIA Corporationが開発・運営するフィジカルAI開発向けの統合プラットフォームです。
この記事も参考にして自社に合った形で活用し、画期的なフィジカルAIの開発に取り組んでみてください。
アイスマイリーでは、生成AI のサービス比較と企業一覧を無料配布しています。課題や目的に応じたサービスを比較検討できますので、ぜひこの機会にお問い合わせください。
業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。
AI製品・ソリューションの掲載を
希望される企業様はこちら