Stability AI、最新のマルチアングル動画生成AIモデル「Stable Video 4D」を発表

最終更新日:2024/08/06

Stability AI Stable Video 4D発表

Stability AIは、最先端のオープンソースNeRF動画生成AIモデル「Stable Video 4D」を発表しました。1つのビデオをアップロードするだけで、8つの視点からなるマルチアングル3D 動画を生成します。

このニュースのポイント

Stability AIの初の動画生成モデル「Stable Video 4D」を発表。1つのビデオをアップロードすることで、8つの異なるアングルの動画を生成
「Stable Video 4D」は8つの視点にわたって5フレームの動画を約40秒で生成しますが、全体の4D最適化には20〜25分かかる
ゲーム開発やビデオ編集、バーチャルリアリティなどの分野での応用が期待

Stability AIは、最先端のオープンソースNeRF動画生成AIモデル「Stable Video 4D」を発表しました。同社にとって初めての動画から動画を生成するモデルとなり、現在研究段階としてHugging Faceで公開しながら、継続的な改良が期待されています。

「Stable Video 4D」は、画像を動画に変換するStable Video Diffusionモデルを基盤としていますが、本モデルでは単一のビデオ入力をダイナミックなマルチアングル3D出力に変換できます。

具体的には、ユーザーは1つの動画をアップロードし、希望する3Dカメラのポーズを指定します。すると指定したカメラアングルに従って、8つの新しい視点とタイムスタンプによって外観の一貫性が確保された動画が生成されます。

これにより、空間軸と時間軸においてもオブジェクトの一貫性が大幅に向上し、複数の拡散モデルを使用する煩雑なスコア蒸留サンプリング（SDS）なしで、よりシンプルな4D最適化フレームワークを可能にします。

動画生成には、1回の推論で5フレームの動画を約40秒かかり、全体の4D最適化には約20〜25分かかります。

Stability AIは、実世界の動画を対象とするモデルの最適化に取り組んでおり、企業への導入を促進することで、さらなる技術の革新を目指しています。この技術は多くの産業において新たな創造性を生む可能性があり、今後の研究開発による進化が期待されています。また、コミュニティとの協力を通じてモデルの改善にも取り組んでいます。

出典：Stability AI