はじめに
本TechBlogはTeam xG Advent Calendar 2025 15日目の記事になります。
こんにちは!
D&A事業本部、新入社員の鈴木健也です。
みなさんは、「動画生成AI」で動画を作成したことはあるでしょうか?また、「動画生成AI」という言葉を聞いて、どこか不自然な動きや音のない映像を思い浮かべていませんか?
私もそうでした。
しかし今回、Googleの最新モデル「Veo3.1」に触れて、その認識は一変しました。
人や動物、背景など様々な描写を不自然な動きなく、プロンプトに忠実に生成できるようになっていました。
今回は、「Veo3.1」の特徴と進化した点、さらに、実際に生成する過程を含めてご紹介していきます。
Veo3.1の特徴と進化点とは?
さっそく、Veo3.1の特徴と進化した点についてご紹介します。
主な特徴としては、4点あります。
1.長尺動画生成と高い一貫性
最大60秒の連続した動画が生成可能。また、Extend機能を使用することで、1分を超える長尺動画も生成可能。
直前の映像の最後の1秒を参照基準とする仕組みであるため、シーンをまたいでもキャラクターや背景の連続性が高く、物語の破綻が起こりにくい。
2.クリエイティブな制御の強化
テキストプロンプトに加えて、最大3枚までの参照画像を指定可能。動画全体の見た目やスタイルの一貫性を保つことが出来る。
Insert(挿入)やRemove(削除)といった新しい編集機能や映画製作で使われる専門的なカメラワークの指示にも高い精度で対応可能。
3.ネイティブオーディオの結合
映像の内容に合わせて、音声も同時に生成可能。映像と完全に同期させることができる。
4.プロンプト忠実性とリアリズムの向上
ユーザーが指定したプロンプトに正確に従う動画を生成する能力が向上。実写的な質感やテクスチャの表現がリアルになり、映像品質も向上(1080p HD解像度)
このような機能の強化や改善によって、プロ品質の動画制作がより民主化されました。
Veo3とVeo3.1の比較
ここからは、表形式で、全バージョンのVeo3からどのような進化を遂げたのか見ていきましょう。
| 特徴 | Veo3 | Veo3.1 |
| 動画の長さ | 最大8〜10秒の短尺に限定 | 最大60秒(Extend機能)長尺動画生成 |
| 一貫性 | シーンごとに変化が発生 | シーンやキャラクターの連続性が高い |
| オーディオ | 口の動きと音声を同期して生成 | 会話、効果音、BGMを映像と同時に生成(ネイティブオーディオ結合) |
| 制御 | 基本的なテキスト/画像対応 | カメラ制御(ズーム/パン)、スタイル指定など、クリエイティブな制御が大幅に強化 |
Extend機能については、6~10秒の動画をつなぎ合わせて、60秒ほどの動画を生成するという意味合いになります。
生成AIの課題であった、シーンやキャラクターの連続性が特に改善されました。
動画生成チュートリアル
Step1 動画生成AIツールの起動
まずは、Geminiを開いて、「ツール」ボタンを選択。そして、動画を生成をクリックします。

Step2 プロンプトの入力と素材の準備
「ツール」が「動画」に変わったことを確認後、プロンプトを入力します。素材となる画像をアップロードすることも可能です。(プロンプトは、Geminiに作成させました。)

Step3 動画生成の完了と結果の確認
1〜2分程で動画生成が完了します。今回は、2つの動画を生成してみました。完成した動画がこちら。
プロンプト1
A solitary explorer with a worn leather satchel standing on a mossy forest path, examining an old map. Cinematic lighting, smooth drone shot panning out to reveal the vast, misty landscape. (8 seconds, 1080p)
苔むした森の小道に、年季の入った革のサッチェル(肩掛けカバン)を持った一人の探検家が立っており、古い地図を調べている。シネマティックなライティング(照明)、広大で霧のかかった風景を見せるための滑らかなドローンショットでのパン。。(8秒、1080p)
プロンプト2
Cinematic, 4K, soft Golden Hour light. A healthy and beautiful red fox slowly walks along a mountain path in a forest of rich autumn colors. The fox occasionally sniffs the ground. The camera uses a low-angle, slow tracking shot following the fox from behind.
シネマティック、4K、ゴールデンアワーの柔らかな光。 健康で美しい赤毛のキツネが、秋の色彩豊かな森の山道をゆっくりと歩いている。時折、地面の匂いを嗅いでいる。カメラはキツネを低い位置から後方で追うスローなトラックショット。
※プロンプトは英語で書くのが基本です。日本語表現は曖昧な表現になることがあるため、翻訳ツールを使って、英語にしてもらいましょう。
このように、リアリティがあり、プロンプトに忠実に再現された動画になっていることがわかります。
BGMも自動で生成してくれているので、プロンプトを指示するだけで、ハイクオリティな動画を作ることが出来ます。
さいごに
いかがだったでしょうか?
今回は、Veo3.1の機能をご紹介しました。
Extend機能により、従来の課題だった人物や背景の「一貫性」を保ったまま長尺動画の生成が可能になりました。
さらに、映像と完全に同期した「ネイティブオーディオ」の結合が実現。これにより、映像と音声を別々に編集する手間がなくなり、「テキストだけでプロ品質の動画制作が完結する」時代が到来しました。
ぜひ一度ご自身でVeo3.1の機能を体感してみてください。
次回、12/16は、これらの進化した機能について、チュートリアルを交えてご紹介していこうと思います!
- カテゴリ:
- veo3.1