
数日間のリークや噂の後、Googleが「Veo 3.1」という新しいAI動画生成モデルを正式に発表した。静止画から動画を作り、音声まで自動で生成できる。競合のOpenAIが出した「Sora 2」と比べてどんな特徴があるのか。機能、価格、実際に使った人たちの評価から、その実力を見ていこう。
ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
ボタンから募集中の求人一覧ページに移動できます。
Veo 3.1ができること
Veo 3.1は、Googleが2024年5月に発表したVeo 3の後継モデルだ。今回のアップデートで、映像制作に必要な機能が大きく強化されている。入力形式は、テキストプロンプト、画像、動画クリップに対応している。注目すべきは、最大3枚まで「参照画像」を指定できる点だ。この機能を使えば、動画全体で見た目やスタイルを統一できる。たとえば、特定の商品や人物の外観を維持したまま、異なるシーンを作ることが可能になる。さらに「最初と最後のフレーム補間」も追加され、開始地点と終了地点の画像を指定すれば、その間をつなぐシームレスな動画を生成してくれる。
そして何より大きな変化が、音声の自動生成だ。従来のVeo 3では動画を作った後に別途音声を追加する必要があったが、Veo 3.1では対話や環境音、効果音が動画と同時に生成される。この機能は「Frames to Video」「Ingredients to Video」「Extend」で利用できる。Googleはブログ投稿で、これらのアップデートがより深い芸術的制御と改善された音声サポートを求めるユーザーフィードバックを反映したものだと述べている。音声と映像を別々に作る手間が省けるため、制作の流れがシンプルになる。
動画の長さについても改善があった。テキストや画像から最初に生成できるのは4秒、6秒、8秒のいずれかだが、「Extend」機能を使えば最大148秒まで延長できる。前の動画の最終フレームから続けて生成することで、1分以上の長い動画も可能だ。
出力される動画の解像度は720pまたは1080p、フレームレートは24fpsとなっている。映画が一般的に24fpsで撮影されることを考えると、映画に近い質感を持つと言えるだろう。
編集機能も追加された。「Insert」では既存のシーンに新しいオブジェクトを追加でき、「Remove」では不要な要素やキャラクターを取り除ける。ただし、これらの機能はすべてがGemini APIを通じてすぐに利用できるわけではない。価格は標準モデルが1秒あたり0.40ドル、高速モデルが1秒あたり0.15ドルだ。動画が正常に生成された場合のみ課金される仕組みになっている。現在はGemini APIの有料プランでのみ利用可能で、無料版は提供されていない。
機能面では確かに充実している。では、実際に使った人たちはこのツールをどう評価しているのだろうか。
Sora 2との違いと、ユーザーの本音

Veo 3.1を語る上で避けて通れないのが、OpenAIが2025年1月末に発表した「Sora 2」との比較だ。
見た目の特徴として、Veo 3.1は映画的で洗練された仕上がりになる傾向がある。一方、Sora 2はハンドヘルドカメラで撮ったような、より自然な雰囲気の動画を得意とする。初期テストでは、Veo 3.1は「強力でパフォーマンスに優れたモデル」と評価されながらも、デフォルトではSora 2より「やや人工的」だという指摘もある。
実際に使った人たちの反応は、賛否が分かれている。
Otherside AIとHyperwriteの創業者であるMatt Shumer氏は、Veo 3.1はSora 2より「明らかに劣っている」上に「かなり高価」だと述べた。ただし、参照画像のサポートやシーン延長といったツール機能については評価している。
3DデジタルアーティストでAIコンテンツクリエイターのTravis Davids氏は、音質の改善を評価しつつも、カスタム音声に対応していないこと、実際には8秒までしか一度に生成できないことなどを懸念として挙げた。カメラアングルが変わったときにキャラクターの見た目を一貫させるには慎重にプロンプトを書く必要があり、Sora 2ではこの点がより自動的に処理されるという。AIニュースレターを書いている@kimmonismus氏は「Veo 3.1は素晴らしい」と評価しながらも、最終的にはOpenAIの最新モデルの方が全体的に好ましいと結論づけた。
価格面では、Veo 3.1は標準モデルで1秒あたり0.40ドル、高速モデルで0.15ドル。Shumer氏の発言から、Veo 3.1の方がSora 2より高いことが分かる。
これらの初期評価から見えてくるのは、Veo 3.1が価値あるツール機能を提供している一方で、ユーザーの期待値が上がっているという現実だ。品質と使いやすさの両面で競争が激しくなっており、完璧なツールはまだ存在しない。では、実際に使うとなったら何を知っておくべきだろうか。
使うなら知っておくべきこと

Veo 3.1を実際に使うには、3つの方法がある。
1つ目は「Flow」で、GoogleのAI支援映像制作用ウェブアプリケーションだ。画面上の操作で動画を作れるため、プログラミングの知識がなくても使える。2つ目は「Gemini API」で、開発者が自分のアプリケーションにVeo 3.1の機能を組み込むために使う。API(Application Programming Interface)とは、異なるソフトウェア同士をつなぐ仕組みのことだ。3つ目は「Vertex AI」で、企業向けのプラットフォームとして、シーン延長などの主要機能が間もなくサポートされる予定だ。
現在、Veo 3.1はプレビュー版として提供されており、Gemini APIの有料プランでのみ利用できる。
安全性への配慮も行われている。Veo 3.1で生成された動画には、Googleの「SynthID」という技術で透かしが入る。これは目には見えないが、その動画がAIで作られたものだと識別できる仕組みだ。生成されたコンテンツは一時的に保存されるが、ダウンロードしない限り2日後に自動で削除される。
実績の面では、Flowが5ヶ月前にローンチされてから、さまざまなVeoモデル全体で2億7,500万本以上の動画が生成されたとGoogleは発表している。この数字は、個人だけでなく、開発者や企業が実際に試している現状を示している。
Google LabsのプロダクトマネジメントディレクターであるThomas Iljic氏は、Veo 3.1のリリースによって、人間の映画製作者が計画し撮影する方法に近い機能がもたらされると述べている。シーン構成、ショット間の連続性、音声との協調といった要素が部分的にでも自動化されれば、制作の時間やコストが変わる可能性はあるだろう。ただし、完成されたツールではなく、まだ発展途上にあるということだ。
まとめ

いかがだったでしょうか?
AI動画生成ツールは、もはや遠い未来の話ではなく、今すぐ使える選択肢になっている。Veo 3.1とSora 2、それぞれに得意な部分と課題があり、どちらを選ぶかは作りたい動画の雰囲気や予算によって変わる。完璧なツールはまだ存在しないが、選択肢が増えたことで、自分の目的に合った道具を選べるようになった。大切なのは、ツールの性能だけに目を向けるのではなく、「何を伝えたいのか」という本質を見失わないことだ。
参考:Google releases new AI video model Veo 3.1 in Flow and API: what it means for enterprises
ARCHETYP Staffingではクリエイターを募集しています!
私たちはお客様の課題を解決するweb制作会社です。現在webサイト制作以外にも、動画編集者や生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
また、アーキタイプではスタッフ1人1人が「AI脳を持ったクリエイター集団」としてこれからもクライアントへのサービス向上を図り、事業会社の生成AI利活用の支援及び、業界全体の生成AIリテラシー向上に貢献していきます。
生成AIの活用方法がわからない、セミナーを開催してほしい、業務を効率化させたいなどご相談ベースからお気軽にお問い合わせください!
ボタンから募集中の求人一覧ページに移動できます。