
AI動画生成の世界に、新しいプレーヤーが現れました。世界中で使われるコンピュータビジョン技術の開発者が立ち上げたCraftStoryです。同社が発表したシステムは、最大5分間の人物動画を生成できます。OpenAIやGoogleの製品が数十秒に留まる中、この大幅な時間延長が持つ意味とは何でしょうか。
ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
ボタンから募集中の求人一覧ページに移動できます。
「10秒」の壁を破った技術

AI動画生成ツールには、ある共通の制約があります。長さです。OpenAIのSora 2は最大25秒、他の多くのツールは10秒程度しか作れません。YouTubeのチュートリアル動画や製品説明動画を思い浮かべてください。これらは数分間にわたって情報を伝えますが、10秒では何も語り終えることができません。CraftStoryが11月に発表したModel 2.0は、最大5分間の動画を生成します。この差は使い道が根本的に変わるのです。
従来のAI動画生成モデルは、時間軸を含む3次元のデータを処理する拡散アルゴリズムを使っています。動画を長くしようとすると処理するデータ量が比例して増え、より大きなネットワークと計算能力が必要になります。8秒の動画を作り、その後ろに別の8秒を継ぎ足す方法もありますが、継ぎ目が目立ったり、前半のミスが後半に引き継がれる問題が生じます。
CraftStoryは別のアプローチを採りました。複数の小さな拡散アルゴリズムを、動画全体の長さにわたって同時に動かす並列処理です。同社の共同創業者であるビクター・エルキモフ氏は説明します。「動画の後半部分が前半部分にも影響を与えることができます。一つずつ処理すると、ミスが積み重なっていくからです」。5分間の動画を最初から最後まで一度に処理することで、一貫性を保つことができます。
もう一つ重要なのが、学習データの質です。多くのAI動画モデルはインターネット上の動画を大量に集めて学習しますが、YouTubeの標準的な動画は毎秒30フレームで撮影されており、手や指のような速く動く部分はブレて映ります。CraftStoryは独自にスタジオを雇い、高フレームレートのカメラで俳優を撮影しました。エルキモフ氏は語ります。「高品質の動画を作成するために大量のデータや大規模な予算は必要ありません。高品質のデータが必要なだけです」
使い方はシンプルです。ユーザーは静止画像を一枚アップロードし、次に人物が動いている「ドライビング動画」をアップロードします。AIはお手本の動きを静止画像の人物に適用し、新しい動画を作ります。生成にかかる時間は約15分で、30秒分の動画が低解像度で出力されます。音声に合わせて口の動きを同期させるリップシンクや、身振りを調整する機能も備わっています。
技術的な優位性は明らかですが、わずか2億円の資金で、OpenAIやGoogleといった巨大企業とどう戦うのでしょうか。
資金2億円でビッグテックに挑む戦略

CraftStoryの資金調達額は200万ドル、日本円で約2億円です。ほぼ全額を一人の投資家、アンドリュー・フィレフ氏から調達しました。フィレフ氏は2021年にプロジェクト管理ソフトウェア会社Wrikeを22億5000万ドルでCitrixに売却し、現在はAIコーディング会社Zencoderを運営しています。
OpenAIは最新の資金調達ラウンドだけで60億ドル以上を集めています。2億円という額は、AI動画生成の分野では極めて小さいものです。しかしエルキモフ氏は、この資金の差を問題視していません。「計算能力が成功への道だという考えには必ずしも賛同しません。PowerPointの提案書で10億ドルを調達しても、最終的には創業者も投資家も誰も幸せになりません」
CraftStoryの戦略は明確です。大手が汎用の動画生成モデルを構築する軍拡競争に参加している一方で、CraftStoryは「長尺で、魅力的な、人物中心の動画」という特定のフォーマットに深く入り込んでいます。フィレフ氏はこう表現します。「大手がエンジンを構築しているなら、CraftStoryはその上にプロダクションスタジオと組立ラインを構築しています」
この戦略を支えるのが、エルキモフ氏の経歴です。彼はOpenCVの初期の貢献者です。OpenCVは画像や動画を処理するためのオープンソースライブラリで、GitHub上では84,000以上のスターを獲得し、この分野の事実上の標準となっています。2000年代半ば、Intelが支援を減らしたとき、エルキモフ氏は仲間とともにItseezという会社を立ち上げ、OpenCVを維持し発展させました。Itseezはその後、自動車の安全システムに事業を転換し、2016年にIntelに買収されました。
フィレフ氏は言います。「ジェネレーティブAI動画は、単に生成の部分だけではありません。動き、顔のダイナミクス、時間的な一貫性、そして人間が実際にどのように動くかを理解することなのです」。エルキモフ氏の専門であるコンピュータビジョンの知見が、CraftStoryの技術的アプローチの独自性につながっています。
では、この技術と戦略で、CraftStoryは具体的にどのような市場を狙っているのでしょうか。
企業向け動画市場を狙う理由

AI動画生成をめぐる話題の多くは、個人のクリエイターや消費者向けのツールに集中しています。しかしCraftStoryは、明確に企業市場を見据えています。エルキモフ氏は言います。「私たちは確実に消費者よりもB2Bを考えています。企業、特にソフトウェア企業が、優れたトレーニング動画、製品動画、ローンチ動画を作成できるようにすることを考えています」
理由は明確です。企業のトレーニング動画、製品チュートリアル、顧客向けの説明動画は、しばしば数分間にわたります。10秒のAI動画クリップでは、エンタープライズソフトウェアの使い方を効果的に示すことも、複雑な製品機能を説明することもできません。フィレフ氏も言います。「この市場における巨大なギャップは、より長いシーケンスにわたって一貫した動画を生成できるモデルの不足です」フィレフ氏の試算によれば、中小企業のオーナーは、以前なら2万ドルと2ヶ月かかった動画コンテンツを、数分で作成できるようになります。CraftStoryはまた、企業向けに動画コンテンツを制作するクリエイティブエージェンシーにもアプローチしており、エージェンシーは俳優を録画し、その映像を完成したAI動画に変換できます。
今後の展開も見えています。次の大きな開発は、テキストから動画を生成するモデルです。チームはまた、高級広告で一般的な「ウォーク・アンド・トーク」フォーマットなど、動くカメラのシナリオへの対応も開発中です。
市場には競合がいます。OpenAIのSora 2、GoogleのVeoモデル、Runway、Pika、Stability AIが動画生成ツールを提供しています。エルキモフ氏は競争圧力を認めつつ、CraftStoryが人物中心の動画という明確なニッチを提供していることを強調します。
Model 2.0は現在、app.craftstory.com/model-2.0で利用できます。資金が少ないスタートアップが、資本力のある既存企業に対して意味のある市場シェアを獲得できるかどうかは不確かです。しかしエルキモフ氏は確信を持っています。「AI生成動画は、間もなく企業がストーリーを伝える主要な方法になるでしょう」。その予測が現実になる日は、思ったより早く訪れるかもしれません。
まとめ

いかがだったでしょうか?
CraftStoryは、わずか2億円の資金で、AI動画生成市場に独自の立ち位置を築こうとしています。最大5分という長さは、企業が実際に使える動画を作れるかどうかの分かれ目です。OpenCVの開発者としての経験と、人物動画に特化した技術戦略が、どこまで市場に受け入れられるのか。今後の展開が注目されます。
参考記事:How AI-powered cameras are redefining business intelligence
ARCHETYP Staffingではクリエイターを募集しています!
私たちはお客様の課題を解決するweb制作会社です。現在webサイト制作以外にも、動画編集者や生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
また、アーキタイプではスタッフ1人1人が「AI脳を持ったクリエイター集団」としてこれからもクライアントへのサービス向上を図り、事業会社の生成AI利活用の支援及び、業界全体の生成AIリテラシー向上に貢献していきます。
生成AIの活用方法がわからない、セミナーを開催してほしい、業務を効率化させたいなどご相談ベースからお気軽にお問い合わせください!
ボタンから募集中の求人一覧ページに移動できます。



