AI技術の進歩により動画制作の自動化が進む中、清華大学とZhipu AIの研究チームが開発したCogVideoXが注目を集めています。このオープンソースAIは、動画制作の方法に大きな変化をもたらす可能性を秘めています。
本記事では、CogVideoXの特徴と影響、AI動画生成の可能性と課題、実際の生成動画について紹介していきますので、ぜひ最後までご覧ください!
ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
ボタンから募集中の求人一覧ページに移動できます。
CogVideoXの特徴と影響
CogVideoXは、テキストから最長6秒の動画を生成できる人工知能モデルです。720×480ピクセルの解像度で1秒あたり8フレームの動画を作成する能力を持ち、50億のパラメータを使用しています。研究者らの発表によると、この性能は既存の商用システムには及ばないものの、オープンソースモデルとしては高い水準にあるとされています。技術面では、3D変分オートエンコーダー(VAE)とエキスパートトランスフォーマーという2つの重要な要素が実装されています。3D VAEは動画の効率的な圧縮を可能にし、エキスパートトランスフォーマーはテキストと動画の整合性を向上させる役割を果たしています。これにより、ユーザーのテキスト指示をより正確に反映した動画生成が実現しています。
CogVideoXのオープンソース化は、AI動画生成技術の普及に大きな影響を与える可能性があります。これまで大手企業や研究機関に限られていた高度な動画生成技術が、個人開発者や小規模企業にも利用可能になることで、様々な分野での応用が期待されます。
今まで動画生成AIがオープンソースで公開されていることはあまりなかったので、CogVideoXの取り組みには驚きました!今はクローズドの企業に劣っているかもしれませんが、オープンソースで複数企業のフィードバックを受けることにより、今後はLumaAIやSora、Klingに勝る可能性も十分にあります!
AI動画生成の可能性と課題
CogVideoXの登場により、AI動画生成技術の応用範囲が広がる可能性があります。広告業界では個別ターゲットに合わせた動的コンテンツ作成が、エンターテインメント分野では映画やアニメーションの制作プロセスの変革が期待されます。教育分野では複雑な概念を視覚化した教材作成が容易になり、科学研究でもデータ可視化や仮説検証に活用できるかもしれません。
一方で、この技術の普及には課題も存在します。ディープフェイクなどの悪用による誤情報拡散や、真実と虚構の境界が曖昧になる危険性が指摘されています。これらに対応するため、倫理的ガイドラインや法的規制の整備が必要になると考えられます。また、AI生成コンテンツの透明性確保や、著作権問題への対応も重要な課題です。AI生成動画の著作権帰属や、学習データとして使用される既存動画の権利処理など、新たな法的枠組みの構築が求められる可能性があります。
CogVideoXをはじめとするAI動画生成技術は大きな可能性を秘めていますが、その活用には慎重な姿勢が求められます。技術の進歩と社会の受容のバランスを取りながら、有益な形で活用していくことが今後の課題となるでしょう!
実際の生成動画
ここからは、実際に筆者が生成した動画をいくつか紹介していきます。
CogVideoXの利用はこちら
オープンソースなのでhugging faceから利用可能です。以下の画像の左上のように、テキストを入力するだけで画像が生成されます。
今回のお題は「スーツを着た猫が猫王国のランウェイを歩く」です。入力したプロンプトは以下の通りです:
A sophisticated cat dressed in a tailored, sleek suit confidently struts down a grand runway in the Cat Kingdom. The scene is lavish, with royal banners, ornate chandeliers, and elegant cat spectators dressed in regal attire. The runway is lined with luxurious fabrics and gold accents, capturing the essence of feline royalty. The cat exudes charisma and grace as it showcases its attire, embodying the pride and majesty of the kingdom.
こちらから実際に生成された動画は以下になります:
動きはぎこちないですが、雰囲気は伝わるかと思います!猫王国という抽象的なプロンプトにも対応していたので、テキスト理解能力は高そうです。しかし、やはりDream MachineやGen-3と比較すると、クオリティは劣ると感じました。
もう1つ、別の動画も試してみたいと思います。お題は「超スピードで車を走らせ、そのまま空を飛んで宇宙まで飛んでいく」です。入力したプロンプトは以下:
An ultra-fast car speeding on a highway, its sleek design glowing with intense energy. As it reaches maximum speed, the car lifts off the ground, transforming into a futuristic spacecraft with blazing thrusters. The vehicle soars through the sky, breaking through the clouds, and continues its ascent into outer space, leaving a vibrant trail of light. The background shifts from a bright blue sky to the vast, star-filled expanse of the universe, with planets and distant galaxies visible in the distance.
こちらのプロンプトから生成された動画は以下になります:
やはりプロンプトの理解能力は高いように感じますが、周りの背景や車がすごくチープに感じました(笑)一昔前のゲームのような懐かしさを感じる動画となりました!
動画を2つ作成してみましたが、クオリティはLumaAIやGen-3には劣っていると感じました。しかし、オープンソースなので、改良のスピード感は他の動画生成AIを提供している会社より早いことが予測されます。今後のクオリティの変化には期待していきたいと思います!
まとめ
いかがだったでしょうか?
CogVideoXの登場は、AI動画生成技術の新たな可能性を示しています。オープンソース化により、この技術が幅広い層に利用可能となる一方で、倫理的な課題や法的問題にも直面しています。今後、技術の健全な発展と責任ある利用のバランスをどのように取るかが、重要な課題となるでしょう。
ARCHETYP Staffingではクリエイターを募集しています!
私たちはお客様の課題を解決するweb制作会社です。現在webサイト制作以外にも、動画編集者や生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
また、アーキタイプではスタッフ1人1人が「AI脳を持ったクリエイター集団」としてこれからもクライアントへのサービス向上を図り、事業会社の生成AI利活用の支援及び、業界全体の生成AIリテラシー向上に貢献していきます。
生成AIの活用方法がわからない、セミナーを開催してほしい、業務を効率化させたいなどご相談ベースからお気軽にお問い合わせください!
ボタンから募集中の求人一覧ページに移動できます。