静止画像と動画を組み合わせ、画像を動かすことをできる「Live Portrait」をご存知ですか?こちらを実際に試してみたところ高クオリティなアウトプットを生成することができました。
本記事では、Live Portraitの機能についての概要と技術的進展、クオリティについて紹介していきますので、ぜひ最後までご覧ください!
ARCHETYP Staffingでは、多様なプロフェッショナル人材を募集しています。
ここでしか見つからない魅力的な企業の求人も多数取り揃え、あなたのスキルと経験を最大限に活かせるポジションをご提供します。
また、正社員から、高収入かつ働き方の自由度が高いプロジェクトベースの仕事や、よりプロフェッショナルとして働く契約社員へのキャリアチェンジを考えている方も大歓迎です。
ご自身の今後のキャリアについて相談したい方も、ぜひお気軽にお問い合わせください。
私たちが、あなたのキャリアの可能性を広げるお手伝いをいたします。
ボタンから募集中の求人一覧ページに移動できます。
LivePortraitの概要と独自のアプローチ
静止画から動画を作り出す新しい技術、「ポートレートアニメーション」が注目を集めていますが、この分野で最近開発された「LivePortrait」は、1枚の写真を基にリアルな動きのある映像を生成する特徴的なシステムです。LivePortraitの特徴は、単一の画像から動く映像を作成し、表情や頭の動きを別の動画や音声、文字情報から取り込む点にあります。従来の技術と異なり、LivePortraitは「暗黙的キーポイント」という手法を採用しています。これは顔の特徴点を効率的に扱う方法で、処理速度と細かな制御のバランスを取ることができます。一般的な「拡散モデル」とは異なるこのアプローチにより、高速で効率的な処理を実現しました。開発過程では、約6900万枚の高品質画像でシステムを学習させ、静止画と動画を組み合わせた新しい学習方法を採用しており、さらにシステム構造を刷新し、より効果的な動きの変換と最適化手法を導入しています。
動画を見ていただくと分かる通り、元の画像がほとんど崩れることなく、静止画像の目や口を動かすことができていました。筆者は動画を見て、ハリーポッターに登場する「太った貴婦人」を思い浮かべました!(マニアックですみません)
技術的進展と将来の可能性
LivePortraitの開発チームは、「暗黙的キーポイント」が3DCGの「ブレンドシェイプ」(表情を作るための技術)のような役割を果たすことを発見しました。この発見を活かし、小規模な人工知能(ニューラルネットワーク)を用いて、処理負荷を抑えつつ細かな制御を可能にする新しい機能を追加しました。実験結果では、LivePortraitが他の最新技術と同等以上の性能を示しました。特に処理速度が注目されており、高性能なグラフィックカード(RTX 4090 GPU)を使用した場合、わずか12.8ミリ秒で映像を生成できることが報告されています。この技術は、エンターテインメント、教育、芸術、コミュニケーションなど、様々な分野での応用が期待されており、今後のデジタルコンテンツ制作や視覚的コミュニケーションの方法に大きな影響を与える可能性があります。
教育分野だと、例えば歴史の授業で登場する偉人の画像を動かしながら授業をすれば、淡々と授業を聞くより何倍も興味を惹き、理解が深まるように感じます。また芸術分野では、画家の自画像を集め、全員の顔を同時に動かす個展の開催なども考えられます。いずれにしても、静止画を動かす技術は今後様々な場面で応用が効きそうだと感じます!
実際に生成
ここまで解説してきましたが、使い方がわからない、難しそうと感じる方もいると思います。安心してください、生成の仕方はすごくシンプルなので、素材があれば誰でも作成することが可能です。
今回はreplica.comを使用して動く画像を生成していきます!こちらを使用すると一定数無料で使うことができるため、replica.comで動画を動かす方法をご説明していきます。(5回くらいまで無料生成できます)
まずログインすると、以下のようなInputと書かれた画面が出てくるので、「fae_image」に動かしたい静止画像を添付してください(元々入力されているリンクは消して大丈夫です)。
添付が完了したら、続いて「driving_video」という項目に参考元となる動画を添付してください。動かしたいイメージがあればお好きなものを添付でき、動画が思い浮かばなければテンプレ動画がすでに添付されているのでそのまま使うこともできます。自分で顔の動きを撮影するのも面白いと思います!
ここまでで入力すればほぼ完成ですが、オリジナリティを強めたい場合は以下のバラメーターを調整していただくとアウトプットのイメージを変えることもできます。
今回筆者は、一切バラメータをいじらずに生成しております。今回は画像を2種類、動かすイメージ2パターンの計4つ紹介していきます。ちなみに元となる静止画像は以下の2枚を使用していきます。
1.目と口を動かすパターン
まずはデフォルトの動画を使って、目と口を動かす画像を生成したいと思います。生成された画像がこちらです!
1枚目の画像の方が動きが自然でしたね!2枚目の画像は無理やり表情を動かしている感じが否めませんでした(笑)ですが、両方とも大幅に崩れることがなかったことは、Live Poraitのクオリティが高いことを証明しているようにも思えます。
2.多彩な表情を表現するパターン
続いてはウインクしたり、首を動かしたり、目を瞑ったりと、表情をコロコロと変わった際にどのような画像が生成されるかを検証してみました。
生成してみたところ、やはり2枚目の表情は何故かぎこちなく感じます(笑)1枚目は先程と同様に自然なウインクや首の動かし方だったので、元の画像の表情、画角、顔の大きさによって表情に差が出るものと推測されます。つまり、Live Portraitを使用する際には、ある程度表情にマッチする画像選びも大事になってくると言えます!
まとめ
いかがだったでしょうか?
今回は静止画像と動画を組み合わせ、画像を動かすことをできる「Live Portrait」について紹介してきましたが、このクオリティであれば十分に活用を検討できると思います。学校や芸術分野以外にも、電子広告であったり、プレゼンテーションの際のアイスブレイクで活用するなど、ビジネスでの使用もできると感じました。一定数無料で提供しているサービス媒体もあるようですので、気になった方はぜひ使用してみてください!
replica.com: https://replicate.com/fofr/live-portrait
cord: https://github.com/KwaiVGI/LivePortrait
ARCHETYP Staffingでは、様々な領域のプロフェッショナル人材を幅広く募集しています!
– 経営コンサルタント、事業コンサルタント
– テクノロジー活用に積極的な教育関係者(リスキリング指導者)
– UI/UXデザイナー、フロントエンド・バックエンドエンジニア、プロジェクトマネージャー
– マーケティング・PRプロフェッショナル、コンテンツクリエイター、ビジネスプロデューサー – AI・テクノロジー分野でのキャリアを模索するすべてのプロフェッショナル
– 正社員から登録型派遣社員へのキャリアチェンジを考えている方
自らの専門性を武器に、AIを活用しながら活躍したい方は、ぜひご登録ください。
ジョブ型の働き方を支援し、プロフェッショナルの活躍の場を広げるARCHETYP Staffing。
AI時代のキャリアを切り拓く仲間を心よりお待ちしています。
ボタンから募集中の求人一覧ページに移動できます。