パナソニックHD「UniEgoMotion」で動作の推定・予測を実現

一人称視点の映像だけから、人の動きを読み取り、さらには未来の動作まで予測できる――そんな技術が現実のものとなりました。パナソニックHDとスタンフォード大学が共同開発した「UniEgoMotion」は、スマートグラスやウェアラブルカメラの映像から、高精度な3D動作の再構成・予測・生成を可能にします。

ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!

ボタンから募集中の求人一覧ページに移動できます。

従来の限界を突破した新技術

参照:パナソニックHD プレスリリース

パナソニック ホールディングス株式会社とパナソニックR&Dカンパニー オブ アメリカ(PRDCA)は、スタンフォード大学との共同研究により、「UniEgoMotion」と呼ばれる新しいAI技術を開発しました。一人称視点の映像と頭部の動きだけで人の動作を正確に把握し、これから起こる動きまで予測できる技術です。その成果は、AI・Computer VisionのトップカンファレンスであるIEEE/CVF International Conference on Computer Vision(ICCV)2025での発表が決定しています。
一人称視点からの動作推定は、技術的に非常に困難な課題でした。頭に装着したカメラで撮影すると、自分の体はほとんど映らず、映るのは手の一部や足元のわずかな範囲だけです。さらに頭が動けばカメラも一緒に揺れるため映像は常に不安定になり、人間の目には自然に見える光景でも、AIにとっては動きを読み取るための情報が圧倒的に不足していました。これまでの技術は、この情報不足を補うために外部からの追加情報に頼っていました。部屋の外に設置した固定カメラで全身を撮影する三人称視点の映像や、レーザースキャナーで周囲の環境を記録した3D点群データ、3Dメッシュといったシーン情報を必要としていたのです。確かにこれらを使えば精度は向上しますが、特別な機材や設置作業が必要になり、実用化には大きな制約となっていました。
UniEgoMotionはこうした制約を取り払いました。3Dシーン情報に依存せず、ウェアラブルデバイスから得られる一人称視点の映像と頭部の軌道情報だけで動作を再構成・予測・生成できます。技術的な特徴として、頭部を基準点とした動作表現を採用しました。頭に装着するデバイスで計測するため、頭部中心の表現方法はウェアラブルデバイスとの親和性が高く合理的です。また、画像特徴の抽出に優れたDINOv2をベースにした画像エンコーダを活用することで、限られた視野からでも必要な情報を的確に抽出できるようにしました。評価実験では、ポーズの再現精度や動作の自然さを示す評価指標において従来手法を上回る精度を達成しています。
ここまで聞くと、動作の推定だけでも十分すごい技術に思えるかもしれません。しかしUniEgoMotionの真価は、ここからさらに広がっていきます。

1つのAIモデルで3つの機能を実現

UniEgoMotionが採用しているのは、統合型モーション拡散モデルと呼ばれる仕組みです。拡散モデルとは、ノイズから徐々にクリアな情報を作り出していくAI技術の一種で、近年の画像生成技術などで広く使われています。UniEgoMotionはこの技術を動作の推定・予測・生成に応用しました。
鍵となるのは学習時の工夫です。AIに学習させる際、映像や頭部の軌道データの一部を意図的に隠す「マスキング」という手法を採用しています。情報の一部が欠けた状態から正しい動作を導き出す訓練を繰り返すことで、AIは様々な状況に対応できる柔軟性を獲得します。この手法により、「現在の動作の推定」「未来の動作の予測」「新しい動作の生成」という三つの機能を、単一のAIモデルで実現することに成功しました。
まず「動作の再構成」についてです。一人称視点の映像と頭部の動きから、今この瞬間に体がどんな姿勢をとっているかを3Dで復元します。カメラに映っていない部分も含めて全身の動きを推定できるのです。評価実験では既存手法との比較を行い、ポーズの再現精度や動作の自然さを測る複数の評価指標で従来手法を上回る結果が示されています。
次に「動作の予測」。現在までの映像データから、これから先の動作を予測する機能です。そして「動作の生成」では、既存の映像にとらわれず自然な動作パターンを新たに作り出すことができます。
この技術の応用範囲は多岐にわたります。現場作業の可視化や効率化への活用に加えて、リアルタイムでの動作解析、現場作業支援、リハビリテーションやヘルスケア分野での動作モニタリングなど、幅広い事業領域での活用が期待されています。
ウェアラブルデバイスだけで完結するという特性は、実用化において大きなアドバンテージとなるでしょう。

まとめ

いかがだったでしょうか?
UniEgoMotionは、一人称視点の映像と頭部の軌道だけで動作の推定・予測・生成を統合的に実現する、世界初の統合型モーション拡散モデルです。特別な機材や外部カメラを必要とせず、ウェアラブルデバイスだけで完結する点が実用化への道を開きます。パナソニックHDは、AIの社会実装を進め、現場でのお役立ちに貢献するAI技術の研究開発を今後も推進していくとしています。

参考:パナソニックHD、一人称視点映像からの動作推定・生成を可能にする「UniEgoMotion」を開発

ARCHETYP Staffingではクリエイターを募集しています

私たちはお客様の課題を解決するweb制作会社です。現在webサイト制作以外にも、動画編集者や生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
また、アーキタイプではスタッフ1人1人が「AI脳を持ったクリエイター集団」としてこれからもクライアントへのサービス向上を図り、事業会社の生成AI利活用の支援及び、業界全体の生成AIリテラシー向上に貢献していきます。
生成AIの活用方法がわからない、セミナーを開催してほしい、業務を効率化させたいなどご相談ベースからお気軽にお問い合わせください!

ボタンから募集中の求人一覧ページに移動できます。

クリエイター登録して、案件情報を受け取る!

クリエイター登録