
従来のロボットは人間が事前にプログラムした動作しかできませんでした。しかし、Allen Institute for AI(Ai2)が発表したMolmoAct 7Bは、ロボットが自ら周囲の空間を理解し、最適な行動を判断できる技術です。この新技術がロボット分野に与える影響に注目が集まっています。
ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
ボタンから募集中の求人一覧ページに移動できます。
従来技術との根本的な違い―「3次元思考」するロボットの誕生

これまでのロボット技術では、人間が一つひとつの動作を詳細にプログラムする必要がありました。現在主流となっているVLA(ビジョン・言語・行動)モデルは、カメラで撮影した画像と言語指示を組み合わせてロボットに行動を指示します。しかし、Ai2によると、VLAモデルには重要な限界があります。「空間で思考や推論を行わない」のです。
Ai2が開発したMolmoActは、この問題を解決しました。同社は、MolmoActを「Action Reasoning Model(行動推論モデル)」と分類しており、基盤モデルが物理的な3次元空間内での行動について推論するシステムです。従来のVLAモデルが「3次元空間での推論能力を持たない」のに対し、MolmoActは空間を理解して行動できます。
MolmoActの核心技術は「空間的に基盤化された知覚トークン」にあります。従来のVLAモデルがテキスト入力として処理していたのに対し、MolmoActでは、ベクトル量子化変分オートエンコーダーという仕組みを使って、動画などの視覚情報を特別なトークンに変換します。このトークンには物体の位置、距離、幾何学的構造といった3次元の空間情報が含まれています。
動作プロセスは3段階で進行します。まず、MolmoActはこれらのトークンを使って物体間の距離を推定します。次に、「画像空間ウェイポイント」と呼ばれる経路上の通過点を予測します。最後に「腕を数インチ下げる」「前方に伸ばす」といった具体的な動作指示を出力します。注目すべきは、この技術の汎用性です。研究者らによると、機械的なロボットアームから人型のヒューマノイドロボットまで、異なる身体構造を持つロボットに対して「最小限の微調整のみ」で適用できることが確認されています。
このような柔軟性が、実際の性能面でどのような結果をもたらしているのでしょうか。
従来技術との根本的な違い―「3次元思考」するロボットの誕生

Ai2が実施したベンチマークテストにおいて、MolmoAct 7Bは72.1%のタスク成功率を記録しました。この数値は、Google、Microsoft、Nvidiaが開発した既存モデルを上回る結果です。
ただし、専門家の評価は慎重です。オレゴン州立大学工学部のアラン・ファーン教授は「真の3次元シーン理解に焦点を当てたことは、正しい方向への注目すべき転換を示している」と評価する一方で、「これらのベンチマークは依然として現実世界の複雑さを捉えるには不十分で、比較的制御された玩具的な性質にとどまっている」と指摘しています。つまり、実用化にはまだ課題が残されているということです。
応用分野について、Ai2は特に家庭環境での活用に注目しています。同社によると、「家庭環境では物事が不規則で常に変化しているため、ロボティクスにとって最大の挑戦の場」となっており、家具の配置変更や日用品の移動など、予測困難な環境変化に対応できるMolmoActの能力が重要になります。
一方で、Physical AI分野全体では激しい競争が展開されています。Google Researchは「SayCan」というシステムでLLMを活用したタスク推論技術を開発し、MetaとNew York Universityは「OK-Robot」で視覚言語モデルを動作計画に活用しています。NvidiaはPhysical AIを「次の大きなトレンド」と位置づけ、「Cosmos-Transfer1」を含む複数のモデルをリリースしています。
こうした競争環境の中で、MolmoActが選択したのは完全なオープンソース戦略です。Ai2はモデル本体にApache 2.0ライセンス、訓練データセットにはCC BY-4.0ライセンスを適用し、研究コミュニティに広く公開しました。スタートアップGather AIの共同創設者ダニエル・マトゥラナ氏は「これらのモデルの開発と訓練は費用がかかるため、他の学術研究室や専門的な愛好家が構築し、微調整するための強固な基盤となります」と評価しています。
ファーン教授は現在の状況について「大規模物理知能モデルはまだ初期段階にあり、急速な進歩にはるかに適している」と述べており、技術の発展余地は十分にあると見ています。オープンソース化により開発コストが下がることで、より多くの研究者や企業が参入し、技術進歩のスピードが上がることが期待されます。
まとめ

いかがだったでしょうか?
Ai2のMolmoAct 7Bは、ロボットが人間のように空間を理解し判断する技術の新たな一歩を示しました。72.1%という成功率は現時点での技術水準を表しており、専門家の指摘通り実用化には課題が残されています。しかし、3次元での空間理解というアプローチは、従来の平面的な認識技術から大きく前進した方向性といえるでしょう。オープンソース化により研究開発が広がることで、今後どのような応用が生まれるのか注目していく価値があります。
ARCHETYP Staffingではクリエイターを募集しています!
私たちはお客様の課題を解決するweb制作会社です。現在webサイト制作以外にも、動画編集者や生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
また、アーキタイプではスタッフ1人1人が「AI脳を持ったクリエイター集団」としてこれからもクライアントへのサービス向上を図り、事業会社の生成AI利活用の支援及び、業界全体の生成AIリテラシー向上に貢献していきます。
生成AIの活用方法がわからない、セミナーを開催してほしい、業務を効率化させたいなどご相談ベースからお気軽にお問い合わせください!
ボタンから募集中の求人一覧ページに移動できます。