Gemini Robotics 1.5登場!自ら考え行動するロボットの実現

Googleが発表した新しいロボット向けAIモデルが、ロボットの常識を変えようとしています。指示で動くだけだったロボットが、自ら考え、計画を立て、複雑な作業を完遂する。その実現に向けた2つのモデル「Gemini Robotics 1.5」と「Gemini Robotics-ER 1.5」が登場しました。

ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!

ボタンから募集中の求人一覧ページに移動できます。

2つの頭脳が連携する新しい仕組み

今回発表されたのは、役割の異なる2つのモデルです。それぞれが得意な役割を担当し、連携することで、ロボットが複雑なタスクを最後まで完遂できる仕組みを実現しています。
Gemini Robotics-ER 1.5は、ロボット全体の頭脳として機能する最も高性能な視覚・言語モデル(VLM)です。カメラで捉えた映像や人間からの指示を理解し、物理世界について推論して、詳細な多段階の計画を作成します。空間理解のベンチマーク全体で最先端のパフォーマンスを達成しており、Point-Bench、ERQA、BLINK、CV-Benchをはじめとする15の学術的ベンチマークで評価されています。このモデルの強みは、必要に応じてデジタルツールを呼び出せる点です。Google検索で情報を集めたり、サードパーティのユーザー定義関数を使用したりできます。タスクの成功率や進捗を予測し、人間と自然な言葉で対話する能力も持っています。
導き出した計画は、ステップごとに自然言語の指示に変換され、もう1つのモデルであるGemini Robotics 1.5へと伝えられます。こちらは最も高性能な視覚・言語・行動モデル(VLA)で、視覚情報と指示を、ロボットがタスクを実行するための具体的な動作命令に変換します。「ペットボトルを掴んで、プラスチックごみのゴミ箱に入れる」という指示を受ければ、アームをどう動かし、どの程度の力で掴むかといった細かな動作を実行するのです。
この2つのモデルは、中核となるGeminiモデルファミリーを基盤としながら、それぞれの役割に特化するよう異なるデータセットでファインチューニング(微調整)されています。「考える専門家」と「実行する専門家」として機能し、連携によってロボットはより長いタスクや多様な環境に対応できます。
では、この連携が実際にどのような能力を生み出すのでしょうか。

行動する前に「思考」するロボット

参照:Google DeepMind

私たちの身の回りには、状況を読み解き、いくつもの手順を踏んで初めて完了できるタスクが溢れています。例えば、「この地域のルールに合わせて、目の前のゴミを分別して」とロボットに頼んだとしましょう。ロボットはまずインターネットで地域の分別ガイドラインを検索し、目の前のゴミが何であるかを認識し、ルールに基づいて分別方法を判断し、最後に正しいゴミ箱へ捨てるという一連の行動をすべて実行する必要があります。
従来の視覚・言語・行動モデルは、与えられた指示や計画を、そのままロボットの動きに直接的に変換するだけでした。それに対してGemini Robotics 1.5は、行動を起こす前に自ら思考することができます。複数の手順や深い意味の理解が求められるタスクに対し、まず自然言語で内的な推論と分析を組み立て、その上で行動に移します。しかも、その思考プロセスを人間に言葉で説明できるため、ロボットの意思決定の透明性が高まります。「洗濯物を色分けして」というタスクでは、ロボットは異なるレベルで思考します。まず、「色分け」とは白い服は白いカゴへ、それ以外の色の服は黒いカゴへ入れることだと、タスク全体の目的を理解します。次に、「赤いセーターを拾い上げ、黒いカゴに入れる」といった具体的なステップを考え、さらには「セーターを掴みやすくするために、一度手前に引き寄せる」など、各ステップを実行するための細かな動作レベルまで分解して考えるのです。(上記動画)この多層的な思考プロセスにより、より長いタスクをロボットが確実に実行できる短い単位へと分解でき、未知のタスクや環境変化への対応力も高まります
もう1つの顕著な能力が、異なる機体を横断して学習できる点です。ロボットは形状、サイズ、センサー、関節の自由度などがすべて異なるため、スキルの移転は大きな課題でした。Gemini Robotics 1.5は、新しい機体ごとに特化させる必要なく、学習した動きを別のロボットに移転できます。実際、ALOHA 2ロボットにのみ提示されたタスクが、Apptronik社のヒューマノイドロボットApolloFrankaロボットでもそのまま機能することが観測されています。この進化は、ロボットが新しいスキルを習得するスピードを上げ、その知性と実用性を高めます。
こうした高度な能力を持つロボットが安全に活用されるには、どのような取り組みが必要なのでしょうか。

安全性への徹底した配慮とこれから

こうした高度な能力を持つロボットだからこそ、Googleは安全性の確保を最優先事項として捉えています。自ら思考し行動するロボットが人間中心の社会で責任ある形で活用される未来を見据え、専門組織であるResponsibility & Safety Council(RSC)やResponsible Development & Innovation(ReDI)チームがロボティクスチームと緊密に連携し、すべてのモデルがGoogleのAI原則を遵守するよう徹底しています。
Gemini Robotics 1.5は、行動を起こす前にまず安全性を自ら思考し、GoogleのGemini Safety Policiesに準拠し人間との敬意ある対話を保ち、必要に応じて衝突回避などの物理的な安全サブシステムを作動させます。安全性の評価には、ASIMOVベンチマークのアップグレード版が使用されています。これは、AIが状況の意味を正しく理解して安全に行動できるかを測定するデータセットで、より幅広い状況への対応やビデオ形式への対応などが含まれています。この最新版を用いた評価で、Gemini Robotics-ER 1.5は最先端のパフォーマンスを達成しました。
開発者への提供は段階的に進められており、Gemini Robotics-ER 1.5は9月26日よりGoogle AI Studioを通じて利用可能に、Gemini Robotics 1.5は現在一部のパートナー企業に提供開始されています。
Googleは、これを物理世界におけるAGI(汎用人工知能)の実現に向けた一歩と位置づけています。AGIとは、特定の作業だけでなく様々なタスクに対応できる人間のような知能を指します。単にコマンドに反応するだけでなく、自ら推論し、計画を立て、ツールを使いこなし、未知の状況にも対応する自律的なシステムへ。ロボットが知性と器用さを兼ね備え、物理世界の複雑さを乗り越え、私たちの生活においてより役立つ存在となるための基礎を築くのが、この2つのモデルの役割です。

まとめ

いかがだったでしょうか?
今回発表された2つのモデルは、ロボットが単なる作業マシンから、状況を理解して自律的に判断できる存在へと進化する可能性を示しています。まだ一部のパートナー企業への提供段階ですが、今後の展開次第では、私たちの働き方や生活における「ロボットとの関わり方」そのものが変わっていくかもしれません。自ら考え、行動するロボットが、どのような形で社会に溶け込んでいくのか。その答えは、これからの実証と開発の積み重ねの中で、少しずつ見えてくるでしょう。

ARCHETYP Staffingではクリエイターを募集しています

私たちはお客様の課題を解決するweb制作会社です。現在webサイト制作以外にも、動画編集者や生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
また、アーキタイプではスタッフ1人1人が「AI脳を持ったクリエイター集団」としてこれからもクライアントへのサービス向上を図り、事業会社の生成AI利活用の支援及び、業界全体の生成AIリテラシー向上に貢献していきます。
生成AIの活用方法がわからない、セミナーを開催してほしい、業務を効率化させたいなどご相談ベースからお気軽にお問い合わせください!

ボタンから募集中の求人一覧ページに移動できます。

クリエイター登録して、案件情報を受け取る!

クリエイター登録