物理世界を理解するAI技術:NVIDIA Cosmos Reasonの実力

AIが人間のような常識を身につけるのは単なる技術の進歩ではありません。NVIDIAが発表したCosmos Reasonは、「鳥は後ろ向きに飛べない」「氷は溶けて水になる」といった当たり前のことを理解し、物理世界で起こりうる結果を予測できるAIモデルです。人間が当然と思う常識を、どのようにしてAIに教え込むのでしょうか。

ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!

ボタンから募集中の求人一覧ページに移動できます。

AIに「当たり前」を教える挑戦

私たちにとって当たり前のことが、AIにとっては全く理解できない謎だらけの世界であることをご存知でしょうか。鳥が後ろ向きに飛べないこと、鏡が光を反射すること、氷が溶けて水になること——これらは人間なら誰でも知っている物理法則ですが、AIモデルには一から教える必要があるのです。
NVIDIA Cosmos Reasonは、まさにこの課題に立ち向かうために開発されました。ロボット工学、自動運転車、スマートスペースなどの物理AI開発を目的とした推論視覚言語モデル(VLM)として設計されており、現在Hugging Faceの物理推論リーダーボードで首位を獲得しています。視覚言語モデルとは、画像や動画を見て、それについて人間の言葉で説明や判断ができるAIシステのことです。
「物理世界に関する基本的な知識がなければ、ロボットは転倒したり誤って何かを壊したりして、周囲の人々や環境に危険をもたらす可能性があります」——研究科学者の崔印氏のこの言葉が、問題の深刻さを物語っています。
想像してみてください。ロボットは生まれつき左右や上下の概念を持っていません。私たちが幼い頃に自然と身につけた空間認識能力も、AIには強化学習という手法で段階的に教え込む必要があります。強化学習とは、正解と不正解を繰り返し学習させることで、AIが最適な判断を下せるよう訓練する方法です。特に車両衝突試験で使用されるAI搭載ロボットでは、自分の物理的な形や動きが周囲の環境とどう相互作用するかを正確に理解していなければなりません。人間にとって当たり前の常識をAIが理解できる形に変換する——この作業こそが、次世代AIの核心なのです

推論AIが切り開く新しい可能性

では、こうした常識を身につけたAIは、実際にどのような能力を発揮するのでしょうか。Cosmos Reasonの能力を見ると、その答えが鮮明に浮かび上がってきます。
このモデルの最大の特徴は、時間的な変化を理解し、未来の結果を予測できる点にあります。しかし、その背景には人間による綿密なデータ作成プロセスが存在しています。
NVIDIAのデータファクトリーチームは、生体工学、ビジネス、言語学など多様な専門家で構成されています。彼らは現実世界のあらゆる動画を素材として活用し、そこから質問と回答のペアを作成しています。たとえば、鶏が鶏小屋を歩く映像からは動物の行動に関する問題を、田舎道を走る車の映像からは交通状況についての問題を作成します。また、人がスパゲッティを食べている映像があれば「この人はどちらの手を使ってスパゲッティを切っていますか?」といった多択問題を作成し、AIに学習させているのです。
「私たちは基本的にモデルのためのテストを作成しているのです。すべての質問は、学生が学校の試験で見るような多択問題です」と崔氏は説明します。一見シンプルに見えるこの作業が、AIの推論能力を根本から変える鍵となっています。
品質管理では、公衆衛生とデータ分析の専門家であるミシェル・リー氏が重要な役割を担っています。「Q&Aペアが物理世界を理解するという目標に合致しているかを常に確認している」と彼女が語るように、数十万のデータユニットが厳格な品質チェックを経て、強化学習によってモデルの推論能力を向上させています。
そして最も驚くべきは、Cosmos Reasonが「思考過程を見せる」能力を持つことです。2台の車が道路を走っている動画を見せて「もし車が同じレーンで互いに向かって走っていたらどうなりますか?」と質問すると、モデルは衝突の可能性を推論し、その根拠まで段階的に説明してくれます。プリンシパルリサーチサイエンティストのツン・イー・リン氏によると、この技術は現実世界と安全に相互作用できる自律システムの開発において重要な基盤となっています。
人間のように考え、その過程を説明できるAIの実現は、私たちの想像を超える変化をもたらすことでしょう。

まとめ

いかがだったでしょうか?
NVIDIAのCosmos Reasonは、AIに人間の常識を教えるという壮大な挑戦を現実のものにしています。私たちが当然と思っている物理法則を一つひとつデータ化し、AIが推論できるまでに育て上げる——その背景には、多様な専門家による地道なデータ作成と品質管理の作業がありました。思考過程を見せる推論AIの登場は、ロボット工学や自動運転といった分野に大きな変化をもたらす可能性があります。AIが人間のように考え、判断する時代が、確実に近づいているのです。

参考資料:How Do You Teach an AI Model to Reason? With Humans

ARCHETYP Staffingではクリエイターを募集しています

私たちはお客様の課題を解決するweb制作会社です。現在webサイト制作以外にも、動画編集者や生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
また、アーキタイプではスタッフ1人1人が「AI脳を持ったクリエイター集団」としてこれからもクライアントへのサービス向上を図り、事業会社の生成AI利活用の支援及び、業界全体の生成AIリテラシー向上に貢献していきます。
生成AIの活用方法がわからない、セミナーを開催してほしい、業務を効率化させたいなどご相談ベースからお気軽にお問い合わせください!

ボタンから募集中の求人一覧ページに移動できます。

クリエイター登録して、案件情報を受け取る!

クリエイター登録