コードの動きを学ぶAI：MetaのCWM世界モデルとは何か

AIにコードを書かせる時代は、すでに始まっている。しかし生成されたコードが本当に「理解されて」書かれているかというと、話は別だ。Metaが発表した新モデル「Code World Model（CWM）」は、コードの見た目ではなく、その「動き」を学ぶ。このアプローチは、AIの可能性を大きく広げるかもしれない。

ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください！

ボタンから募集中の求人一覧ページに移動できます。

現在募集中の求人はこちら

従来のAIが抱えていた「根本的な問題」

ChatGPTをはじめとする最新のAIは、驚くほど流暢にコードを書く。だが、その裏側で何が起きているかを知ると、少し不安になるかもしれない。
現在の多くのAIモデルは、「次のトークン予測」という仕組みで動いている。トークンとは、文章やコードを構成する最小単位のことだ。「今日は」という文章なら「今日」「は」と分割される。AIはこのトークンを一つずつ予測しながら、文章やコードを生成していく―まるで、前の単語から次の単語を推測しながら文章を書いているようなものだ。
一見すると問題なさそうに思える。実際、この方法で驚くほど自然な文章や、ちゃんと動くコードが生成される。だがMetaの研究チームは、ここに根本的な限界があると指摘する。人間のプログラマーがコードを書くとき、彼らは単に文字列を並べているわけではない。頭の中で、コードが実行されたときに何が起きるかをシミュレーションしている。変数に値を代入したら次の行でその値がどう使われるのか、関数を呼び出したらプログラム全体の動作にどう影響するのか―優れたエンジニアほど、この「実行イメージ」が鮮明だ。
研究チームは、この能力を「世界モデル」と呼んでいる。プログラマーは、コードという文字列を見ているのではない。その背後にある「プログラムが動く世界」を見ている。変数、関数、モジュールといった部品がどう連携するか、全体像を把握しながらコードを組み立てているのだ。
従来のAIには、この世界モデルが欠けていた。トークンの並びは学習しても、そのコードが実行されたときに何が起きるかは、実は「理解」していない。だから、一見正しそうに見えても、実際に動かすとエラーが出たり、意図しない動作をするコードが生成されることがある。もちろん、業界もこの問題に気づいていなかったわけではない。ただ、世界モデルの学習は、これまで訓練の最終段階、いわゆる「ファインチューニング」で行われることが多かった。基礎的な学習が終わった後に、おまけのように付け加えられる程度の扱いだったのだ。
Metaの研究チームは、この常識に疑問を投げかけた。

CWMは何が違うのか―「実行する前に結果が分かる」仕組み

CWMが他と決定的に違うのは、訓練の段階から「コードがどう動くか」を徹底的に学ばせている点だ。従来のように基礎訓練が終わってから世界モデルを教えるのではなく、「中間訓練」と呼ばれる段階で、コードの実行過程そのものを大量に見せる。
具体的には、2種類のデータを使って訓練している。1つ目は、Pythonコードの「実行トレース」だ。プログラムを1行ずつ実行したとき、変数の値がどう変化するか、内部状態がどう推移するかを記録したデータである。従来の訓練では、コードと最終結果だけを見せていた。だがCWMは、その間のプロセス全体を観察する。
2つ目は、Docker環境での実際の開発作業のシミュレーションだ。Dockerとは、アプリケーションを動かすための仮想的な環境である。研究チームは「ForagerAgent」という合成データ生成システムを作り、エンジニアがバグを修正したり新機能を実装したりする作業を再現した。
この訓練の成果は、CWMの振る舞いに表れている。たとえば競技プログラミングの問題を解くとき、CWMはまず解答コードを作成する。だが、そこで終わりではない。次に自分でテストケースを考え出し、そのテストで自分のコードが正しいかを検証する。さらに、予測した出力と実際の実行結果を比較する。この「自己検証ループ」こそ、世界モデルを持っている証拠だと研究チームは考えている。
実際の性能も目を見張るものがある。GitHubリポジトリの実際の問題を解決するベンチマーク「SWE-bench Verified」では、65.8%の合格率を記録し、同規模の他のオープンウェイトモデルを上回った。競技プログラミングや数学的推論のベンチマークでも、高いスコアを残している。
ただし、研究チームは現時点での限界も率直に認めている。CWMは研究用モデルとして非商用ライセンスで公開されており、一般的なアシスタントやチャットボットとしての使用は想定されていない。研究チームは「これは第一歩に過ぎない」と述べており、今後の研究に大きな期待を寄せている。

「次のトークン予測」を超えて―AIの知能は次の段階へ

CWMのような世界モデルへの注目は、AI業界全体での動きの一部だ。実は、次のトークン予測を超える試みは、以前から存在していた。最も有名なのが「思考連鎖(Chain-of-Thought、CoT)」という手法だ。これは、AIに最終的な答えを出す前に、その「思考過程」を文章として出力させる方法である。DeepSeek-R1のような推論モデルは、強化学習を使ってより長い思考過程を生成させ、答えを反省し修正させてから最終回答を出す。
だが、CoTにも限界がある。結局のところ、これも「トークンを生成する」プロセスに過ぎない。研究によれば、CoTは思考の錯覚を生み出しているだけで、本当の推論の証拠とは言えないという指摘もある。世界モデルは、この問題に対するより根本的なアプローチだ。次のトークンを予測することを目的とするのではなく、AIの内部―「潜在空間」と呼ばれる領域に、世界のモデルを構築させる。この世界モデルは、必ずしも出力されるトークンとして表現されるわけではない。
他の研究グループも、同様の方向性を模索している。たとえば、LLMとJEPAというアーキテクチャを組み合わせた研究がある。JEPAは、世界モデリング専用に設計された深層学習の仕組みだ。初期の結果では、LLM-JEPAは環境の変化に対してより頑健で、純粋な次トークン予測で訓練されたモデルよりも効率的に新しいタスクを学習できることが示されている。
なぜ世界モデルがこれほど重要なのか。それは、実世界のアプリケーションでは、環境が絶えず変化するからだ。ビジネスのルールが変わり、ユーザーの要求が変わり、技術スタックが更新される。こうした変化に対応するには、表面的なパターンマッチングではなく、システムがどう動いているかの深い理解が必要になる。世界モデルを持つAIは、こうした変化にも柔軟に対応できる可能性がある。
異なるAIアーキテクチャをどう統合していくかは、まだ見えていない。しかし、一つ確かなことがある。堅牢な世界モデルを持つことが、AIシステムをより信頼性の高いものにするということだ。

まとめ

いかがだったでしょうか？
CWMの登場は、AIが単なるパターン認識から「理解」へと進化する可能性を示している。コードの見た目だけでなく、その動きを学ぶ―このアプローチは、まだ研究段階ではあるものの、今後のAI開発に大きな影響を与えるかもしれない。世界モデルという考え方は、コーディングに限らず、様々な分野でのAI応用につながる可能性がある。Metaはこれをまだ「第一歩」と位置づけているが、その先にどんな展開が待っているのか。注目していきたい。

参考資料：Meta’s new CWM model learns how code works, not just what it looks like

ARCHETYP Staffingではクリエイターを募集しています！

私たちはお客様の課題を解決するweb制作会社です。現在webサイト制作以外にも、動画編集者や生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください！
また、アーキタイプではスタッフ１人１人が「AI脳を持ったクリエイター集団」としてこれからもクライアントへのサービス向上を図り、事業会社の生成AI利活用の支援及び、業界全体の生成AIリテラシー向上に貢献していきます。
生成AIの活用方法がわからない、セミナーを開催してほしい、業務を効率化させたいなどご相談ベースからお気軽にお問い合わせください！