AIの自己学習を変えるSPICE、Metaが開発した対戦型フレームワーク

Metaとシンガポール国立大学の研究チームが、AIが自ら問題を作り、解きながら成長する新しいフレームワーク「SPICE」を開発しました。人間が用意した問題集に頼らず、2つのAIエージェントが対戦する仕組みです。この技術がAI開発の新たな可能性を切り開きます。

ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!

ボタンから募集中の求人一覧ページに移動できます。

従来のAI学習が乗り越えられなかった壁

自己改善型AIの開発において、研究者たちは長年、システムが自律的に能力を高める方法を模索してきました。最も一般的なアプローチは、検証可能な報酬を伴う強化学習(RLVR)と呼ばれる手法で、モデルが問題に正しく答えると報酬を得る仕組みになっており、この報酬を最大化するように学習が進んでいきます。しかしこの手法には大きな制約があり、人間が作成した問題セットに依存するため、問題の多様性や量に限界があって規模を拡大することが難しく、特定の分野ごとに報酬の設計が必要になることも課題でした。
もう一つの有望な方向性として、自己対戦という手法が注目されてきました。モデルが自分自身と競争することで改善するというアイデアで、ゲームAIの世界では成功を収めてきたものの、言語モデルに適用すると2つの致命的な問題に直面します。
1つ目は、ハルシネーションの蓄積です。ハルシネーションとは、AIが事実に基づかない情報を生成してしまう現象を指し、自己対戦ではAIが自分で質問を作り、自分でそれに答えるため、生成された質問や答えに事実誤認が含まれていると、それが次の学習データとなって誤りがどんどん増幅されていきます。間違いが間違いを生む悪循環に陥ってしまうのです。
2つ目の問題は、情報の対称性です。問題を作る側と解く側が同じ知識ベースを共有していると、本当の意味で新しい課題が生まれません。想像してみてください。自分が知っていることだけを使って自分のために問題を作るとしたら、おそらく似たようなパターンの問題ばかりになり、すぐに限界に達するはずです。言語モデルの自己対戦でも、まさに同じことが起きており、システムは反復的なパターンに陥って停滞してしまいます。
研究チームはこれらの失敗例を踏まえ、自己改善には閉じた環境での内省ではなく、多様で検証可能なフィードバックを提供する外部ソースとの相互作用が必要だという重要な指摘をしています。
では、どうすればAIは外の世界から学び続けられるのか。その答えがSPICEです。

SPICEの仕組みと実証された成果

SPICE(Self-Play In Corpus Environments:コーパス環境における自己対戦)は、1つのモデルが2つの異なる役割を演じるフレームワークで、「Challenger(挑戦者)」は大規模な文書コーパスから問題を作成し、「Reasoner(推論者)」はその元となった文書にアクセスできない状態で問題を解くという仕組みになっています。Challengerが膨大な文書の中から情報を引き出して問題を構築する一方で、Reasonerはその文書を見ることができないため、この非対称な設定こそが、従来の手法を制限していた情報の対称性を打破する鍵となっています。
文書コーパスは「現実の知識」として機能してハルシネーションを防ぎ、質問も答えも実際に存在する文書の内容に基づいているため、AIが自分の想像だけで内容を作り出すことがなく、検証可能な情報源に常に結びついているわけです。2つの役割の間には興味深い力学が働いており、Challengerは多様でありながら、簡単すぎず難しすぎない、Reasonerの能力の境界線上にある問題を作ることで報酬を得て、一方でReasonerは正しく答えることで報酬を得るという、この敵対的な関係が自動的にカリキュラムを生み出していきます。
SPICEの特徴は柔軟性の高さにもあり、事前に定義された質問と答えのペアではなく生の文書を使用するため、多肢選択式や自由形式など、さまざまな問題形式を生成できます。これまでの手法が数学やプログラミングといった限られた分野にとどまっていたのに対し、SPICEはあらゆる領域に適用できる可能性を持っています。研究チームは複数のベースモデルでSPICEを評価し、比較対象にはトレーニングなしのベースモデル、固定の強力なChallengerでトレーニングしたモデル、そしてR-ZeroやAbsolute Zeroといった既存の自己対戦手法が含まれました。結果は明確で、すべてのモデルにおいてSPICEはベースラインを上回る性能を示しています
共進化の証拠も具体的な数値で示されており、ある実験ではReasonerが固定された問題セットに対する合格率を、時間の経過とともに55%から85%へと向上させた一方で、後期バージョンのChallengerは初期段階のReasonerの合格率を55%から35%へと下げる問題を生成できるようになり、両者が互いに押し上げ合いながら成長するプロセスがデータとして実証されたのです。研究チームは、この成果を「ハルシネーションのドリフトにより停滞しがちな閉ループ的な自己対戦から、ウェブドキュメントのコーパスに埋め込まれた膨大で検証可能な知識との相互作用を通じた開放的な改善へ」のパラダイムシフトだと位置づけています。
現在SPICEが使用するコーパスはテキストに記録された人間の経験を基盤としていますが、研究チームの最終目標はもっと先にあり、物理的な世界、インターネット、そして動画、音声、センサーデータといった複数のモダリティから学習するシステムへの拡張が視野に入っています。
AIが現実世界そのものから学び続ける未来が、この研究の先に見えています。

まとめ

いかがだったでしょうか?
Metaとシンガポール国立大学が開発したSPICEは、AIが外部の知識と対話しながら自己改善する道筋を具体的に示しました。2つのAIエージェントが対戦し、互いに成長を促す仕組みは、従来手法が抱えていたハルシネーションの蓄積と情報の対称性という2つの壁を打破しています。実験で示された共進化のプロセスと、異なるモデル間での推論能力の転移は、この手法の汎用性を裏付けるものです。現在は概念実証段階にありますが、今後テキストを超えて動画や音声など多様なデータソースへと広がれば、AIが現実世界そのものから学び続ける未来が、すぐそこまで来ています。

参考記事:Meta’s SPICE framework lets AI systems teach themselves to reason

ARCHETYP Staffingではクリエイターを募集しています

私たちはお客様の課題を解決するweb制作会社です。現在webサイト制作以外にも、動画編集者や生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
また、アーキタイプではスタッフ1人1人が「AI脳を持ったクリエイター集団」としてこれからもクライアントへのサービス向上を図り、事業会社の生成AI利活用の支援及び、業界全体の生成AIリテラシー向上に貢献していきます。
生成AIの活用方法がわからない、セミナーを開催してほしい、業務を効率化させたいなどご相談ベースからお気軽にお問い合わせください!

ボタンから募集中の求人一覧ページに移動できます。

クリエイター登録して、案件情報を受け取る!

クリエイター登録