
AIに同じ質問を何度か投げかけたとき、答えが微妙に変わることに気づいたことはないだろうか。この「ぶれ」は、医療のような正確さが求められる場面では大きな問題だった。ところが最近、5つのAIが互いに議論しながら答えを導き出す「評議会方式」が、米国の医師免許試験で驚異的な成績を記録した。単独のAIを上回るその仕組みとは。
ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
ボタンから募集中の求人一覧ページに移動できます。
単独AIの限界と、5つのAIによる「評議会」という解決策

過去数年間、大規模言語モデル(LLM)が医学知識や医師免許試験でどれほどの成績を収めるか、多くの研究者が検証を重ねてきた。スコアは着実に向上し、AIの可能性を示す結果が次々と発表されてきたが、同時にある厄介な問題も浮き彫りになっていた。
同じ質問をLLMに複数回尋ねると、答えが毎回変わるのだ。ある時は正確な医学知識を示すかと思えば、またある時は事実とは異なる内容を自信満々に語る。この現象は「ハルシネーション(幻覚)」と呼ばれ、AIが存在しない情報をあたかも事実のように生成してしまう状態を指している。診断や治療方針を決める医療の現場では、この不安定さは決して看過できない課題だった。
この問題に対し、米国ボルチモアの研究者Yahya Shaikh氏らのチームは、まったく新しいアプローチに挑んだ。単独のAIの性能を高めることではなく、複数のAIに議論させるという発想だ。
研究チームが開発したのは、OpenAIのGPT-4を複数並べた「AI評議会」とでも呼ぶべきシステムである。各AIはそれぞれ独立して質問に回答するが、答えが割れた場合には特別なプロセスが始まる。ファシリテーター・アルゴリズム——進行役を務めるプログラム——が各AIの推論を整理し、全員に再度の検討を促すのだ。これは人間の会議で議長が「皆さんの意見をまとめると、こういう論点がありますね。もう一度考えてみましょう」と投げかける光景に似ている。AIたちは互いの推論過程を参照しながら、答えを練り直していく。この反復的な対話を通じて、評議会は最終的にコンセンサス——合意に基づく答え——へと到達する。バラバラだった意見が、議論を重ねることで一つの方向へ収束していく様子は、AIの「答えが変わる」という特性を欠陥ではなく、むしろ多様な視点として活用する試みだった。
では、この評議会は実際の試験でどのような成果を上げたのだろうか。
医師試験で示された圧倒的な成果と、その意味

研究チームは、このAI評議会に米国医師免許試験(USMLE)の公開問題325問を解かせた。USMLEは3つのステップに分かれており、Step 1では基礎生物医学、Step 2 CKでは臨床診断と患者管理、Step 3では実践的な医療判断が問われる、医師を目指す者にとって避けて通れない関門だ。
2024年10月9日にオープンアクセス誌PLOS Medicineで発表された結果は、予想を大きく上回るものだった。AI評議会はStep 1で97%、Step 2 CKで93%、Step 3で94%の正答率を記録し、単独のGPT-4モデルを明確に上回ったのである。特筆すべきは、この成果が医療データに関する特別な訓練やアクセスなしに達成されたという点だろう。さらに注目すべきは、評議会の「自己修正能力」だ。最初の段階で全員の意見が一致しなかった質問——つまり議論が必要だった問題——について、評議会は対話を重ねた結果、83%の確率で正しい答えへとたどり着いた。さらに驚くべきことに、多数決では間違った方向へ進みかけていた質問についても、議論を経ることで半数以上(53%)を正解へと導いている。単独で判断するよりも、複数のAIが意見を出し合い、推論を吟味し合うことで、より確かな答えへ近づけることが実証されたのだ。
研究に携わったZishan Siddiqui氏は、この研究の本質をこう指摘する。「この研究は、AIがUSMLEで高得点を取れるという自慢話ではありません。AIの応答が変わるという性質を、弱点ではなく強みとして扱う方法を示しているのです」。もう一人の研究チームメンバーであるZainab Asiyah氏は、評議会の対話を分析する中で興味深い観察をしている。「数字は、LLMが実際に互いを説得し、視点を変え合うことができることを示しています。たとえそれが間違った答えであったとしても」。AIが互いの意見に影響を与え合い、時には誤った方向へ進むこともある——それこそが人間の議論と似ているということだ。
ただし、研究チームは現時点での限界も率直に示している。この評議会方式は、実際の臨床現場ではまだテストされていない。試験問題への回答と、目の前の患者を診るという行為は、まったく異なる次元の課題だからだ。それでも、著者らが示す視点は示唆に富んでいる。「多様なAIの視点が答えを洗練できることを示すことで、一貫性だけが『良い』AIを定義するという概念に疑問を投げかけています」。応答が変わること、意見が分かれること——その変動性こそが、対話を通じてより良い答えへ到達するための資源になり得るという視点だ。
完璧な一つの答えを最初から目指すのではなく、多様な視点から答えを練り上げていく。人間が長年行ってきた知的営みの形が、AIの世界でも姿を現し始めている。
まとめ

いかがだったでしょうか?
5つのAIが評議会を組み、議論を重ねることで医師免許試験に驚異的な成績を残した。単独AIの不安定さという課題を、「多様な視点」として活かす発想の転換だ。まだ実際の臨床現場での検証はこれからだが、AIの使い方に新しい選択肢が生まれたことは確かだろう。完璧な一つの答えではなく、対話を通じて答えを磨いていく——その可能性に、今後も注目していきたい。
ARCHETYP Staffingではクリエイターを募集しています!
私たちはお客様の課題を解決するweb制作会社です。現在webサイト制作以外にも、動画編集者や生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
また、アーキタイプではスタッフ1人1人が「AI脳を持ったクリエイター集団」としてこれからもクライアントへのサービス向上を図り、事業会社の生成AI利活用の支援及び、業界全体の生成AIリテラシー向上に貢献していきます。
生成AIの活用方法がわからない、セミナーを開催してほしい、業務を効率化させたいなどご相談ベースからお気軽にお問い合わせください!
ボタンから募集中の求人一覧ページに移動できます。