
毎日5000万件の健康相談がAIに寄せられています。深夜の体調不良、気になる症状への不安—私たちは既にAIに頼り始めています。そんな中、Microsoft社が発表した研究結果は医療界に衝撃を与えました。専門医でも解決困難な診断でAIが85%の正答率を記録—経験豊富な医師の4倍です。
ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
ボタンから募集中の求人一覧ページに移動できます。
従来の医療AI評価の限界と新たな挑戦

医療分野でAIの能力を測る方法として長年使われてきたのが、米国医師国家試験(USMLE)でした。わずか3年で、生成AIはこの試験でほぼ満点を獲得するまでに成長しています。
しかし、ここに大きな問題がありました。USMLEは多肢選択問題が中心で、暗記に頼った一回限りの回答が求められます。一方、実際の診療では医師は患者の症状を聞き、追加の検査を指示し、得られた情報を総合して段階的に判断を下していきます。この「連続診断」こそが医療の核心部分です。例えば、咳と発熱の患者に対し、医師は血液検査や胸部X線撮影を指示し、その結果を確認してから肺炎と診断します。多肢選択問題では、こうした現実的な診断プロセスを評価することができません。
Microsoft社の研究チームが注目したのが、ニューイングランド医学雑誌(NEJM)です。同誌は毎週、マサチューセッツ総合病院で扱われた極めて複雑な診断事例を発表しています。これらの症例は、複数の専門医が関わり、多数の検査を経てようやく診断に至る、診断学において最も困難なケースばかりです。研究チームは304の症例を「Sequential Diagnosis Benchmark(SD Bench)」という新しい評価基準に変換しました。AIや医師が実際の診療と同様に、段階的に質問や検査を指示し、新しい情報を得るたびに推論を更新して診断を絞り込んでいく仕組みです。各検査には実際の医療費が設定され、診断精度と費用対効果の両面から性能を測定できるようになっています。
従来の評価方法では見えなかったAIの真の診断能力を測る土台が、ここに築かれました。
AIオーケストレーターが実現した驚異的な成果

Microsoft社が開発したのは「Microsoft AI Diagnostic Orchestrator(MAI-DxO)」です。これは複数のAIモデルを統合して動作するオーケストレーターで、まるで異なる専門分野の医師たちが集まって症例を検討する医療カンファレンスのように、各AIが持つ多様な診断アプローチを協調させる仕組みになっています。
研究では、GPT、Llama、Claude、Gemini、Grok、DeepSeekといった主要なAIモデルを個別にテストした後、MAI-DxOによる統合効果を検証しました。結果は明確でした。MAI-DxOは、テストしたすべての個別モデルの診断性能を向上させたのです。最も高い成果を示したのは、MAI-DxOとOpenAI社のo3モデルを組み合わせた構成でした。304のNEJM症例のうち、85.5%という高い正答率で正確な診断に到達しています。この数字の意味を理解するため、同じ症例を人間の医師にも挑戦してもらいました。参加したのは、アメリカとイギリスで5年から20年の豊富な臨床経験を持つ21名の現役医師です。公正な比較のため、彼らは通常の診療で利用する教科書やAIツール、同僚への相談を一切使わずに、純粋に個人の知識と経験だけで診断に取り組みました。
結果は衝撃的でした。経験豊富な専門医たちの平均正答率は20%に留まったのです。MAI-DxOの85.5%という成績は、専門医の4倍以上の診断精度を実現していました。
さらに注目すべきは、MAI-DxOが費用対効果の面でも優秀な成績を収めたことです。高い診断精度を維持しながら、医師や他の個別AIモデルよりも少ない検査費用で正確な診断に到達しました。このシステムには予算制約を設定する機能も備わっており、患者の経済状況に応じた最適な診断プロセスを提案できる設計になっています。
診断の質を保ちながら医療費の抑制も同時に実現する—この画期的な成果が、私たちの未来にどのような変化をもたらすのでしょうか。
医療の未来図—AIがもたらす変化の可能性

医師という職業には、長年解決できないジレンマがあります。家庭医のような総合医は幅広い疾患を診察できますが、一つ一つの専門性には限界があります。一方、心臓専門医や脳神経外科医のような専門医は特定分野に深い知識を持ちますが、専門外の疾患には対応できません。人間である以上、この「幅」と「深さ」のトレードオフは避けられない制約でした。
しかし、AIにはこの制約がありません。今回の研究結果は、AIが総合医の幅広い知識と専門医の深い洞察を同時に持ちうることを示しています。
この能力が実用化されれば、医療現場に段階的な変化をもたらすと予想されます。患者は軽微な症状について自宅でAIに相談し、適切な自己管理方法を学べるようになる可能性があります。同時に、医師は日常的な診断業務から解放され、より複雑で人間的な判断が求められる症例に集中できるようになるかもしれません。
経済面への影響も見逃せません。アメリカの医療費は国内総生産(GDP)の約20%という巨額に達しており、研究者の推計によると、このうち25%程度は患者の治療結果にほとんど影響しない無駄な支出とされています。MAI-DxOの効率的な診断プロセスが普及すれば、こうした無駄な医療費を大幅に削減できると期待されます。
ただし、研究チームも率直に認めているように、現在の成果には重要な限界があります。MAI-DxOが優秀な成績を示したのは、医学界で最も困難とされるNEJM症例に対してです。風邪や軽度の怪我といった、より頻繁に遭遇する日常的な症状に対する性能は、まだ十分に検証されていません。また、今回の研究で参加した医師たちは、同僚への相談や参考書の使用が禁止されており、実際の診療現場で利用可能なリソースを使えない条件での比較でした。より現実的な条件での検証が今後必要になるでしょう。
Microsoft社は、これらの課題を解決するため、複数の医療機関とパートナーシップを組んで実際の臨床環境での検証を進めています。研究チームが描く未来像は、AIが人間の医師を置き換える「代替」ではなく、人間の専門知識と共感力をAIの計算能力で拡張する「協調」の形です。
まとめ

いかがだったでしょうか?
Microsoft社の研究は、医療AIが専門医を上回る診断能力を持つ現実を具体的な数値で証明しました。85%という診断精度は、経験豊富な医師の4倍という圧倒的な差を示しています。しかし、この技術が私たちの日常に根付くまでには、より一般的な症状への対応力向上や実際の医療現場での検証など、解決すべき課題が残されています。AIと人間の医師が協力する未来の医療は、私たちにより良い健康管理と適正な医療費での治療という恩恵をもたらす可能性を秘めており、医療のあり方そのものが変わろうとしている今、この変化を注意深く見守る必要があるでしょう。
ARCHETYP Staffingではクリエイターを募集しています!
私たちはお客様の課題を解決するweb制作会社です。現在webサイト制作以外にも、動画編集者や生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
また、アーキタイプではスタッフ1人1人が「AI脳を持ったクリエイター集団」としてこれからもクライアントへのサービス向上を図り、事業会社の生成AI利活用の支援及び、業界全体の生成AIリテラシー向上に貢献していきます。
生成AIの活用方法がわからない、セミナーを開催してほしい、業務を効率化させたいなどご相談ベースからお気軽にお問い合わせください!
ボタンから募集中の求人一覧ページに移動できます。