GoogleのFACTSベンチマーク公開!最先端AIでも正解率70%の壁

ChatGPTもGeminiも、驚くほど賢くなった。そう感じている人は多いだろう。しかし、Googleが発表した新しいベンチマーク「FACTS」は、衝撃的な事実を明らかにした。最先端のAIモデルでさえ、正解率70%の壁を越えられていない。これは一体何を意味するのか。

ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!

ボタンから募集中の求人一覧ページに移動できます。

「事実性」を測る初めての本格的なベンチマークとその衝撃の結果

これまでのAIベンチマークは、プログラムを書く能力や指示に従う正確さといった「できること」を測定してきました。しかし、どのベンチマークにも共通する盲点がありました。「タスクを完了できるか」は測れても、「出力する情報が事実として正しいか」を直接測る仕組みがなかったのです。この問題は、法律、金融、医療といった分野では特に深刻になります。AIがどれだけ流暢に答えても、その内容が事実と異なっていれば、実務では使い物になりません。ところが、これまでそれを測る統一された基準がなかったのです。
GoogleのFACTSチームとデータサイエンス部門のKaggleが発表した「FACTS Benchmark Suite」は、まさにこの課題に取り組むために登場しました。このベンチマークは、AIの「事実性」を二つの軸で測定します。一つは「文脈的事実性」で、与えられた資料に基づいて正確に答えられるかを見るものです。もう一つは「世界知識の事実性」で、AIが持つ知識やウェブから取得した情報で正しい答えを導き出せるかを評価します。
具体的には四つのテストで構成されています。AIが学習した知識だけで答える「パラメトリックベンチマーク」、ウェブ検索ツールを使う「検索ベンチマーク」、チャートや画像を解釈する「マルチモーダルベンチマーク」、そして提供された文書に厳密に従う「グラウンディングベンチマーク」です。Googleは3,513の事例を公開する一方で、Kaggleは別途テストセットを保持しています。これは、開発者が事前にトレーニングしてしまう「汚染」と呼ばれる問題を防ぐためです。
そして、初期結果が公開されました。トップに立ったのはGemini 3 Proで68.8%、次いでGemini 2.5 Proが62.1%、OpenAIのGPT-5が61.8%という結果です。一見すると接戦のように見えますが、ここで本当に注目すべきは別の事実でした。どのモデルも70%を越えられなかったのです。
Gemini 3 Pro、GPT-5、Claude 4.5 Opusといった最先端のAIモデルでさえ、7割という正解率に届いていません。つまり、大まかに言えば、これらのAIは3回に1回は間違った情報を出力する可能性があるということです。研究チームは論文の中で、「すべてのモデルが70%未満であり、将来の進歩に向けた大きな余地が残されている」と指摘しています。
この数字は、私たちに何を伝えているのでしょうか。次のセクションで、その答えが見えてきます。

「得意・不得意」から見えてくる、AIとの正しい付き合い方

FACTSベンチマークの結果を詳しく見ていくと、AIには明確な「得意」と「不得意」があることがわかります。そして、この傾向を理解することが、実用的なシステムを作る上で極めて重要になってきます。特に興味深いのが、「検索」と「パラメトリック」のスコア差です。Gemini 3 Proを例に取ると、検索ベンチマークでは83.8%という高いスコアを記録していますが、自分の記憶だけで答えるパラメトリックベンチマークでは76.4%にとどまっています。この差が示しているのは、AIは「知っている」ことよりも「見つける」ことの方が得意だということです
この発見は、実は現場で広がっているある手法の有効性を裏付けています。RAG(Retrieval-Augmented Generation)と呼ばれる仕組みです。これは、AIモデルを検索ツールやベクトルデータベースに接続し、必要な情報を外部から取得させる方式です。社内のナレッジボットを構築している場合、このRAGの導入は、精度を実用レベルに引き上げる唯一の方法だと言えるでしょう。重要な事実をモデルの内部記憶だけに頼ってはいけないのです。
ただし、最も深刻な課題は別のところにあります。それがマルチモーダルベンチマークです。チャートや図、画像を解釈するタスクでは、トップのGemini 2.5 Proでさえ46.9%という正解率しか達成できていません。つまり、半分も正解できていないのです。この数字が実務で何を意味するか、想像してみてください。請求書から自動でデータを抽出したり、財務チャートを解釈させたりする仕組みを、人間のチェックなしで運用したらどうなるでしょうか。パイプラインに深刻なエラーを招く可能性が高いと言わざるを得ません。
では、実際にAIを導入する際、どのように判断すればいいのでしょうか。FACTSベンチマークは、用途によって見るべき指標が変わることも教えてくれています。たとえば、カスタマーサポートボットを作るなら「グラウンディングスコア」に注目すべきです。これは、AIがポリシー文書などの提供された情報にどれだけ忠実に従えるかを測る指標です。興味深いことに、このカテゴリーではGemini 2.5 Proが74.2%で、総合トップのGemini 3 Proの69.0%を上回っています。一方、リサーチアシスタントを作るなら検索スコアを優先すべきですし、画像分析ツールを検討しているなら、慎重に慎重を重ねる必要があります。
研究チームのメッセージは明確です。モデルは確実に賢くなっていますが、まだ完璧ではありません。大まかに言って3回に1回は間違える可能性があるという前提で、システムを設計すべきだと。この「信頼するが検証する」という姿勢は、まだしばらく続きそうです。

まとめ

いかがだったでしょうか?
GoogleのFACTSベンチマークは、最先端のAIでさえ70%の壁を越えられないという現実を示しました。しかし、これは決してAIが使えないという話ではありません。重要なのは、得意と不得意を理解し、適材適所で活用することです。検索が得意なら外部ツールと連携させ、画像解釈が苦手なら人間のチェックを入れる。用途に応じた指標の見極めが、これからのAI導入には欠かせません。AIは確実に進化していますが、万能ではありません。その現実を受け入れながら、賢く付き合っていくことが求められています。

参考資料:The 70% factuality ceiling: why Google’s new ‘FACTS’ benchmark is a wake-up call for enterprise AI

ARCHETYP Staffingではクリエイターを募集しています

私たちはお客様の課題を解決するweb制作会社です。現在webサイト制作以外にも、動画編集者や生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
また、アーキタイプではスタッフ1人1人が「AI脳を持ったクリエイター集団」としてこれからもクライアントへのサービス向上を図り、事業会社の生成AI利活用の支援及び、業界全体の生成AIリテラシー向上に貢献していきます。
生成AIの活用方法がわからない、セミナーを開催してほしい、業務を効率化させたいなどご相談ベースからお気軽にお問い合わせください!

ボタンから募集中の求人一覧ページに移動できます。

クリエイター登録して、案件情報を受け取る!

クリエイター登録