
AIエージェントは博士レベルの試験で高得点を叩き出します。複雑な数学問題もスラスラ解きます。しかし、企業が日々扱う文書処理となると話は別です。Databricksの新しい調査が明らかにしたのは、最先端のAIでさえ実務文書では45%未満の精度しか出せないという現実でした。
ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
ボタンから募集中の求人一覧ページに移動できます。
学術テストで優秀、でも実務では45%の衝撃

AI業界にはベンチマークが溢れています。Humanity’s Last Exam(HLE)は博士レベルの専門知識を問い、ARC-AGI-2は抽象的推論を測定します。どれも優れたベンチマークです。
しかし、Databricksの主任研究科学者Erich Elsen氏は疑問を抱きました。「既存のベンチマークで良い成績を出すことに研究努力を集中させても、顧客が抱える問題を解決していない可能性が高い」。数学の最前線を進めることは素晴らしいですが、それは企業が求めていることではありません。企業が日々行っているのは、文書に関する質問への回答です。複雑な表を解析し、数十から数百の文書から情報を引き出し、計算を実行します。一桁の誤りが組織全体の誤った判断につながる可能性があります。
開発されたOfficeQAは、こうした実務に直結する能力をテストします。複雑なデータセット—非構造化文書と表形式データ—に基づいて質問に答える能力を測定し、抽象的な能力ではなく企業が実際に価値を見出すタスクを評価する設計です。
テスト対象はClaude Opus 4.5 AgentとGPT-5.1 Agent。生のPDF文書を与えた結果は衝撃的でした。Claude Opus 4.5 Agentの精度は37.4%、GPT-5.1 Agentは43.5%で、どちらも半分に届きません。事前に解析された文書を与えると改善しました。Claude Opus 4.5 Agentは67.8%、GPT-5.1 Agentは52.8%まで上昇しましたが、それでも最高性能のモデルですら70%の壁を越えられていません。生のPDFでの低パフォーマンスは、推論ではなく解析の問題だと分かりました。
学術的なベンチマークと実務の間には深い溝があります。では、企業文書の何がAIをこれほどまでに苦しめるのでしょうか。
企業文書の「何」が難しいのか

ベンチマークを作るには、企業文書の複雑さを再現し、かつ研究用に自由に使えるデータセットが必要です。Databricksが選んだのは米国財務省報告書(U.S. Treasury Bulletins)でした。
財務省報告書は1939年から発行が始まり、各報告書は100〜200ページ。散文、複雑な表、チャート、図が混在し、連邦政府の資金の流れを記録しています。コーパス全体で約89,000ページ、80年分のデータです。1996年までは物理文書のスキャン、それ以降はデジタル作成されたPDFで、企業文書の複雑さを完璧に再現しています。「政府データをよりアクセスしやすく理解しやすくする」ことを使命とする組織USAFactsがDatabricksと提携し、財務省報告書を理想的なデータセットとして特定しました。246の質問が用意され、単純な値の検索から統計計算や年間比較を必要とする複数ステップの分析まで多岐にわたります。ベンチマークが実際の文書検索を必要とするよう、AIが事前学習で得た知識だけで答えられる質問は除外されました。すべての質問には検証済みの正解があり、自動で評価できます。この設計により、コーディング問題と同様の強化学習(機械が試行錯誤しながら学ぶ仕組み)が可能になります。
テストにより3つの決定的な障壁が明らかになりました。
第一に解析の問題です。入れ子のヘッダー、結合されたセル、特殊な書式を持つ複雑な表は、頻繁に値の不整合を生み出します。正確なページを与えられても、AIエージェントは解析エラーで苦戦しました。事前解析された文書ではパフォーマンスが約2倍になったことから、解析が根本的なボトルネックだと証明されました。
第二に文書のバージョン管理です。財務や規制文書は改訂され再発行されるため、発行日によって複数の正解が存在します。AIエージェントはもっともらしい答えを見つけるとそこで検索を止めてしまい、より権威のある情報源を見逃すケースが多発しました。
第三に視覚的推論の欠如です。約3%の質問はチャートやグラフの解釈を必要としますが、現在のAIエージェントはこの種の質問で一貫して失敗しました。
これら3つの障壁が組み合わさり、AIエージェントの能力を試します。では、この結果を受けて企業は何をすべきなのでしょうか。
この結果が示す現実と対策

OfficeQAの結果は厳しい現実を突きつけます。最新のAIモデルでも未処理のPDFでは43%の精度しか達成できず、最適な解析を行っても70%に届きません。最も難しい質問では40%で頭打ちになります。Databricksは企業が取るべき3つの具体的な行動を示しています。
まず、自社文書の複雑さを評価することです。スキャン画像、入れ子の表構造、文書間参照といった特徴を持つ文書を扱っているなら、ベンダーが宣伝する精度をはるかに下回ると覚悟すべきです。本番展開前に実際の文書でテストすることが不可欠になります。
次に解析のボトルネックに備えることです。テスト結果は解析が依然として根本的な障壁であることを明確に示しました。既製のOCR(光学文字認識、画像から文字を読み取る技術)で十分だと考えてはいけません。カスタム解析ソリューションに時間とリソースを割り当てる計画が必要です。
そして難しい質問の失敗モードを理解することです。最適な解析を施しても複雑な複数ステップの質問では40%で頭打ちになります。複数文書の分析、統計計算、視覚的推論を必要とする業務では、現在のAIエージェントは大幅な人間の監視なしでは機能しない可能性が高いです。
Elsen氏はOfficeQAの設計が特定の改善経路を可能にすると説明します。正解が分かるためエラーが解析から来ているかどうかを簡単に判断でき、この自動評価により解析パイプラインの迅速な改善が可能になります。ただし訓練データとして使うことには慎重です。「これをリリースする目的は評価としてであって、訓練データのソースとしてではない」とElsen氏は語ります。特定の環境に過度にチューニングすると、結果がどれほど汎用的に使えるかが不明確になるからです。
OfficeQAは文書処理AIの能力を測る具体的な物差しを提供し、解決が必要なギャップを特定します。現在のAI技術の限界を知ることが、適切な期待値を設定し、効果的な導入戦略を立てる第一歩となります。
まとめ

いかがだったでしょうか?
DatabricksのOfficeQAは、AIエージェントの実力と企業の期待との間に大きなギャップがあることを明らかにしました。博士レベルの試験で高得点を取るAIも、実務の文書処理では45%未満の精度しか出せません。解析、バージョン管理、視覚的推論という3つの障壁が立ちはだかります。AIに文書処理を任せる前に、自社の文書の複雑さを評価し、適切なテストを行うことが不可欠です。
参考記事:Databricks’ OfficeQA uncovers disconnect: AI agents ace abstract tests but stall at 45% on enterprise docs
ARCHETYP Staffingではクリエイターを募集しています!
私たちはお客様の課題を解決するweb制作会社です。現在webサイト制作以外にも、動画編集者や生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
また、アーキタイプではスタッフ1人1人が「AI脳を持ったクリエイター集団」としてこれからもクライアントへのサービス向上を図り、事業会社の生成AI利活用の支援及び、業界全体の生成AIリテラシー向上に貢献していきます。
生成AIの活用方法がわからない、セミナーを開催してほしい、業務を効率化させたいなどご相談ベースからお気軽にお問い合わせください!
ボタンから募集中の求人一覧ページに移動できます。



