OpenAIは、AI言語モデルの事実性を測定するための新しい評価基準「SimpleQA」を開発し、その結果を公開しました。これは、「ハルシネーション」の問題に対する重要な取り組みとなっています。
本記事では、SimpleQA」の全容について紹介していきますので、ぜひ最後までご覧ください!
ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
ボタンから募集中の求人一覧ページに移動できます。
SimpleQAが示すAI言語モデルの実力
参照:Open AI
SimpleQAは、AIの回答の正確性を測定するために作られた4,326問の質問データベースです。各質問は単一の明確な答えを持ち、時間が経過しても変化しない事実のみを扱うように設計されています。
データベースの作成では、まず2人のAIトレーナーが独立して質問と回答のペアを作成し、それぞれの回答が一致した質問のみを採用しました。さらに信頼性を高めるため、3人目のAIトレーナーがランダムに選ばれた1,000問に回答して検証を行い、約94.4%の質問で回答の一致が確認されています。
評価方法は「正解」「不正解」「未回答」の3段階に分かれており、完全に正しい回答を「正解」、少しでも誤りを含む回答を「不正解」、回答を避けた場合を「未回答」としています。例えば、「2022年のワールドカップでオランダ対アルゼンチン戦でゴールを決めた選手は誰ですか?」という質問に対して、正しい選手名のみを答えた場合は「正解」、誤った選手名や複数の選手名を挙げた場合は「不正解」、「分かりません」と答えた場合は「未回答」と判定されます。
このデータベースは科学技術からテレビ番組やビデオゲームまで幅広い分野をカバーしていますが、特筆すべきは質問の難易度設定です。既存の評価基準(TriviaQAやNQ)では最新のAIモデルが高い正答率を示していたため、SimpleQAではより困難な内容となるよう設計されました。実際、最新のGPT-4oでもSimpleQAでの正答率は40%未満にとどまっています。このような厳密な評価基準により、AIモデルの実力をより正確に測定できるようになりました。
GPT-4oでも正答率が40%はかなり難易度が高いですね。しかし、上記の画像を見ていただいても分かる通り、かなりのサッカーオタクでないと答えられないような質問となっているようなので、AIが間違えるのも無理はないのかもしれません。つまり、SimpleQAを100%回答できるようになった時が、最強のAI誕生の瞬間と言えるでしょう!
AI言語モデルの「自己認識」能力を探る
SimpleQAを用いた検証では、AIの回答能力だけでなく、自身の回答にどの程度の確信を持っているかという「自己認識」能力の測定も行われました。この能力は、AIが信頼できる回答とそうでない回答を区別できるかを示す重要な指標となります。
検証では、特に思考時間を多く使うように設計されたモデル(o1-mini、o1-preview)に興味深い傾向が見られました。これらのモデルは、回答に確信が持てない場合に「未回答」を選択する傾向が強く、これはハルシネーションを避けようとする判断能力の表れと考えられています。
「自己認識」能力の測定は2つの方法で実施されました。1つ目は回答の確信度をパーセンテージで表現させる方法で、2つ目は同じ質問を100回繰り返して回答の一貫性を確認する方法です。その結果、すべてのモデルにおいて、述べられた確信度や回答の一貫性と実際の正答率には明確な相関関係が見られました。
しかし、この検証では重要な課題も浮き彫りになりました。AIモデルは全般的に自身の能力を過大評価する傾向があり、例えば「90%の確信がある」と述べた回答でも、実際の正答率はそれを下回ることが確認されています。一方で、大規模なモデル(gpt-4o、o1-preview)は小規模なモデル(gpt-4o-mini、o1-mini)と比較して、自身の回答の確からしさをより正確に判断できることも示されました。これは、モデルの規模が大きくなるほど「自己認識」能力が向上するという先行研究の結果とも一致しています。
最近は小さいモデルが評価される傾向がありましたが、自己認識とハルシネーション回避の観点からすると、大規模モデルを利用する方が安心感がありそうです。どちらのモデルを使うのかは、利用者の需要によって分かれてくると思いますので、無料版でたくさん試して、自身に合ったモデルを見つけていきましょう!
小規模モデルに関する紹介記事も合わせてご覧ください:
AI活用のコストダウンへ!内部処理と外部ツールを賢く使い分ける新技術
クラウド不要のAIモデル!Hugging Face社が「SmolLM2」発表
まとめ
いかがだったでしょうか?
SimpleQAは、AIの回答精度を測定するための新しい評価基準として、これまでにない視点からAIの能力を明らかにしました。このテストにより、AIモデルの規模による性能の違いや、自身の回答に対する確信度の正確さなど、多くの特徴が浮き彫りになっています。ただし、SimpleQAが評価できるのは事実確認を目的とした短い質問に対する回答の正確性のみであり、今後は長文での回答や複雑な説明に対する正確性を測定する新たな評価方法の開発も期待されています。
ARCHETYP Staffingではクリエイターを募集しています!
私たちはお客様の課題を解決するweb制作会社です。現在webサイト制作以外にも、動画編集者や生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
また、アーキタイプではスタッフ1人1人が「AI脳を持ったクリエイター集団」としてこれからもクライアントへのサービス向上を図り、事業会社の生成AI利活用の支援及び、業界全体の生成AIリテラシー向上に貢献していきます。
生成AIの活用方法がわからない、セミナーを開催してほしい、業務を効率化させたいなどご相談ベースからお気軽にお問い合わせください!
ボタンから募集中の求人一覧ページに移動できます。