大規模言語モデル(LLM)は私たちの仕事や生活に浸透しつつありますが、モデルが提供する情報の正確性には課題が残されています。
この課題に対して、LLMの事実性を客観的に評価する新しい基準「FACTS Grounding」が発表され、ビジネスでのAI活用における選択がより明確になろうとしています。
ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
ボタンから募集中の求人一覧ページに移動できます。
FACTS Groundingが示す新しい評価基準
FACTS Groundingは、Google DeepMindとGoogle Researchが共同で開発した、LLMの回答の正確性を評価するための新しいベンチマークですの評価システムは、オンライン上の競技プラットフォームであるKaggleで公開されており、各AIモデルの性能を順位付けして比較できるようになっています。評価には1,719の事例が用意され、これらは金融、技術、小売、医療、法律など、ビジネスの幅広い分野をカバーしています。各事例では最大32,000トークン(約20,000語)までの文書を扱い、その文書に基づいて生成された回答の正確性を総合的に判定していきます
評価プロセスでは、LLMが与えられた文書の情報をどれだけ忠実に扱えるかが重要な基準となります。具体的には、文書の情報を正しく理解し、ユーザーの質問に対して過不足のない回答を提供できるかが試されます。例えば、文書に含まれていない情報を付け加えたり、文書の文脈を誤って解釈したりした場合は、評価が下がる仕組みとなっているのです。また、評価は公開セット(860事例)と非公開セット(859事例)に分かれており、誰でも公開セットを使用してLLMの評価を行うことができます。非公開セットを設けている理由は、評価基準の公平性を保つためです。これにより、特定の評価事例に最適化されたモデルの開発を防ぎ、より実践的な評価が実現できる仕組みとなっています。このような厳密な評価体制は、次に説明する実務での活用において重要な意味を持ちます。
ビジネスにおける意義と今後の展望
FACTS Groundingの特徴的な点は、評価の信頼性を高めるため、Gemini 1.5 Pro、GPT-4o、Claude 3.5 Sonnetという3つの最新のAIモデルが評価を担当している点です。評価は2段階で行われ、まずユーザーの要求に十分に応えているかが判断され、次に提供された文書に基づいた事実に即した回答かどうかが精査されます。この評価基準の登場により、ビジネスにおけるLLMの選定と活用に新たな指標が加わることになります。例えば、法務文書の要約や財務報告書の分析、医療情報の処理など、高い正確性が求められる業務において、どのLLMが適しているかを客観的に判断できるようになります。
現在、評価結果はKaggle上のリーダーボードで公開されており、各LLMの性能を比較することが可能です。このリーダーボードは定期的に更新され、新しいモデルの評価も追加されていく予定となっています。これにより、企業はLLMの選定において、より信頼性の高い判断基準を得ることができるでしょう。ただし、この評価基準は事実に基づいた情報生成能力に焦点を当てたものであり、創造性や複雑な数学的計算、高度な推論能力などは評価対象外となっています。そのため、実際の業務でLLMを活用する際は、FACTS Groundingのスコアを一つの重要な指標としながらも、それぞれの業務に必要な他の能力も考慮に入れた総合的な判断が求められます。
今後、企業がLLMを業務に取り入れる際、この評価基準は信頼性の指標として重要な役割を果たすことになるでしょう!
まとめ
いかがだったでしょうか?
FACTS Groundingは、LLMの信頼性を客観的に評価する新しい基準として、ビジネスシーンでの活用に大きな意味を持つものとなっています。この評価基準により、業務に適したLLMの選定がより確実なものとなり、効果的なAI活用への道が開かれることでしょう。今後も継続的な発展が予定されているFACTS Groundingは、LLMの信頼性向上に貢献することが期待されます。
ARCHETYP Staffingではクリエイターを募集しています!
私たちはお客様の課題を解決するweb制作会社です。現在webサイト制作以外にも、動画編集者や生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
また、アーキタイプではスタッフ1人1人が「AI脳を持ったクリエイター集団」としてこれからもクライアントへのサービス向上を図り、事業会社の生成AI利活用の支援及び、業界全体の生成AIリテラシー向上に貢献していきます。
生成AIの活用方法がわからない、セミナーを開催してほしい、業務を効率化させたいなどご相談ベースからお気軽にお問い合わせください!
ボタンから募集中の求人一覧ページに移動できます。