Metaの新システム!Self-Taught Evaluatorの可能性と課題

大規模言語モデル(LLM)の評価は、これまで人間による判断が主流でした。しかし、Metaが開発したSelf-Taught Evaluatorは、人間の介入なしでLLMが自己評価できる新しい手法であり、LLM開発のプロセスに大きな変化をもたらす可能性があります。
本記事では、Self-Taught Evaluatorの仕組みと特徴、性能と影響、課題と今後の展望について紹介していきますので、ぜひ最後までご覧ください!

ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!

ボタンから募集中の求人一覧ページに移動できます。

Self-Taught Evaluatorの仕組みと特徴

Self-Taught Evaluatorは、LLM-as-Judge(判断者としてのLLM)の概念を基礎としています。このシステムでは、モデルに入力、二つの可能な回答、評価プロンプトが提供され、LLMはこれらの情報を基に推論チェーンを生成し、より適切な回答を判断します。
この手法の特徴は、人間によるアノテーション(データに関連する情報を注釈として付与すること)を必要としない自己学習プロセスにあります。大量の未ラベルの指示データから始め、モデルは各指示に対して「選択された」応答と「拒否された」応答のペアを生成します。その後、反復的な訓練過程を経て、正しい推論チェーンを生成した例を訓練セットに追加していきます。研究者たちは推論カテゴリーだけでなく、コーディングや数学的問題解決など、幅広い分野でテストを行い、Self-Taught Evaluatorの汎用性を示しました。
基本的にAIの学習には教師あり学習や教師なし学習などがあり、人間がラベルを与えることが主流です。しかし、Metaが開発したSelf-Taught Evaluatorは、AIが自身で生成した回答を評価し、より良いものを反復的に学習していきます。強化学習と似ていると思われる方もいると思いますが、強化学習の目的が報酬の最大化であるのに対し、Self-Taught Evaluatorはモデルの性能を向上させることを目的としているため、異なります。Self-Taught Evaluatorは、従来のアプローチとは異なる新しい手法なのです!

Self-Taught Evaluatorの性能と影響

Self-Taught Evaluatorの性能は複数のベンチマークテストで評価されました。RewardBenchでは、初期モデルの精度が75.4%だったのに対し、Self-Taught Evaluatorは5回の反復後に88.7%まで向上し、人間がラベル付けしたデータで訓練されたモデルに匹敵する、もしくはそれを上回る性能を示しました。また、マルチターン会話能力を評価するMT-Benchでも同様の改善が見られ、Self-Taught Evaluatorがより複雑なタスクにも対応できることが確認されました。
企業にとって、Self-Taught Evaluatorは大量の未ラベルデータを活用できる可能性を秘めています。これにより、各企業の特定のニーズに合わせたカスタムモデルの開発が容易になり、人間によるアノテーションや評価にかかる時間とコストを削減できると期待されます。ただし、この技術の導入には慎重な検討も必要です。完全に自動化されたプロセスに頼りすぎると、実世界のタスクでの性能が保証されない可能性があるためです。
つまり、ある程度人間が携わらないと、AIだけが使いやすい仕様となる可能性があり、現実でのタスクやビジネスとの互換性が悪くなることも推測されます。このアプローチにはリスクも存在しますが、大幅なコストと時間の削減が期待できるため、、今後の発展と普及が注目されます!

Self-Taught Evaluatorの課題と今後の展望

Self-Taught Evaluatorの利点について触れてきましたが、いくつかの課題も存在します。
まず、この手法は初期シードモデルに依存しており、研究者たちはすでに指示調整され、人間の嗜好に合わせたモデルを使用しました。また、ベンチマークテストと実世界のタスクとの間にギャップが存在する可能性があります。標準化されたベンチマークがLLMの全能力と限界を完全に表現できるわけではないためです。これらの課題に対処するには、企業や研究者が訓練と評価のプロセスの各段階で手動テストを実施し、モデルが目指すべき性能に近づいているかを確認する必要があります。
今後、Self-Taught Evaluatorの技術はより複雑なタスクや多様な分野に適用されていく可能性があると推測されます。例えば、特定の業界や専門分野に特化したモデルの開発に応用される可能性があります。ただし、これらの発展には倫理的な配慮も必要になると予想されます。AIの自己評価と改善プロセスが人間の価値観や社会的規範から逸脱しないよう、適切な監視とガイドラインの設定が重要になるでしょう。
ベンチマークの指標だけで評価するのもリスクが生じるようです。やはり人間が途中でテストし、軌道修正を行うことはある程度必要となってきそうです!

まとめ

いかがだったでしょうか?
Metaが開発したSelf-Taught Evaluatorは、LLMの評価と改善プロセスに新たな可能性をもたらしています。人間の介入を最小限に抑えつつモデルの性能を向上させるこの技術は、AI開発の効率化に貢献する可能性があります。一方で、初期モデルへの依存やベンチマークと実世界のタスクのギャップなどの課題も存在します。今後、これらの課題に対処しながら、Self-Taught Evaluatorがどのように発展していくのか注目していく必要があります。

ARCHETYP Staffingではクリエイターを募集しています

私たちはお客様の課題を解決するweb制作会社です。現在webサイト制作以外にも、動画編集者や生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
また、アーキタイプではスタッフ1人1人が「AI脳を持ったクリエイター集団」としてこれからもクライアントへのサービス向上を図り、事業会社の生成AI利活用の支援及び、業界全体の生成AIリテラシー向上に貢献していきます。
生成AIの活用方法がわからない、セミナーを開催してほしい、業務を効率化させたいなどご相談ベースからお気軽にお問い合わせください!

ボタンから募集中の求人一覧ページに移動できます。

クリエイター登録して、案件情報を受け取る!

クリエイター登録