GoogleのBardがGPT-4を上回る!新時代のAIランキング

はじめに

GoogleのチャットボットAI「Bard」が、OpenAIのGPT-4をしのぐ成果を達成しました。
この記事では、Large Model Systems Org(LMSYS Org)によって実施された最新の大規模言語モデルベンチマークテストの結果を基に、最新のランキング結果やプロセスについて詳しくみていきます。
ぜひ最後まで読んでみてください!

Huggingfaceはこちら

ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!

ボタンから募集中の求人一覧ページに移動できます。

LMSYS Orgとは

LMSYS Org、またはLarge Model Systems Organizationは、AI技術の進歩を目指して設立された研究組織です。この組織は、カリフォルニア大学バークレー校、カリフォルニア大学サンディエゴ校、そしてカーネギーメロン大学の協力のもと、AIの大規模モデルの研究と開発を推進しており、LMSYS Orgの主な目的は、大規模な機械学習モデルのデータセット、オープンモデル、そして評価ツールを共同で開発することにあります。
この組織は特に、AIの分野における透明性と公平性を重視していて、それを実現するために「Chatbot Arena」というベンチマークプラットフォームを開発しました。
このプラットフォームは、AIモデルの性能を正確に測定し、比較するための重要なツールとなっています。
具体的には、このプラットフォームは人間のユーザーが匿名のAIモデルと対話することによって、その性能を評価するという仕組みです。
これにより、実際の会話環境におけるAIの能力をより正確に測定することが可能となっています。

ベンチマークのプロセス

今回LMSYS Orgが行った、ベンチマークプロセスは、「Chatbot Arena」というプラットフォームを使用し、以下のようなステップで進められました。

1 人間とAIの対話
最初のステップとして、人間のユーザーがプラットフォームに招待され、匿名で設定された異なるAIモデルと対話を行います。
この対話は、実世界の会話に近い形式で行われ、AIモデルの応答能力を試します。

2 パフォーマンスの評価
対話が終了した後、ユーザーはその経験に基づいて、各AIモデルのパフォーマンスを評価します。
この評価は、ユーザーが感じた応答の自然さ、正確性、関連性に基づいて行われます。

3 イロレーティングシステム
ユーザーからのフィードバックに基づき、各AIモデルは「イロレーティング」というシステムを用いて評価されます。
このシステムはもともとチェスで用いられるもので、相対的な強さを数値化する方法で、AIモデルの場合は、対話の質を数値化し、それによってランキングが決定されます。

4 継続的な更新
Chatbot Arenaのランキングは定期的に更新され、新しいモデルや改善されたバージョンがテストされます。

このベンチマークプロセスを踏んで、AIモデルの性能を正確に把握し、比較するための信頼性の高い方法を提供しています。
LMSYS Orgによるこの取り組みは、AIの発展を促進し、より高度なAIモデルの開発へと導く重要な一歩となっています。

最新のランキング結果

LMSYS Orgが提供する「Chatbot Arena」の最新のベンチマーク結果は、2024年1月26日現在のイロレーティング番付によると、以下のようなランキングとなっています。

引用元

1位 OpenAIのGPT-4 Turbo
現在のランキングトップに君臨するのは、OpenAIの最新言語モデルであるGPT-4 Turboです。
これは皆さんも予想通りだとは思いますが、このモデルは、高度な理解力と応答能力を持ち、多くの専門家から高い評価を受けています。

2位 GoogleのBard (Gemini Pro)
大きな話題を呼んでいるのが、Googleが開発した「Bard (Gemini Pro)」のランクアップです。
このモデルは、従来のGPT-4モデルを上回る成績を示し、ランキングで2位に浮上しました。

3位 OpenAIのGPT-4 バージョン0314
このバージョンは、Microsoft Azure上で提供されているGPT-4の最初のリリースバージョンです。
堅実なパフォーマンスを持ち、現在ランキング3位に位置しています。

4位 OpenAIのGPT-4 バージョン0613
こちらもGPT-4のバージョンの一つで、ランキング4位に位置しています。
バージョン0314に続く形でリリースされたこのモデルも、高いパフォーマンスを持っています。

今回のGoogle「Bard (Gemini Pro)」の躍進は、AI技術の未来において新たな可能性を示唆しており、今後の動向に注目です。

まとめ

いかがだったでしょうか?
本記事では、Googleの「Bard (Gemini Pro)」がLMSYS OrgのベンチマークテストでOpenAIのGPT-4を上回ったことや、モデルごとのランキング、実行プロセスについて解説しました。
Googleの「Bard (Gemini Pro)」の躍進は、AI技術が今後私たちの生活にどのように組み込まれ、どのような影響を与えるかを予想する上で、重要な指標となると思われますので、引き続き動向を追っていきましょう!

ARCHETYP Staffingではクリエイターを募集しています

私たちはお客様の課題を解決するweb制作会社です。現在webサイト制作以外にも、動画編集者や生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
また、アーキタイプではスタッフ1人1人が「AI脳を持ったクリエイター集団」としてこれからもクライアントへのサービス向上を図り、事業会社の生成AI利活用の支援及び、業界全体の生成AIリテラシー向上に貢献していきます。
生成AIの活用方法がわからない、セミナーを開催してほしい、業務を効率化させたいなどご相談ベースからお気軽にお問い合わせください!

ボタンから募集中の求人一覧ページに移動できます。

クリエイター登録して、案件情報を受け取る!

クリエイター登録