
OpenAIがGPT-5.1を発表したわずか数時間後、中国の検索大手BaiduはERNIE 5.0を公開しました。ベンチマークではGPT-5やGemini 2.5 Proを上回る結果を示し、さらにオープンソース版も同時展開。グローバルAI市場における新たな競争構図が浮かび上がっています。
ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
ボタンから募集中の求人一覧ページに移動できます。
ERNIE 5.0の実力—ベンチマークが示す性能

Baiduが今回発表したERNIE 5.0は、テキスト、画像、音声、動画を単一のモデル内で処理できる「オムニモーダルモデル」です。オムニモーダルとは複数の情報形式を同時に扱える仕組みを指します。従来は文章処理用と画像処理用を別々に組み合わせる方法が主流でしたが、ERNIE 5.0は最初から一体化して設計されています。Baiduによれば、後から異なる種類のモデルを繋ぎ合わせるのではなく、最初から統合された形で作ったことが他のモデルとの違いだと説明しています。
Baidu World 2025で公開されたベンチマーク結果を見ると、ERNIE 5.0はいくつかの領域でOpenAIのGPT-5-HighやGoogleのGemini 2.5 Proと同等、あるいはそれを上回る性能を記録しています。特に目立つのは文書とチャートの理解能力です。OCRBench、DocVQA、ChartQAという3つのテストではいずれもトップスコアを獲得しました。これらは文字認識、文書の内容理解、グラフやチャートからのデータ読み取りといった能力を測るもので、契約書の処理や財務データの分析など、実務での活用が想定される領域です。
画像生成においても、BaiduはGoogleのVeo3と同等以上の結果を示したと発表しています。評価にはGenEvalという基準が用いられ、画像が指示内容とどれだけ合っているか、品質はどうかが測定されました。Baiduの説明では、それぞれの情報形式を別々に処理するモデルよりも、文脈を深く理解した画像生成ができるとしています。
音声処理ではMM-AUとTUT2017という音声理解テストで競争力のある結果を出しており、音声での質問応答も可能です。ただし、Baidu自身も音声性能については視覚やテキストほどの強調はしていません。言語処理では指示の理解、事実に基づく回答、数学的推論で高い性能を示しました。さらにテキスト処理に特化した「ERNIE 5.0 Preview 1022」という別バージョンも用意されています。Baiduの内部評価によれば、英語ではトップレベルのモデルとの差を縮め、中国語では他の主要モデルを上回る性能を持つとされています。
CEOのロビン・リー氏は「AIを内在化すると、それはネイティブな能力となり、インテリジェンスをコストから生産性の源泉へと変革します」と述べました。ただし、Baiduは詳細なテスト結果や具体的な数値を公開していないため、第三者による検証はまだ行われていません。
では、この高性能モデルをBaiduはどのように提供するのでしょうか。
二刀流戦略—プロプライエタリとオープンソース

Baiduは今回、性質の異なる2つのモデルを同時に展開する戦略を採用しました。1つは有料APIで提供されるERNIE 5.0、もう1つはオープンソースとして公開されたERNIE-4.5-VL-28B-A3B-Thinkingです。ERNIE 5.0はBaiduのERNIE BotウェブサイトとQianfanクラウドプラットフォームを通じてのみ利用できます。Qianfanでの価格は中国国内の競合であるAlibabaのトップモデルと同水準に設定され、従来モデルのERNIE 4.5 Turboと比較すると明確に高価格帯に位置づけられています。これは高性能モデルと大量処理向け低コストモデルを分ける方針を示すもので、米国のモデルと比較した場合は中程度の価格帯です。
一方、ERNIE 5.0発表の2日前に公開されたオープンソース版は、Apache 2.0ライセンスで提供されています。Apache 2.0は商用利用や改変が自由に認められる形式で、企業が独自のサービスに組み込む際の法的制約が最小限に抑えられています。このモデルは280億のパラメータ(モデルの規模を示す指標)を持ちながら、実際に動かす際には30億のパラメータのみを使用する仕組みを採用しています。これはMixture-of-Experts(MoE)と呼ばれる技術で、必要な部分だけを選択的に動かすことで処理効率を高めています。結果として単一の80GB GPUで動作するため、大規模な設備を持たない中規模の組織でも導入が可能です。
技術面では「Thinking with Images」という機能を搭載しており、画像を段階的に拡大しながら詳細を分析できます。チャートの読み取り、文書理解、画像内の特定箇所の認識、動画での時間の流れの把握にも対応しており、既存の開発ツールとの互換性も確保されています。
モデル発表と並行して、Baiduは複数の製品を国際展開しています。2000万人以上が利用するAIエージェント「GenFlow 3.0」、複雑な問題を動的に解決する「Famou」が招待制で利用可能になりました。ノーコードツールの国際版「MeDo」はmedo.devで、生産性ワークスペース「Oreate」は120万人以上のユーザーに達しています。自動運転タクシーサービス「Apollo Go」は22都市で展開され、累計乗車回数は1700万回を超えました。デジタルヒューマンプラットフォームは既にブラジルで展開されており、今年のダブル11ショッピングイベントでは中国国内のライブ配信者の83%がこの技術を使用しました。
有料API、オープンソース、そして幅広い製品群。Baiduが描くのは、技術を複数の形で提供し、多様な市場に入り込む戦略です。
まとめ

いかがだったでしょうか?
BaiduのERNIE 5.0発表は、わずか数時間前のOpenAI発表への即座の応答という形で実現しました。ベンチマークで示された性能、有料とオープンソースの二刀流戦略、そして国際展開への本格的な動き。これらすべてが、Baiduが単なる国内AIリーダーから、グローバルな存在への転換を図っていることを物語っています。第三者による検証はこれからですが、特に文書理解とチャート分析での強みは実務での活用を考える上で注目に値するでしょう。AI市場における競争は今、技術性能だけでなく提供形態の多様性が問われる新たな段階に入っています。
参考資料:Baidu unveils proprietary ERNIE 5 beating GPT-5 performance on charts, document understanding and more
ARCHETYP Staffingではクリエイターを募集しています!
私たちはお客様の課題を解決するweb制作会社です。現在webサイト制作以外にも、動画編集者や生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
また、アーキタイプではスタッフ1人1人が「AI脳を持ったクリエイター集団」としてこれからもクライアントへのサービス向上を図り、事業会社の生成AI利活用の支援及び、業界全体の生成AIリテラシー向上に貢献していきます。
生成AIの活用方法がわからない、セミナーを開催してほしい、業務を効率化させたいなどご相談ベースからお気軽にお問い合わせください!
ボタンから募集中の求人一覧ページに移動できます。



