HumeのEVI3がOpenAI上回る！音声AIの新基準

ニューヨークを拠点とするAIスタートアップHumeが発表した音声AI「EVI 3」が、業界に大きな注目を集めています。この技術は、ユーザーとの会話だけで数秒のうちにオリジナル音声を生成し、感情を理解して応答します。OpenAIのGPT-4oを全項目で上回る評価を獲得したEVI 3の実力を詳しく見ていきましょう。

ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください！

ボタンから募集中の求人一覧ページに移動できます。

現在募集中の求人はこちら

会話するだけで生まれる「あなただけの声」- EVI 3の核心技術

従来の音声アシスタントとは根本的に異なるアプローチで、HumeのEVI 3は音声AI分野に新たな可能性をもたらしています。
EVI 3の最大の特徴は、音声対音声（voice-to-voice）での直接的なやり取りにあります。ユーザーがモデルに話しかけるだけで、その場で独自のカスタム音声を生成できるのです。実際の使用例では、「温かみと自信を兼ね備えた男性的なトーン」という要求に対して、数秒でその特徴を反映した音声が作成され、従来の音声アシスタントとの会話と比較して、より自然で簡単に感じられたと報告されています。
Humeが「共感性」と呼ぶ技術は、単なる音声認識を超えた機能を持ちます。これは、ユーザーがモデルの感情理解力と、トーンや言葉選びでそれに応答する能力をどう感じるかを指しており、システムは話者のピッチ、韻律（音の高低やリズム）、間、音声の爆発的な表現を細かく分析することで、より人間らしい会話を実現しています。
カスタマイズの幅も驚くべきものです。ユーザーは正確なパーソナリティ特性、音声品質、感情的なトーン、会話トピックを指定でき、温かく共感的なガイドから風変わりでいたずら好きなナレーターまで対応します。極端な例として「フランス語のアクセントで台所からチーズを盗む計画について緊急にささやく甲高いネズミ」といった具体的なリクエストにも応えられるのです。
AppleのSiriやAmazonのAlexaといった既存の音声アシスタントが、主にスクリプト化されたテキストベースのやり取りに依存しているのに対し、EVI 3は人間の自然な話し方そのものに適応します。カスタマーサポートシステムやヘルスコーチング、没入型ストーリーテリング、バーチャルコンパニオンシップ、オーディオブック、ゲームでのコンテンツ制作まで、幅広い用途での活用が想定されており、現在は個人ユーザーがHumeのWebサイトでのライブデモやiOSアプリを通じて体験できます。
では、この革新的な技術の実力は、他の音声AIと比較してどの程度のものなのでしょうか。

OpenAIを超えた実力 – 1,720人が証明した圧倒的優位性

Humeが実施した1,720人を対象とした独自テストの結果は、まさに業界の常識を覆すものでした。
EVI 3は、OpenAIのGPT-4oとの比較において、評価された全カテゴリーで優位に立ったのです。具体的には、自然さ、表現力、共感性、割り込み処理、応答速度、音質、リクエストに応じた音声感情やスタイル調整、リクエストに応じた感情理解の8項目すべてでユーザーから高い評価を獲得しています。
競合他社との比較でも興味深い結果が出ており、GoogleのGeminiモデルファミリーに対しても通常は優位性を示し、元Oculusの共同創設者Brendan Iribe氏が手がける新しいオープンソースAIモデル企業Sesameとの比較でも良好な結果を記録しました。技術的な優位性として注目すべきは、約300ミリ秒という低遅延の実現です。これはリアルタイムでの会話において重要な要素となっており、多言語サポートについては現在英語とスペイン語に対応し、今後さらなる言語の追加が予定されています。カスタム音声については事実上無制限に作成可能という点も魅力的です。
主要機能として、韻律生成と調整機能付きの表現豊かなテキスト読み上げ、会話の自然な流れを可能にする割り込み可能性、ユーザーがリアルタイムで話し方を調整できる会話中の音声カスタマイズ機能が挙げられます。
一方で、ElevenLabsなどの競合他社が提供している音声クローニング機能については、現在EVI 3では利用できません。しかし、HumeのOctaveテキスト読み上げモデルには「近日公開」として音声クローニング機能の追加が予告されており、わずか5秒の音声から音声を複製できる技術の開発が進んでいると報告されています。Humeは、この機能を広く提供する前に、セーフガードと倫理的配慮を優先する姿勢を明確にしており、現時点では代わりに柔軟な音声カスタマイズに重点を置いた開発を続けています。
このような技術的優位性を背景に、Humeはどのような戦略でEVI 3の市場展開を図ろうとしているのでしょうか。

実用化への具体的な道筋 – 料金体系から見る市場戦略

HumeのEVI 3における料金戦略は、まさに幅広いユーザー層への門戸を開く設計となっています。
EVI 3のAPI料金については現在「TBA（発表予定）」とされており、開発者向けアクセスは「今後数週間以内」に提供される予定です。同社の既存サービスから価格傾向を推測すると、前世代のEVI 2は1分あたり0.072ドルで、EVI 1から30%の価格削減を実現しており、技術向上と同時にコスト効率も改善している様子がうかがえます。
テキスト読み上げサービスOctave TTSでは、無料プランから月額900ドルのビジネスプランまで、実に7段階の詳細な料金体系が用意されています。無料プランは10,000文字（約10分の音声）と無制限のカスタム音声を提供し、月額10ドルのクリエイタープランで100,000文字、月額50ドルのプロプランで500,000文字と段階的に設定されており、使用量ベースの柔軟な課金システムも特徴的です。
開発者向けには、20ドルの無料クレジットと前払いコミットメントなしのPay as You Goプランも用意されており、初期投資を抑えたい開発者の参入障壁を下げる配慮が見られます。
Humeの背景には、Google DeepMindの元研究者Alan Cowen氏の明確なビジョンがあります。同氏は2021年に同社を設立し、「感情的知性には、行動から意図や好みを推測する能力が含まれる。これこそがAIインターフェースが達成しようとしていることの核心だ」と語っています。同社は世界中の数十万人の参加者から得られた広範なデータセットでモデルを訓練し、2024年初頭のEVI 2発表、2025年2月のOctaveデビューと着実な製品展開を続けています。
API提供開始により、開発者はEVI 3を自社のカスタマーサービスシステム、クリエイティブプロジェクト、バーチャルアシスタントに組み込むことが可能になり、音声AIの新時代の幕開けを予感させる展開となっています。

まとめ

いかがだったでしょうか？
HumeのEVI 3は、音声AIの分野において新しい基準を打ち立てる可能性を秘めた技術です。OpenAIのGPT-4oを全項目で上回る評価結果と、会話だけでカスタム音声を生成する独自のアプローチは、従来の音声アシスタントとは一線を画します。無料プランから企業向けまでの幅広い料金体系により、様々な規模のユーザーが新しい音声体験を試すことができるでしょう。API提供開始により、今後どのような新しいサービスや体験が生まれるのか、その展開が注目されます。

ARCHETYP Staffingではクリエイターを募集しています！

私たちはお客様の課題を解決するweb制作会社です。現在webサイト制作以外にも、動画編集者や生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください！
また、アーキタイプではスタッフ１人１人が「AI脳を持ったクリエイター集団」としてこれからもクライアントへのサービス向上を図り、事業会社の生成AI利活用の支援及び、業界全体の生成AIリテラシー向上に貢献していきます。
生成AIの活用方法がわからない、セミナーを開催してほしい、業務を効率化させたいなどご相談ベースからお気軽にお問い合わせください！