人間と見分けがつかない音声AI!Rimeが実現した自然な会話技術

電話をかけたとき、相手が人間なのかAIなのか判別できない時代が到来しています。スタートアップRimeが開発したArcana音声合成技術は、性別や年齢、出身地まで指定できる多様な声を生成します。Domino’sやWingstopで導入され、売上を15%向上させた実績を持つ技術。一体何が従来の音声AIと違うのでしょうか。

ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!

ボタンから募集中の求人一覧ページに移動できます。

「台本なし」の自然な会話データで訓練された音声AI

従来の音声AIは、声優が読み上げた台本や、オーディオブックから音声データを収集していました。しかし、Rimeは全く異なるアプローチを選択します。
同社は、サンフランシスコの地下に録音スタジオを設置し、数ヶ月をかけて一般の人々を募集しました。募集方法はCraigslistへの投稿や口コミ、さらには創設者の友人や家族まで巻き込んだといいます。重要なのは、彼らが録音したのは台本を読む声ではなく、参加者同士の自然な雑談だったことです。この手法により、Rimeは他社では収集困難なデータを大量に蓄積できました。社会言語学的な要素を含む会話技法(階級、性別、地域などの社会的背景が言語に与える影響)、個人特有の話し方の癖である個人語法、そして言葉以外のコミュニケーション要素であるパラ言語的ニュアンスまで記録されています。具体的には、アクセントの微妙な違い、無意識に発する「えーと」や「あー」といったフィラー語、会話の間の取り方、特定の音節を強調する韻律的強勢パターン(イントネーション、タイミング、音節の強調)、さらには多言語話者が会話中に言語を切り替えるコードスイッチングまでが含まれます。
収集した音声データには、性別、年齢、方言、音声の感情、使用言語といった詳細なメタデータが付与されました。同社CEO兼共同創設者のクリフォード氏は「声優だけを使っていては決して個人的な響きには到達できない。私たちは本当に自然主義的なデータを収集するという非常に困難なことを行った」と説明しています。
この膨大な自然会話データが、どのように実用的な音声生成技術に変換されるのか。その仕組みこそが、Rimeの技術の核心部分です。

テキスト一行で多様な声を作り出す仕組み

前セクションで説明した自然な会話データを活用し、Rimeが開発したArcana TTSは驚くほどシンプルな操作性を実現しています。TTS(Text-to-Speech)とは、テキストを音声に変換する技術のことです。
Arcanaは3段階で訓練されました。まず、オープンソースの大規模言語モデルをバックボーンとして使用し、テキスト音声ペアの大グループで事前訓練を実施。次に、Rimeの大規模な独自データセットを使った教師あり微調整。最後に、データセット内で最も模範的と判断された話者に特化した微調整が行われています。利用者は「30歳のカリフォルニア在住女性で、ソフトウェアに興味がある人の声が欲しい」や「オーストラリア人男性の声をください」といった文章を入力するだけで、その条件に合致した音声を生成できます。クリフォード氏によると「それを行うたびに、異なる音声が得られる」といい、同じ条件でも毎回違う個性を持った声が作られます。すぐに使えるオプションとして、Rimeは8つの個性的なキャラクターを用意しています。Luna(女性、冷静だが興奮しやすい、Z世代の楽観主義者)、Orion(男性、年上、アフリカ系アメリカ人、陽気)、Ursa(男性、20歳、2000年代のエモ音楽に関する百科事典的知識)、Astra(女性、若く、目を見開いた)、Esther(女性、年上、中国系アメリカ人、愛情深い)などです。
技術的な仕組みとして、Arcanaはマルチモーダル自己回帰型モデルを採用しています。マルチモーダルとは複数の種類のデータ(この場合、テキストと音声)を同時に処理できる仕組みで、自己回帰型とは過去の情報を参考にして次の情報を予測する方式です。システムはまずテキストを音声の小さな部品(音声トークン)に分解し、それを音声圧縮技術(コーデック)を使って実際に聞ける音声に組み立てることで、従来より高速な音声生成を可能にしています。最初の音声が出力されるまでの時間は250ミリ秒、パブリッククラウド環境でのレイテンシは約400ミリ秒という速さを実現しています。
また、特筆すべきは感情表現の豊富さです。<laugh>というトークンを入力すると、小さなくすくす笑いから大きな爆笑まで、様々な種類の笑い声を生成します。明示的に訓練されていないにも関わらず、<chuckle>(くすくす笑い)、<sigh>(ため息)、<hum>(ハミング)といったトークンも正しく解釈できます。Rimeは技術論文で「文脈から感情を推論し、笑い、ため息、ハミング、聞こえる呼吸、微妙な口の音を作る。自然に『えーと』やその他の非流暢さを言う。要するに人間らしく振る舞う」と説明しています。
これほど高度な技術が、実際のビジネスの現場でどのような成果を上げているのでしょうか。

顧客体験を変えた「声の個性化」とビジネス成果

Rimeの技術は、既に月約1億回という驚異的な回数の電話通話で活用されています。クリフォード氏によると「Domino’sやWingstopに電話すると、80から90%の確率でRimeの音声を聞くことになる」といい、もはや私たちの日常に深く浸透しているのです。
最も注目すべきは、顧客の行動に起きた劇的な変化でしょう。Rimeの音声AIに切り替えた結果、電話をかけた人がAIボットと会話を続ける可能性が4倍に増加しました。従来であれば「人間のオペレーターに代わってください」と要求されることが多かったのに対し、クリフォード氏は「史上初めて、人々は『いえ、私を転送する必要はありません。あなたと話すことを完全に厭いません』と言っている」と説明しています。さらに興味深いのは、AIとの通話を終える際に20%の利用者が「ありがとう」と礼を述べることです。
企業側の成果も具体的な数値で表れています。ConverseNowのエンジニアリング・ディレクターであるカヤスタ氏は「Rimeに切り替えたとき、通話が成功する可能性に即座に二桁の改善が見られた」と証言し、不動産関連サービスを手がけるYlopoのCPOであるゲ・ジュエフェン氏は「市場のすべてのモデルをテストし、Rimeの音声が最高の率で顧客をコンバートすることを発見した」と報告しています。
Rimeは企業が最適な音声を見つけられるよう「パーソナライゼーション・ハーネス」というツールを開発しました。これは様々な音声でA/Bテストを実施し、成功指標に基づいて最高のパフォーマンスを示す音声を特定する分析ダッシュボードを提供する仕組みです。
技術的な課題も残されています。例えば、Domino’sの「Meatza ExtravaganZZa」のように、AIが過去に遭遇したことのない独特な商品名への対応です。クリフォード氏は「音声が個性的で自然で、リアルタイムで応答したとしても、企業の独特なニーズを処理できなければ失敗する」と指摘しています。
将来への展望として、Rimeは2025年末までにサービスの90%をオンプレミス環境に移行する予定です。より高速な応答を目指した技術改良が続けられており、音声AIの可能性は、まだ始まったばかりなのです。

まとめ

いかがだったでしょうか?
Rimeが開発したArcana音声合成技術は、従来の「人間らしい声」という概念を大きく塗り替えました。台本ではなく自然な会話から学習し、テキスト一行で多様な個性を生み出し、実際のビジネスで売上向上という成果を上げています。電話の向こうの声がAIかどうか判別できない時代は、もはや現実のものとなっています。今後、音声AIがどのような新たな可能性を切り拓いていくのか、その展開から目が離せません。

ARCHETYP Staffingではクリエイターを募集しています

私たちはお客様の課題を解決するweb制作会社です。現在webサイト制作以外にも、動画編集者や生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
また、アーキタイプではスタッフ1人1人が「AI脳を持ったクリエイター集団」としてこれからもクライアントへのサービス向上を図り、事業会社の生成AI利活用の支援及び、業界全体の生成AIリテラシー向上に貢献していきます。
生成AIの活用方法がわからない、セミナーを開催してほしい、業務を効率化させたいなどご相談ベースからお気軽にお問い合わせください!

ボタンから募集中の求人一覧ページに移動できます。

クリエイター登録して、案件情報を受け取る!

クリエイター登録