Metaの新音声翻訳AI、多言語間の直接翻訳で通訳者レベルの精度に

テクノロジー大手Metaが、101言語に対応する新しいAI音声翻訳システム「SEAMLESSM4T」を発表しました。
従来の翻訳システムと異なり、音声から音声へ直接翻訳できる機能を実現し、人間の通訳者と同等の速度と精度を達成。さらに、この技術とデータを一般公開することで、AI研究の発展にも貢献しています。

ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!

ボタンから募集中の求人一覧ページに移動できます。

従来の常識を覆すAI音声翻訳の仕組み

音声翻訳の世界で長年の課題とされてきたのが、翻訳の正確性とスピードのバランスです。これまでの音声翻訳システムは音声をテキストに変換し、そのテキストを翻訳した後、再び音声に変換するという3段階のプロセスを踏んでいました。このため、処理に時間がかかり、また変換の度に誤りが生じる可能性がありました。
Metaが開発したSEAMLESSM4Tは、この3段階のプロセスを一新しました。音声を直接別の言語の音声に変換する方式を採用することで、変換の各段階で発生していた遅延や誤差を大幅に減らすことに成功。実際の評価では、既存の最新モデルと比較して23%高い精度を示し、人間の通訳者とほぼ同等の速度で翻訳を行うことができます。
このシステムの特徴的な機能は、英語以外の言語間での直接翻訳です。現在主流の翻訳システムは、まず英語に翻訳してから目的の言語に変換するという手順を踏むことが一般的でしたが、SEAMLESSM4Tは101の言語を入力として受け付け、そのうち36の言語に直接翻訳することが可能です。さらに、背景に雑音がある場合や、複数の話者が存在する状況でも安定した翻訳性能を発揮します。ただし、強いアクセントのある発話に対しては、人間の通訳者と同様に精度が低下することが確認されています。このような高い性能を実現できた背景には、独自のデータ収集と学習方法があります。

データ収集から学習までの独自アプローチ

AIの性能向上には質の高い大規模なデータが不可欠ですが、特に音声翻訳の分野では、異なる言語間で意味が対応する音声データの収集が重要です。英語やフランス語以外の言語では、十分な量の学習データを集めることが難しい状況でした。この課題を解決するため、Metaは「パラレルデータマイニング」という手法を採用しました。これは、インターネット上にある音声とその字幕のペアを自動的に収集する技術です。例えば、ある言語の音声に対して別の言語の字幕がついている動画コンテンツから、学習に使えるデータを集めていきます。この方法により約44.3万時間分の音声データとそれに対応するテキストを収集し、最終的に約30,000組の音声-テキストのペアを作成することができました。
システムの学習は2段階で行われました。最初に450万時間におよぶ多言語音声データを使用して基礎的な学習を行い、次に収集した音声-テキストのペアを使用して実際の翻訳タスクに特化した学習を進めました。この段階的な学習により、少ないデータしかない言語でも翻訳の基礎となる部分を共有できるようになりました。さらにMetaは、この技術とデータを非商用利用向けに公開することを決定。これにより、大規模な計算資源を持たない研究者でも、このモデルを基にして特定の言語や用途に特化した翻訳システムの開発が可能になりました。これは同社が以前公開したAI学習用ライブラリ「PyTorch」がOpenAIやTeslaなど多くの企業や研究者に活用された例に続くものですが、実用化に向けてはまだいくつかの課題が残されています。

実用化に向けた課題と対策

音声翻訳の実用化において、最も重要な課題の一つが言語が持つ文化的な背景やニュアンスの処理です。例えば、性別を区別しない言語から性別のある言語に翻訳する際、「教師」や「医師」といった職業をどちらの性別として訳すべきかという問題が生じます。特に慎重な対応が必要なのが専門性の高い分野での使用です。医療現場では投薬の指示、法廷では証言の内容など、わずかな誤訳が重大な結果を招く可能性があります。コーネル大学の研究者によると、この課題は特に珍しい方言を使用する人々により大きな影響を与える可能性が指摘されています。
Metaはこれらの課題に対し、具体的な対策を講じています。性別に関するバイアスや不適切な表現については、AIモデルの学習過程で検出と修正を行い、また広く使用されていない言語の翻訳精度向上のため、言語の一般的な特徴を事前に学習させる手法を採用しています。
現在のシステムは世界で使用されている約7,000の言語のうち、101の言語の入力に対応し、36言語への出力が可能です。まだすべての言語間で同等の翻訳品質は保証されていませんが、文化的な文脈や専門分野での正確性の確保に向けた取り組みは着実に進められています。

まとめ

いかがだったでしょうか?
AIによる音声翻訳の新たな可能性を示したSEAMLESSM4Tは、独自の技術とデータ収集手法により、多言語間での直接翻訳を実現しました。解決すべき課題は残されているものの、技術とデータの一般公開により、さまざまな研究者が開発に参加できる環境が整いました。音声翻訳の未来を大きく変える可能性を秘めた技術として、今後の展開が注目されています。

参考記事:Meta’s New AI Translates Speech in Real Time Across More Than 100 Languages

ARCHETYP Staffingではクリエイターを募集しています

私たちはお客様の課題を解決するweb制作会社です。現在webサイト制作以外にも、動画編集者や生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
また、アーキタイプではスタッフ1人1人が「AI脳を持ったクリエイター集団」としてこれからもクライアントへのサービス向上を図り、事業会社の生成AI利活用の支援及び、業界全体の生成AIリテラシー向上に貢献していきます。
生成AIの活用方法がわからない、セミナーを開催してほしい、業務を効率化させたいなどご相談ベースからお気軽にお問い合わせください!

ボタンから募集中の求人一覧ページに移動できます。

クリエイター登録して、案件情報を受け取る!

クリエイター登録