
音声合成技術に新たな転機が訪れました。Nari Labsという2人だけのスタートアップが開発したモデル「Dia」が登場し、ElevenLabsやOpenAIなど大手の製品に対抗する存在として注目を集めています。資金ゼロから誕生したこのオープンソースモデルは、自然な会話と感情表現で既存サービスを上回る可能性を秘めています。
ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
ボタンから募集中の求人一覧ページに移動できます。
小さな開発チームが生み出した驚異のモデル

Nari Labsは2人だけで構成される小さなスタートアップです。彼らが開発した「Dia」は16億パラメータのモデルながら、大手企業の製品と肩を並べる性能を実現しました。
共同開発者のToby Kim氏は「最初から私たちはAIの専門家ではなかった」と語っています。開発の原動力はGoogleのNotebookLMのポッドキャスト機能への感動でした。「より多くの声のコントロール、より自由なスクリプトを望んだ」という彼の言葉通り、既存サービスでは満足できず、自ら理想の音声モデルを作り出す道を選んだのです。
「資金ゼロ」で開発されたDiaは、Google Research Cloudを通じてTPUチップを利用できたことが成功の鍵となりました。現在、そのコードとウェイトはHugging FaceとGithubで誰でも無料で利用できるようになっています。
技術面でDiaの最大の魅力は、感情表現や話者タグ、非言語的な音声キューを自然に表現できる点にあります。[S1]や[S2]のタグで話者を区別し、(laughs)や(coughs)などの指示で実際の笑い声や咳も自然に再現できるのです。一般的な音声合成では難しいとされるこれらの表現を、Diaはプレーンテキストからシームレスに生成できます。
現在は英語のみに対応していますが、特定の話者の声に縛られない柔軟性も持ち合わせています。ユーザーが音声サンプルをアップロードすれば、その特徴を反映した音声生成も可能です。これだけの機能を持ちながら、誰でも自由に使えるオープンソースとして公開されているのは、まさに音声技術の民主化への一歩と言えるでしょう。しかし、Diaの真価はその性能にあります。実際に業界の大手サービスと比べて、どれほどの実力を持っているのでしょうか。
業界最高峰の製品を超える実力

Nari Labsは自社ウェブサイトで、DiaとElevenLabs Studio、Oculus VR共同開発者のBrendan Iribe氏が手がけたSesame CSM-1Bとの比較サンプルを公開しています。その結果は、多くの点でDiaが優位性を示すものでした。
特に際立つのは非言語表現の処理能力です。「(laughs)」というタグがスクリプトにある場合、Diaは実際の自然な笑い声を生成するのに対し、競合製品は「haha」という言葉を発するだけにとどまります。この違いは、文字通り聞けば一目瞭然です。
さらに感情表現においても、Diaは大きな強みを見せています。緊急事態を描いた劇的なシーンのテストでは、Diaが話者の緊張感やストレスを効果的に表現する一方、他のモデルでは感情の起伏が平坦になったり、会話のペースが不自然になったりする傾向が見られました。
Nari Labsで公開されている、火事に遭遇したシーンを聞けば、第一声から違いを感じられると思います。
また、咳やくしゃみ、笑いだけで構成される非言語スクリプトも、Diaは正確に処理できます。これは他のモデルではほとんど実現できていない機能です。さらにリズムが複雑なラップ歌詞などのテストでも、Diaはテンポを維持した流暢な表現を実現し、音楽的な要素も含めた高度な音声生成が可能なことを示しています。
音声サンプルを元にした声質の継続性も注目点です。会話調の音声クリップをシードとして使用した実験では、Diaがサンプルから声の特徴を抽出し、新しいテキストにもその特徴を一貫して維持できることが証明されています。
技術的な面では、DiaはPyTorch 2.0以上とCUDA 12.6で動作し、約10GBのVRAM(GPUのビデオメモリ、グラフィック処理に使われる専用メモリ) を必要とします。NVIDIA A4000などのGPUでの処理速度は1秒あたり約40トークンですが、将来的にはCPUサポートと量子化バージョンの提供も計画されており、より幅広い環境での利用が可能になる見込みです。
商用利用もApache 2.0ライセンスで自由に行えますが、個人になりすましや誤情報拡散などの悪用は明確に禁止されています。Nari Labsはまた、開発者でない一般ユーザー向けの消費者版も開発中で、生成された会話を簡単に再ミックスしたり共有したりできるようになる予定です。
これらの技術的優位性と使いやすさ、そして商用利用の自由を兼ね備えたDiaは、音声合成の世界に新たな標準をもたらす可能性を秘めています。大企業の独占状態だった高品質音声合成の世界に、小さなチームが新しい風を吹き込んだのです。
まとめ

いかがだったでしょうか?
Nari Labsの「Dia」は、音声合成技術の分野に新たな可能性をもたらしています。わずか2人の開発者が資金ゼロから生み出したこのオープンソースモデルは、大手企業の製品と比較しても遜色ない、むしろ一部の面では優れた性能を発揮しています。このような技術の公開は、音声生成の活用範囲を広げるとともに、コンテンツ制作やコミュニケーションの形を変える可能性を秘めています。Diaが今後どのように発展し、どのような用途で活用されていくのか、注目していきたいところです。
ARCHETYP Staffingではクリエイターを募集しています!
私たちはお客様の課題を解決するweb制作会社です。現在webサイト制作以外にも、動画編集者や生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
また、アーキタイプではスタッフ1人1人が「AI脳を持ったクリエイター集団」としてこれからもクライアントへのサービス向上を図り、事業会社の生成AI利活用の支援及び、業界全体の生成AIリテラシー向上に貢献していきます。
生成AIの活用方法がわからない、セミナーを開催してほしい、業務を効率化させたいなどご相談ベースからお気軽にお問い合わせください!
ボタンから募集中の求人一覧ページに移動できます。