センシティブ質問に答えるAI!CTGTが開発した新アプローチ

AIの世界には「答えられない質問」があります。DeepSeekなどの大規模言語モデルに組み込まれたバイアスや検閲によって、ユーザーが求める回答が得られないケースが存在します。企業リスク管理スタートアップCTGTが開発した新手法は、これらの制限を取り除き、AIモデルの可能性を引き出すものとして注目を集めています。

ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!

ボタンから募集中の求人一覧ページに移動できます。

DeepSeekモデルの問題点とCTGTの新手法

中国発の大規模言語モデル「DeepSeek」が米国政界で波紋を広げています。米国議会の特別委員会は最近、DeepSeekを「我が国の安全保障に対する深刻な脅威」と呼ぶ報告書を発表し、輸出規制の拡大や執行強化など、中国のAIモデルがもたらすリスクに対処するための政策提言を行いました。
この議論の背景には、大規模言語モデル(LLM)の持つ制限とバイアスの問題があります。LLMには開発時の学習データや訓練方法によって、特定の内容に対する回答制限が組み込まれています。これらの制限は安全性確保のために設けられているものの、時に必要な情報までも制限してしまう場合があります。センシティブなトピックについて質問すると、モデルが過度に慎重な回答をしたり、回答そのものを拒否したりすることがあります。この問題に対し、企業リスク管理スタートアップのCTGT社は新たなアプローチを開発しました。CTGT社の共同創業者であるCyril Gorlla氏とTrevor Tuttle氏によれば、彼らのフレームワークは「検閲に責任を持つ内部機能を直接特定し、修正する」方法を採用しています。
この手法は3つの重要なステップで構成されています。まず「特徴の識別」でモデル内の検閲関連部分を特定し、次に「特徴の分離と特性評価」でその機能を分析、最後に「動的特徴修正」によってモデルの推論パイプラインに調整メカニズムを組み込みます。これにより、モデルの本質的な能力を損なうことなく検閲機能を制御できるようになります。
CTGT社の実験結果は目覚ましいものでした。元のDeepSeek-R1-Distill-Llama-70Bモデルがセンシティブな質問100問のうち回答できたのはわずか32%でしたが、彼らの手法を適用したモデルでは回答率が96%に向上しました。残りの4%については、非常に露骨な内容に関する質問だったと説明されています。特筆すべきは、この手法が当初DeepSeekモデル向けに開発されたものの、Llamaなどの他の大規模言語モデルでも同様に有効であることが確認されている点です。CTGTによれば、この技術はニューラルネットワークの基礎レベルで機能するため、様々なモデルで効果を発揮するとのこと。この汎用性の高さが、AI業界に与える影響は小さくないでしょう。
では、この技術の具体的な仕組みとは一体どのようなものなのでしょうか。

新手法の仕組みとビジネス応用への展望

CTGTが開発した手法の核心は、大規模言語モデル内部の「潜在変数」を特定し操作することにあります。Gorlla氏とTuttle氏の論文によれば、これらの潜在変数はニューロンや隠れ状態における特定の方向性として存在し、「検閲トリガー」や「有害な感情」といった概念に対応しています。
具体的な仕組みを見ていきましょう。研究者たちは天安門広場についての詳細情報を求めたり、ファイアウォール回避のヒントをリクエストしたりするなど、検閲を引き起こす可能性のあるプロンプトを作成します。これらに対するモデルの応答パターンを分析することで、検閲に関連するベクトル(方向性)を特定していきます。
特定されたベクトルを分離した後、研究者たちはその特徴が制御している具体的な行動(慎重に回答する、回答を拒否するなど)を分析します。この理解をもとに、モデルの推論過程に介入するメカニズムを組み込み、特徴の活性化度合いを調整できるようにします。
この手法が従来の微調整と根本的に異なるのは、モデルの重みを最適化したり新しい例文で訓練したりしない点です。CTGTの論文によれば、「変更が即座に次のトークン生成に反映される」即時性と、「重みが永続的に変更されないことによる可逆性と適応性」という大きな利点があります。つまり、状況に応じて検閲機能をオン/オフしたり、程度を調整したりできる柔軟性を備えています。
ビジネス応用の観点では、この技術は大きな可能性を秘めています。Gorlla氏は「CTGTは企業が、各ユースケースに対してモデルを微調整するために何百万ドルも費やす必要なく、そのユースケースに適応するAIを展開することを可能にします」と述べています。特に、AIの誤動作が重大な結果をもたらす可能性のあるセキュリティ、金融、医療などの高リスク領域では、この技術の価値が高まるでしょう。
「何が安全か」「何がバイアスを持つか」「何が検閲されるべきか」の判断は難しい問題です。CTGTの手法が広く採用されれば、ユーザーがモデルの制御機能を自分で調整できるようになり、それぞれの用途や価値観に合わせたAIの活用が可能になると考えられます。AI開発の世界は今、ユーザー中心の新たなステージに移行しつつあるのかもしれません。

まとめ

いかがだったでしょうか?
CTGTが開発した新手法は、大規模言語モデルに組み込まれた制限を取り除き、より多様な質問に回答できる可能性を示しています。モデルの安全性を維持しながら、不必要な検閲を除去できるこのアプローチは、AIの可能性を最大限に引き出す新たな道を切り開いています。企業から個人まで、多様なユーザーのニーズに応えるカスタマイズ可能なAIの時代が、私たちの目の前に広がっています。

ARCHETYP Staffingではクリエイターを募集しています

私たちはお客様の課題を解決するweb制作会社です。現在webサイト制作以外にも、動画編集者や生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
また、アーキタイプではスタッフ1人1人が「AI脳を持ったクリエイター集団」としてこれからもクライアントへのサービス向上を図り、事業会社の生成AI利活用の支援及び、業界全体の生成AIリテラシー向上に貢献していきます。
生成AIの活用方法がわからない、セミナーを開催してほしい、業務を効率化させたいなどご相談ベースからお気軽にお問い合わせください!

ボタンから募集中の求人一覧ページに移動できます。

クリエイター登録して、案件情報を受け取る!

クリエイター登録