AI画像生成「Qwen-Image」文字描画技術の実力と課題

AI画像生成の世界で、長らく「不可能」とされてきた壁がついに崩れようとしています。文字がぼやけ、意図しない形に歪む従来の限界を、Alibaba発の新モデルQwen-Imageが塗り替えました。映画ポスターから店舗看板まで、プロレベルの仕上がりを誰でも手に入れられる時代の幕開けです。

ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!

ボタンから募集中の求人一覧ページに移動できます。

「読めるテキスト」という当たり前を実現した技術

「AIに文字を描かせると、なぜかいつも読めない」——これは、AI画像生成ツールを使ったことがある人なら誰もが経験する悩みでした。Midjourneyをはじめとする既存のツールは美しい風景や人物は生成できても、文字となると途端に苦戦し、看板の文字が歪んだり、ポスターのタイトルが判読不可能になったりしてきました。実際、筆者はMidjourneyを愛用しているが、テキストを入れることができない問題に常に苦心しております。
Qwen-Imageが注目される理由は、まさにこの「テキスト描画」という課題を正面から解決したことにあります。英語と中国語という性質の異なる二つの言語を正確に描画できるだけでなく、複数行にわたる複雑なレイアウトや段落レベルでの文章構成まで対応可能です。
この精度を実現するため、Alibabaの研究チームは段階的学習手法を採用しました。モデルは最初にシンプルなキャプション付き画像から学習を始め、徐々により複雑なテキストレイアウトや多言語の組み合わせへと学習範囲を広げていきます。訓練データには数十億の画像-テキストペアが使用され、自然画像55%、デザイン系27%、人物13%、合成データ5%という構成で学習が行われています。技術的には、文脈理解を担うQwen2.5-VL、高解像度処理のVAEエンコーダー・デコーダー、画像とテキストを同時学習するMMDiTという3つのコンポーネントが連携し、特にMSRoPE(Multimodal Scalable Rotary Positional Encoding)により文字と画像の空間的配置がより正確になりました。
実際の活用例では、映画ポスターのタイトルやキャスト名、プレゼンテーション用スライドの階層構造、店舗シーンの看板やメニューボード、多言語対応のマーケティング資料まで幅広く対応可能です。複数の公開ベンチマークにおいて、GPT Image 1やFLUX.1 Kontextなどの既存モデルと同等か、それを上回る結果を示し、AI Arenaリーダーボードでは総合3位、オープンソースモデルでは1位を獲得しています。
しかし、実際のテストでは期待を下回る結果も報告されており、プロンプト理解やテキストの忠実性においてMidjourneyと比べて明らかな優位性が確認できず、ベンチマーク上の高評価と実際の使用感にはまだギャップが存在します。それでも、この技術的挑戦が切り開いた道筋は確実に新しい時代への扉を開いています。

オープンソースがもたらす可能性と課題

Qwen-Imageの真の破壊力は、Apache 2.0ライセンスによるオープンソース公開にあります。個人から企業まで誰でも無料で利用でき、商用利用や改変も自由に行える環境が整いました。
現在主流のMidjourneyとの違いは歴然としています。Midjourneyが限定的な無料生成の後、継続利用に月額25ドルからの課金を求めるのに対し、Qwen-Imageはサーバーコストを除けば追加費用なしで利用できます。手軽に試したい場合はQwen Chatウェブサイトで「画像生成」モードを選択するだけ、本格的な活用ならHugging FaceModelScopeGitHubなど複数のプラットフォームで自由にカスタマイズできます。
しかし、企業での本格導入には避けて通れない課題があります。最も重要な問題は、モデルの訓練に使用されたデータの詳細が公開されていないこと。数十億の画像-テキストペアの大まかな分類は示されているものの、具体的なデータソースや著作権の処理方法については秘匿されており、企業の法務担当者にとっては重要な懸念材料となっています。さらに重要なのが法的保護の欠如です。Adobe FireflyやOpenAIのサービスが提供するような、ユーザーが著作権侵害で訴えられた場合の法的サポートは一切ありません。企業が商用利用を検討する場合、このリスクを完全に自社で負う必要があります。
それでも、オープンソースならではの魅力は決して小さくありません。コードや重みが完全に公開されているため、企業は内部でモデルの動作を徹底的に検証し、必要に応じて独自の改良を加えることができます。この透明性と自由度こそが、従来のクローズドソース製品では決して得られない価値であり、AI画像生成の民主化を推し進める原動力となっていくでしょう。利点とリスクを天秤にかけ、自社の用途と法的要件を慎重に検討した上で、この新たな選択肢をどう活用するかが問われています。

まとめ

いかがだったでしょうか?
Qwen-Imageの登場は、AI画像生成における「文字が読めない」という根本的な問題に対する画期的な解決策を世界に示しました。高精度なテキスト描画技術と複数のベンチマークで証明された優秀な性能、そしてオープンソースによる圧倒的なコスト優位性を兼ね備えています。一方で、企業利用における著作権や法的保護の課題、実際の使用感でのギャップなど、解決すべき問題も浮き彫りになりました。しかし、AI画像生成の新たな地平を切り開いたその功績は計り知れず、この技術がどのような進化を遂げ、私たちの創作活動をどう変えていくのか、目が離せない時代が始まったのです。

参考資料:Qwen-Image is a powerful, open source new AI image generator with support for embedded text in English & Chinese

ARCHETYP Staffingではクリエイターを募集しています

私たちはお客様の課題を解決するweb制作会社です。現在webサイト制作以外にも、動画編集者や生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
また、アーキタイプではスタッフ1人1人が「AI脳を持ったクリエイター集団」としてこれからもクライアントへのサービス向上を図り、事業会社の生成AI利活用の支援及び、業界全体の生成AIリテラシー向上に貢献していきます。
生成AIの活用方法がわからない、セミナーを開催してほしい、業務を効率化させたいなどご相談ベースからお気軽にお問い合わせください!

ボタンから募集中の求人一覧ページに移動できます。

クリエイター登録して、案件情報を受け取る!

クリエイター登録