
OpenAIが待望のGPT-4oネイティブ画像生成機能をChatGPTに実装しました。従来のDALL-E 3とは異なり、テキストと画像を同時に理解するマルチモーダルモデルの特性を活かした画像生成が可能になっています。高精度なテキスト表現と自然な画像表現で、ユーザーからは「狂気的」と評される品質を実現しています。
ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
ボタンから募集中の求人一覧ページに移動できます。
GPT-4o画像生成の特徴と従来モデルとの違い

GPT-4o画像生成機能の最大の特徴は、テキスト処理と画像生成が単一のモデル内で完結している点です。従来のDALL-E 3はテキストプロンプトからピクセルのノイズを除去して画像を再構成する拡散トランスフォーマーモデルでしたが、GPT-4oはテキスト、コード、画像を同時に処理するマルチモーダルモデルとして設計されています。
この統合アプローチにより、GPT-4oは画像内のテキスト要素を特に正確に表現できるようになりました。看板やメニュー、インフォグラフィックなどのテキストを含む画像生成で顕著な改善が見られるだけでなく、一度に10〜20個のオブジェクトを適切に配置する能力も強化され、複雑な構図でも要素間の位置関係を適切に維持できるようになっています。さらに魅力的なのは、会話履歴を活用した画像の段階的な改善機能です。後ほど筆者が作成過程を紹介いたしますが、ユーザーは対話を通じて画像を洗練させることができ、思い描いた通りの画像に近づけるプロセスがより直感的になっています。独立AIコンサルタントのAllie K. Miller氏はこの機能を「テキスト生成の大きな飛躍」と評価し、「最高の」AI画像生成モデルだと称賛しています。
この新機能はOpenAI社長のGreg Brockman氏が2024年5月に既にプレビューしていたものの、公開は今回まで延期されていました。現在はChatGPTのPlus、Pro、Team、そして無料利用層で利用可能で、近い将来Enterprise、Edu、そしてAPI経由でも提供される予定です。ビジネスユーザーにとって、この機能が自社のワークフローにどのように組み込めるか、今から検討する価値があるでしょう。
実用例と限界点

GPT-4oの画像生成機能は、その強力なマルチモーダル性能を様々な分野で活かせるようになっています。デザイン・ブランディング分野ではロゴや広告素材の作成が可能で、特に正確なテキスト配置を持つビジュアル素材を短時間で生成できる点が魅力です。教育分野では複雑な概念を伝える図表やインフォグラフィックの作成、ゲーム開発ではキャラクターデザインの一貫性維持、マーケティングではSNS用画像やイラスト制作などに役立ちます。
OpenAIによると、GPT-4oは写真風からスケッチ風まで様々なスタイルに対応しており、ユーザーはブランドイメージやプロジェクトの要求に合わせた視覚表現を選択できます。このような柔軟性は、クリエイティブな表現の幅を大きく広げるでしょう。ただし現時点での限界も把握しておく必要があります。大きなサイズの画像生成時に画像の端が不自然に切れてしまう問題、日本語などの非ラテン文字の精度の問題、小さなテキストの可読性低下などがあります。また、画像の特定部分編集時に他の要素にも影響が及ぶ点は、細かな調整が必要な専門的なデザイン作業では考慮すべき制約となります。
安全面では、すべての生成画像にC2PAメタデータが含まれAI生成と検証可能にし、有害コンテンツ防止の保護措置も実装されています。ただし、Sam Altman氏がこの機能を「創造的自由の新たな高水準」と表現する一方で、トレーニングデータの詳細は明らかにされておらず、著作権問題への懸念も残されています。今後ビジネスでの活用を進める際は、この点も十分考慮していく必要があるでしょう。
実際に試してみた

では、実際のクオリティはどうなのか、早速筆者が試してみました。
以下画像のように、ブラウザ版のChat GPTであれば・・・マークを選択すると「画像を生成する」というボタンが表示されますので、そちらから画像生成が可能になります。

画像の作成手順は他の画像生成AIと比較すると簡単であり、テキスト欄に日本語で、生成したい画像の指示を与えると希望の画像が生成されます。試しに筆者が作成したプロンプトと画像をいくつか紹介していきます。
プロンプト:日本代表のユニフォームを着たうさぎが、ブラジルのユニフォームを着たたぬきを相手にゴールを決める

プロンプト:上記の画像をもっとリアルテイストにして

プロンプト:質感はいい感じ。構図はPKのような構図で、たぬきはキーパー、キッカーがうさぎ

プロンプト:うさぎの構図は蹴り終わった後の後ろ姿。たぬきはゴールに入りそうなボールに向かって飛びつこうとしている。

プロンプト:構図は良くなりました。あとはもっとうさぎに躍動感を持たせ、全体的に迫力を持たせてください。また、舞台はワールドカップ決勝戦です。

プロンプト:ボールが2つあります。うさぎは完璧です。あとはキーパーのたぬきがうさぎのシュートの方向を向いて構えてください。

上記6つの画像からも分かる通り、日本語でプロンプトを入力しても、高クオリティな画像が生成されるため、日本語の指示理解度は他の画像生成AIと比較しても高いと感じます。
まだ試していない方はChatGPTにログインして、ぜひ試してみてください!
まとめ

いかがだったでしょうか?
ChatGPTに追加されたGPT-4oの画像生成機能は、テキストと画像を同時に理解するマルチモーダルAIの強みを活かした機能です。会話を通じて画像を洗練させられる直感的な操作性と、高精度なテキスト表現が魅力です。技術的課題は残るものの、アーティストの権利や生成コンテンツの透明性についての議論を促しながら、創造的な表現の可能性を広げるツールとして期待されます。
ARCHETYP Staffingではクリエイターを募集しています!
私たちはお客様の課題を解決するweb制作会社です。現在webサイト制作以外にも、動画編集者や生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
また、アーキタイプではスタッフ1人1人が「AI脳を持ったクリエイター集団」としてこれからもクライアントへのサービス向上を図り、事業会社の生成AI利活用の支援及び、業界全体の生成AIリテラシー向上に貢献していきます。
生成AIの活用方法がわからない、セミナーを開催してほしい、業務を効率化させたいなどご相談ベースからお気軽にお問い合わせください!
ボタンから募集中の求人一覧ページに移動できます。