はじめに
Appleがテキストベースの指示で画像を編集するオープンソースのAIモデル「MLLM-Guided Image Editing(MGIE)」を発表しました。
カリフォルニア大学サンタバーバラ校との共同開発により誕生したMGIEは、テクノロジーとクリエイティビティの境界を押し広げています。
この記事では、MGIEの概要や技術の仕組み、実際の使用例など詳しく解説していきますので、ぜひ最後まで読んでみてください!
GitHubで公開されているオープンソースはこちら
論文はこちら
ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
ボタンから募集中の求人一覧ページに移動できます。
技術の仕組み
「MGIE」の背後にある技術は、マルチモーダル大規模言語モデル(MLLM)に基づいています。
具体的には、先ほどのセクションでも記載しましたが、ユーザーからの自然言語の指示を解析し、その指示に基づいて画像に具体的な編集を加える能力を持っています。
このプロセスは二つの主要なステップで構成されています。
まず、ユーザーの指示を受け取ったMGIEは、その指示を「表現豊かな指示」に変換します。
例えば、僕の好きな吉野家の牛丼の写真に対して「もっとヘルシーに見せて」というあいまいな指示を受けた場合、MGIEはそれを「野菜のトッピングを追加する」などのより具体的な編集アクションに変換します。次に、この具体化された指示に従って、MGIEは画像編集プロセスを実行します。
このように自然言語で編集が可能であるので、専門的な画像編集知識がなくても、自分の意図した通りに画像を修正することが可能です。
MGIEの使用例
引用元
このセクションでは、MGIEがどのように実世界の編集ニーズに応えることができるか、いくつかの具体的な例を紹介します。
1. ビジュアル化
ユーザーが「雨が降っている写真に変更して」と指示した場合、MGIEは天候が晴れの時の写真でも雨が降っている写真に編集してくれます。
2. 不要な背景要素の削除
「背景の人物を取り除いて」という指示に応えて、MGIEは画像から特定の要素を削除することができます。これは、写真から気になる部分を取り除きたい時に特に有用です。
3. 明度とコントラストの調整
ユーザーが画像をより明るく、またはコントラストを高めたいと考えている場合、「もっと明るくして」などの言葉の指示でMGIEがこれを実現してくれます。
4. ローカルとグローバルの編集
MGIEは、画像全体にわたる調整(明るさやコントラストの変更など)だけでなく、髪型や服装などの特定の部分に対する細かな修正も可能にします。
注意点とライセンス
MGIEはCC-BY-NCライセンスの下で公開されています。
この「非商用(NC)」条項は、MGIEを使用して生成された画像が商業目的で利用されることを禁じていますので、個人プロジェクトや研究目的での使用は許可されていますが、商業的な用途でMGIEを使用する場合は、別途ライセンスの取得や許可が必要になります。また、MGIEは、CLIP、LLaMA、Vicuna、GPT-4など、複数のAIモデルを利用して開発されていますので、それぞれのモデルのライセンス条件にも準じる必要がありますので注意が必要です。
まとめ
いかがだったでしょうか?
クオリティの高い編集をしようとすると、専門的な知識が必要で、Photoshopや他のツールを駆使していましたが、Appleの「MLLM-Guided Image Editing(MGIE)」技術は、自然言語で画像編集を実現してくれるため、専門知識なしで編集ができる時代になってきたと思います。
今後、さらに精度も上がってくることが予想されますので、動向を追っていきましょう!
ARCHETYP Staffingではクリエイターを募集しています!
私たちはお客様の課題を解決するweb制作会社です。現在webサイト制作以外にも、動画編集者や生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
また、アーキタイプではスタッフ1人1人が「AI脳を持ったクリエイター集団」としてこれからもクライアントへのサービス向上を図り、事業会社の生成AI利活用の支援及び、業界全体の生成AIリテラシー向上に貢献していきます。
生成AIの活用方法がわからない、セミナーを開催してほしい、業務を効率化させたいなどご相談ベースからお気軽にお問い合わせください!
ボタンから募集中の求人一覧ページに移動できます。