はじめに
画像生成AIは昨年から急速な進化を続けており、有名どころのMidjourneyやDALL、Stable Diffusionなどは知っている方も多いのではないでしょうか?
この記事ではまだ認知度は低いですが、高速で画像生成が可能なモデル「PixArt-δ」紹介します。
PixArt-δとはそもそも何か、どんな特徴があるのか、実際の使用例も知りたい方は必見の内容となっておりますので、ぜひ最後まで読んでみてください!
ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
ボタンから募集中の求人一覧ページに移動できます。
PixArt-δの概要
PixArt-δは、テキストベースのプロンプトから高解像度の画像を生成することができるオープンソースのモデルです。
このモデルは、Huawei Noah’s Ark Lab、大連理工大学、そしてHugging Faceの研究者チームによって開発されました。
PixArt-δの最大の特徴は高速性です!
従来のモデル「PixArt-α」が1024×1024ピクセルの画像を生成するのに数秒を要していたのに対し、PixArt-δはわずか0.5秒で同じ解像度の画像を生成することが可能です。これは、PixArt-αの7倍の速度に相当し、AI画像生成の効率性を大幅に向上させています。
さらに、PixArt-δは「ControlNet-Transformer」というアーキテクチャを採用しています。これにより、PixArt-αで使用されていた「Latente Consistency Model(LCM)」と「ControlNet」の機能を統合し、画像生成の精度と多様性を向上させています。
現時点では、PixArt-δモデルのデモ版は公開されていませんが、既に発表されているレポートではその印象的な性能が詳細に記述されています。
PixArt-δの技術的進歩
PixArt-δの大きな進歩の一つは、トレーニングの効率化です。このモデルは32GBのGPUメモリ制約内での学習が可能であり、これによりより多くの研究者や開発者が手軽に高品質な画像生成モデルを利用できるようになりました。
また、ControlNet-Transformerアーキテクチャの導入により、PixArt-δは以前のモデルよりも優れた画像の品質と多様性を提供し、さまざまなテキストプロンプトに対してよりリアルで詳細な画像を生成することができるようになりました。
PixArt-δは、以前のモデルで見られた「重み(ブロック)が多いほど出来栄えが悪くなる」という問題もありましたが、こちらも解決しています。
このように以前のモデルから大きく進化したことがわかります。
実際の使用例
「PixArt-δの概要」セクションでも述べましたが、PixArt-δモデルのデモ版はまだ公開されていませんが、以前から公開されているαモデルのLCMタイプとControlNetタイプは公開されていますので、今回はログインも必要なく初心者の方でも使いやすい、LCMタイプを試してみます。
LCMタイプはこちら
ControlNetタイプはこちら
やり方は簡単で「Enter your prompt」に生成したい画像のプロンプトを入力し「Run」ボタンを押すと画像が生成されます。
※日本語でプロンプトを入力しても画像は生成されますが、英語の方が精度が高いので英語をお勧めします。
今回は「Cinematic shot, superwoman body filled by photostimulated luminescence」というプロンプトで生成してみました。
すると、わずか数秒で画像が生成できました。
個人的にMidjouneyをよく使用するのですが、Midjouneyの場合生成されるまで1分ほどかかるのに対し、PixArt-LCMは10秒以内に生成されましたので、このスピードには驚きました。
まとめ
いかがだったでしょうか?
この記事を通じて、PixArt-δの画像生成モデルと実際に公開されてるLCMモデルを使用してみました。0.5秒という驚くべき速度で高解像度の画像を生成する能力、改良された「ControlNet-Transformer」アーキテクチャの導入、GPUメモリの最適化、そして重み問題の解決により、PixArt-δはAI画像生成の中でも今後されに期待されると思います。
AIの進化は日々凄まじいスピードで進んでいますが、引き続き動向を追っていきましょう!
ARCHETYP Staffingではクリエイターを募集しています!
私たちはお客様の課題を解決するweb制作会社です。現在webサイト制作以外にも、動画編集者や生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
また、アーキタイプではスタッフ1人1人が「AI脳を持ったクリエイター集団」としてこれからもクライアントへのサービス向上を図り、事業会社の生成AI利活用の支援及び、業界全体の生成AIリテラシー向上に貢献していきます。
生成AIの活用方法がわからない、セミナーを開催してほしい、業務を効率化させたいなどご相談ベースからお気軽にお問い合わせください!
ボタンから募集中の求人一覧ページに移動できます。