視覚と言語を統合!アリババの最新AI「Qwen2-VL」とは

アリババクラウドが新たなAIモデル「Qwen2-VL」を発表しました。このモデルは20分以上の動画分析や多言語処理が可能で、視覚言語モデルの新たな可能性を示しています。
本記事では、Qwen2-VLの機能と実力、技術的特徴と将来性、そして筆者の検証レポートを紹介していきますので、ぜひ最後までご覧ください!

ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!

ボタンから募集中の求人一覧ページに移動できます。

Qwen2-VLの機能と実力

Qwen2-VLは、長時間の動画分析能力を持つAIモデルです。20分以上の動画を分析し、その内容に関する質問に答えることができるほか、英語、中国語、日本語、韓国語など、多数の言語に対応しています。このモデルの特筆すべき点は、リアルタイムでの分析と要約機能です。ライブ動画を分析し、即座にフィードバックを提供することが可能なため、様々な分野での活用が期待されます。
Qwen2-VLの実力を示す具体例として、宇宙ステーションの動画分析が挙げられます。以下はAIによる動画の要約です:

引用:VentureBeat

「動画は男性がカメラに向かって話すシーンから始まり、次に管制室に座っている人々のグループが映ります。その後、カメラは宇宙ステーション内で浮遊している2人の男性に切り替わり、彼らがカメラに向かって話している様子が映ります。男性たちは宇宙飛行士のようで、宇宙服を着用しています。宇宙ステーションにはさまざまな機器や装置が設置されており、カメラはステーション内のさまざまな場所をパンして映し出します。男性たちはカメラに向かって話し続け、彼らのミッションや行っているさまざまな作業について議論しているようです。全体として、この動画は宇宙探査の世界と宇宙飛行士の日常生活を垣間見ることができる魅力的な内容となっています。」
この要約から、Qwen2-VLが動画の内容を正確に把握し、重要な要素を抽出する高度な能力を持っていることがわかります。
この機能を使えば、長編映画やアニメも文章化することができ、さらに抽出された文章をプロンプトとして画像生成AIに入力し、サムネ画像を生成することで記事を生成することもできます。他にも、会議の録画を読み込ませ、議事録を作成するなども可能なため、幅広い用途での活用が期待されます!

Qwen2-VLの技術的特徴と将来性

Qwen2-VLは、パラメータ数の異なる3つのモデルで提供されています。720億パラメータを持つQwen2-VL-72B、7億パラメータのQwen2-VL-7B、そして2億パラメータのQwen2-VL-2Bです。注目すべき点は、7Bと2Bのモデルがオープンソースとして公開され、Apache 2.0ライセンスの下で提供されていることです。
技術面では、Qwen2-VLは関数呼び出しと視覚的情報抽出の機能を備えており、他のソフトウェアやツールとの連携が可能です。例えば、フライトの出発ボード、天気予報の地図、荷物追跡のステータス画面といった視覚的な情報を理解し、そこから必要なデータを抽出して処理することができます。これにより、フライト番号や目的地、天気の状況、荷物の現在位置などの情報を、AIが画像や映像から自動的に読み取り、ユーザーに提供したり、他のシステムと連携して活用したりすることが可能になります。また、Naive Dynamic Resolutionという技術により、異なる解像度の画像を処理できる能力を持ち、Multimodal Rotary Position Embedding (M-ROPE)システムの採用により、テキスト、画像、動画の位置情報を同時に捉え、統合することが可能です。
Qwen2-VLの将来性については、以下のような応用が推測されます。

1.動画分析や多言語処理の能力を活かし、教育分野でのe-ラーニングコンテンツの自動生成
2.医療分野での画像診断支援
3.セキュリティ分野での監視カメラ映像の自動分析

上記のように、幅広い産業での活用が期待されます。アリババのQwenチームは、今後もQwen2-VLの機能拡張や新たなモダリティの統合を進めていく方針を示しています。
様々なコンテンツの溢れる現代において、20分以上の動画視聴するのは長いと感じる人は多いと思われます。ただでさえ、動画は2倍速で見る人が多い中で、Qwen2-VLの動画分析、要約機能、データ抽出能力は、時間のない社会人と相性が良いかと考えます。次のセクションでは、筆者が実際にQwen2-VLのクオリティを検証してみたので、紹介していこうと思います!

実際に検証

実際に作者も「Qwen2-VL」を活用してみましたので、使い方を紹介してみたいと思います!
Githubから利用することができますので、Githubでの使い方を解説します。
Githubにログインすると、ページ下部に「Upload」と書かれたボタンがあるので、文章化したい画像や動画をこちらに添付してください。

今回は以下のようなチョコレートの画像を添付してみました。この画像がどのように文章化されるのか楽しみです!

あとは、「Input」の欄で、「画像について説明して」と入力することで、画像の特徴を文章化することができます。

あとは「submit」ボタンを押すだけで生成が開始されます。

こうして生成された画像の説明文章が以下になります:

この画像は、チョコレートとその成分をテーマにしたアート的な表現です。画像の中心には、チョコレートバーとカカオ豆が描かれています。周囲には、カカオパウダー、スパイス、緑の葉、そして色鮮やかなスプラッシュが描かれています。背景はピンク色で、全体的にカラフルで視覚的に魅力的な作品となっています。この画像は、チョコレートの製造過程やその成分をアート的に表現したもので、視覚的にも味覚的にも刺激的な印象を与えます。

画像の読み取り精度は高いように感じます。このように、画像を的確に文章化できるということは、作成したデザインやイラストのキャッチコピーや商品の商品紹介文を作ることも可能と考えます!

続いては動画でも作成してみました。元動画は以下になります:

こちらは「DreamMachine1.5」で作成した動画になります。DreamMachine1.5についてはこちらの記事で紹介していますので、併せてご覧ください。こちらの動画を、先ほど紹介した手順でQwen2-VLに文章化させた結果は以下になります:

この動画は、キッチンの床で猫がネズミを追いかけるシーンを描いたものです。猫は灰色の毛並みで、ネズミは小さな体をしています。猫はネズミを追いかけ、ネズミは逃げまわります。キッチンの床はタイル張りで、背景には木製のキャビネットや調理器具が見えます。猫とネズミの動きがリアルで、猫の狩猟本能が描かれています。全体的に、この動画は猫とネズミの追いかけっこをリアルに描いたものです。

ネズミと猫だけでなく、背景などの特徴についても紹介されており、文字だけでも動画のシーンが読み取れる内容となっていました!

最後は実験として、独特な世界観の画像をQwen2-VLはどのように文章化するのかを実験してみたいと思います。元画像は以下になります:

この画像を表現するとなると、情報量が多くて人間でも文章化は大変だと思いますが、Qwen2-VLはどのように文章化するのでしょうか。結果は以下になります:

この画像は、非常に抽象的で芸術的な表現が特徴です。画像の中心には、大きな顔が描かれており、その周囲には様々な物体や建物が飛び散るような形で配置されています。背景は青空と雲で、全体的にカラフルな色使いが特徴的です。
画像の下部には、チェス盤のような模様が描かれており、その上に様々な物体が散らばっています。建物や街の風景が描かれており、その中に時計や椅子などの日常的な物体も混ざっています。また、空には風船や飛行機が描かれており、全体的に非常に幻想的で複雑な構成となっています。
この画像は、現実と非現実が混ざり合ったような世界を表現しており、視覚的にも非常に興味深い作品です。

飛行機についてはそれっぽいものが見当たりませんでしたが、それ以外は画像の内容をうまく文章化しているうように感じます。他の画像や動画に比べて文章量が多いのも、なるべく情報を説明しようとしているのが伝わってきますね!あまりにカオスな画像だと間違いも生じますが、文章化の精度はかなり高いと筆者の中では結論付けたいと思います。言語化しにくい画像や、要約してほしい動画があれば、Qwen2-VLを使ってみてください!

まとめ

いかがだったでしょうか?
Qwen2-VLは、長時間動画の分析や多言語処理能力を持つ新しいAIモデルとして注目を集めています。その高度な分析能力と柔軟な応用性により、様々な分野での活用が期待されます。オープンソース戦略を通じて、さらなる技術革新と幅広い応用が促進される可能性があり、今後の発展と実用化に向けた取り組みに引き続き注目が集まるでしょう。

ARCHETYP Staffingではクリエイターを募集しています

私たちはお客様の課題を解決するweb制作会社です。現在webサイト制作以外にも、動画編集者や生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
また、アーキタイプではスタッフ1人1人が「AI脳を持ったクリエイター集団」としてこれからもクライアントへのサービス向上を図り、事業会社の生成AI利活用の支援及び、業界全体の生成AIリテラシー向上に貢献していきます。
生成AIの活用方法がわからない、セミナーを開催してほしい、業務を効率化させたいなどご相談ベースからお気軽にお問い合わせください!

ボタンから募集中の求人一覧ページに移動できます。

クリエイター登録して、案件情報を受け取る!

クリエイター登録