Appleが次世代マルチモーダル大規模言語モデル「MM1」を発表!

Appleがマルチモーダル大規模言語モデル「MM1」を発表しました!
この記事では、MM1の特徴、開発背景などについて詳しく解説していきますので、ぜひご一緒に見ていきましょう!

論文はこちら

ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!

ボタンから募集中の求人一覧ページに移動できます。

MM1の概要

Appleが発表した「MM1」は、画像とテキストの両方を理解し、処理する能力を持つマルチモーダル大規模言語モデルです。このモデルは、最大300億パラメーターを誇り、10億以上の画像および30兆語以上のテキスト、GitHubのコード例など、幅広いデータセットから学習しています。
MM1は、教師なし学習と教師あり学習を組み合わせた独自の方法で訓練されており、多様なタスクに対して高い精度を実現しています。
MM1の最も注目すべき点は、マルチモーダル能力です。画像内のオブジェクト数を正確に数えたり、画像から抽象的な質問に答えたり、画像のコンテキストに基づいて気温を推定したりするなど、人間のように画像を「理解」し、テキストで応答することができます。また、AppleはMM1の作り方も公開し、AI研究の透明性と共有を促進しています。

学習方法とアーキテクチャ

MM1の開発では、先ほどのセクションでも解説しましたが、教師なし学習と教師あり学習の双方を組み合わせており、テキストだけでなく画像も理解し処理できるマルチモーダルな能力を持っています。
アーキテクチャ面では、複数の専門家(エキスパート)モデルを組み合わせることで、それぞれのモデルが得意とするタスクを最適に処理することができる「mixture-of-experts」(MoE) を導入しており、効率的な学習と高い汎用性を実現しています。さらに、MM1は高度な画像エンコーダーと事前学習済みの言語モデルを組み合わせることで、画像とテキストの両方を理解することが可能で、テキストのみのデータ、キャプション付き画像データ、インターリーブされた画像テキストデータなど、多様なデータソースを利用することで達成されています。

応用分野

応用分野においては、MM1の技術は教育、エンターテインメント、医療、さらには日常の生活補助に至るまで、幅広い領域での利用が想定されます。
例えば、教育では、MM1を活用して学習資料の自動生成やパーソナライズされた学習支援が行えるようになるでしょう。エンターテインメントでは、よりリアルなゲームや仮想現実の経験が可能になります。医療分野では、画像診断の精度向上や患者の症状に基づく治療法の推薦など、より質の高い医療サービスの提供が期待されます。また、Apple製品との統合を通じて、SiriやApple Musicなどのサービスが、MM1の能力を生かしてさらに進化する可能性があります。
ぜひ、Apple製品に統合してもらいたいですね!

まとめ

いかがだったでしょうか?
様々な大規模言語モデルが日々登場していますが、引き続き動向を追っていきましょう!

ARCHETYP Staffingではクリエイターを募集しています

私たちはお客様の課題を解決するweb制作会社です。現在webサイト制作以外にも、動画編集者や生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
また、アーキタイプではスタッフ1人1人が「AI脳を持ったクリエイター集団」としてこれからもクライアントへのサービス向上を図り、事業会社の生成AI利活用の支援及び、業界全体の生成AIリテラシー向上に貢献していきます。
生成AIの活用方法がわからない、セミナーを開催してほしい、業務を効率化させたいなどご相談ベースからお気軽にお問い合わせください!

ボタンから募集中の求人一覧ページに移動できます。

クリエイター登録して、案件情報を受け取る!

クリエイター登録