画像認識の新手法『LLaVA-o1』4段階推論で実現した高精度のAIモデル

OpenAIのo1モデルは、AIの推論時により多くの計算リソースを使用することで、より正確な結果を導き出せることを示しました。この手法を画像認識の分野に取り入れた中国の複数の研究機関が開発したLLaVA-o1は、従来のAIが抱えていた課題を解決する新たな方法を提案しています。

ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!

ボタンから募集中の求人一覧ページに移動できます。

4段階の推論過程で実現する正確な画像理解

LLaVA-o1は、中国の複数の研究機関が開発した画像認識と推論を組み合わせたオープンソースのビジョン言語モデル(VLM)です。画像認識と言語処理の機能を備えたMetaのLlama-3.2-11B-Vision-Instructをベースにしたこのモデルは、これまでのVLMとは異なるアプローチを採用しています。従来のVLMは、入力された画像に対して直接的に答えを出力する仕組みを採用していたため、複雑な推論を必要とする質問に対して適切な回答を導き出すことが困難でした。時には誤った結論や、実際には存在しない情報を出力してしまうという課題も抱えていました。これらの課題に対し、最新版となるLLaVA-o1は人間の思考プロセスを参考にした4段階の推論方式を取り入れています。
まず「要約」段階で問題の本質を整理し、続く「キャプション」段階で画像から質問に関連する要素を抽出します。その後の「推論」段階では、収集した情報を基に論理的な考察を行い、最後の「結論」段階で最終的な回答を導き出します。このプロセスの特徴は、ユーザーには最後の結論のみが表示される点です。中間段階での推論過程を見せないことで、より明確で信頼性の高い回答のみを提示する設計となっており、各段階で複数の候補から最適な選択を重ねることで、回答の質を高めています。このような段階的なアプローチにより、LLaVA-o1は問題解決の各過程で必要な情報を整理し、論理的な推論を積み重ねることを実現しました。
次に、この仕組みの具体的な実装方法と、実際の性能評価の結果を見ていきましょう。

実装から評価まで – LLaVA-o1の全容

参照:Venture Beat

LLaVA-o1の開発において、研究チームはまず約10万件の画像-質問-回答のデータセットを新たに構築しました。このデータセットには、単純な一問一答からグラフの解釈、図形の分析まで、幅広い種類の問題が含まれています。データの作成では、GPT-4oを活用して各問題に対する4段階の詳細な推論プロセスを生成し、それをもとにLlama-3.2-11B-Vision-Instructというモデルの調整を進めました。
技術面での重要な特徴が、「ステージレベルビームサーチ」です。この手法は、各推論段階で複数の回答候補を生成し、最適なものを選んで次の段階に進める方式を採用しています。従来は複数の完全な回答を生成した後で最適なものを選ぶため、途中で間違った方向に進むと修正が困難でしたが、新しい方式では各段階で方向修正が可能となり、より質の高い回答を導き出せるようになりました。
性能評価では、わずか10万件のデータでの学習にもかかわらず、基本となるLlamaモデルと比較して平均スコアが6.9%向上するという結果が得られています。計算リソースの制約により、現時点では2つの候補のみを生成して比較するという限定的な条件での検証となりましたが、それでもGPT-4-o-miniやGemini 1.5 Proといった非公開モデルと比較しても良好な結果を示しました。現時点でモデル自体は非公開ですが、トレーニングに使用したデータセット「LLaVA-o1-100k」は今後公開される予定です。より多くの計算リソースを活用できる環境での検証や、研究者たちによる新たな知見の発見が待たれます!

まとめ

いかがだったでしょうか?
LLaVA-o1は、4段階の推論プロセスと段階的な選択方式により、画像認識AIの可能性を広げています。研究チームは外部検証の仕組みの導入や強化学習を活用した機能の拡張を検討しており、データセットの公開と合わせて、この分野の研究に新たな視点を提供しています。

ARCHETYP Staffingではクリエイターを募集しています

私たちはお客様の課題を解決するweb制作会社です。現在webサイト制作以外にも、動画編集者や生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
また、アーキタイプではスタッフ1人1人が「AI脳を持ったクリエイター集団」としてこれからもクライアントへのサービス向上を図り、事業会社の生成AI利活用の支援及び、業界全体の生成AIリテラシー向上に貢献していきます。
生成AIの活用方法がわからない、セミナーを開催してほしい、業務を効率化させたいなどご相談ベースからお気軽にお問い合わせください!

ボタンから募集中の求人一覧ページに移動できます。

クリエイター登録して、案件情報を受け取る!

クリエイター登録