arXiv (CV)AI
画像ピクセルトークンと単語トークンを統合した生成言語モデル
Unified Pix Token And Word Token Generative Language Model
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
Vision Transformer(ViT)の登場以来、生成言語モデルと生成ビジュアルモデルの両分野で広く活用されてきました。特に現在の最先端オープンソースマルチモーダルモデルでは、CLIPやSigLIPの手法で得られたViTがビジョンエンコーダーのバックボーンとして機能し、視覚理解能力の獲得を支援しています。しかし、この手法には限界が存在し、画像内の小さなテキストや数字の認識が難しいなど、細部の視覚理解において課題を抱えていました。
こうした問題に対処するため、研究チームは画像のピクセルトークンと単語トークンを生成言語モデルに統合する新しいモデルを提案しました。新モデルの特徴として、画像の各ピクセルが独自のトークン埋め込みを持つこと、カラーフォールディング、グローバル条件付きアテンション近似、そして画像の教師なし事前学習が挙げられます。
研究グループは提案モデルを用いた画像の教師なし事前学習実験を実施し、そのポテンシャルを探究しました。実験結果から、小規模モデルかつ限定的な学習データの条件下においても、良好なパフォーマンスを発揮することが明らかになりました。研究者らは、このモデルがスケーリング則に従うと確信しており、モデルパラメータと学習データを増加させれば、パフォーマンスは継続的に向上する可能性があると考えています。