arXiv (CV)AI
GeoSym127K:マルチモーダル幾何推論のためのスケーラブルな記号検証可能合成
GeoSym127K: Scalable Symbolically-verifiable Synthesis for Multimodal Geometric Reasoning
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模マルチモーダルモデル(LMM)は、視覚的なハルシネーション(幻覚)と数学的に正確な思考の連鎖(CoT)データの不足により、幾何推論タスクにおいて大きな課題を抱えています。このような問題を解決するため、研究チームはGeoSym Engineという自動化かつスケーラブルなニューロシンボリックフレームワークを提案しました。このエンジンは、型条件付き文法と解析的なSymGT Solverを活用して正確な記号的真実値を導出し、高精度な幾何図を生成する強固なレンダリングパイプラインと統合されています。
このフレームワークを使用して、研究チームはGeoSym127Kという難易度別のデータセットを構築しました。これは5万1千枚の高解像度画像、記号的真実値を備えた12万7千の問題、および検証済みの5万5千のCoT質問応答ペアを含んでいます。さらに、厳密な評価のために511の複雑なサンプルからなるGeoSym-Benchという専門家によってキュレーションされたベンチマークスイートが導入されました。
広範な教師あり微調整(SFT)を通じて、GeoSym127Kは図表に依存したタスクと複数ステップの幾何推論タスクに特に効果的であることが実証されました。Qwen3-VL-8Bモデルはその結果として、MathVerse Vision-Onlyサブセットで絶対値で22.21%の向上を獲得し、WeMathでは61.52%に到達(6.19%の向上)しました。さらに、GRPO経由で検証可能な報酬を用いた強化学習(RLVR)を適用することで、構造的なSFTチェックポイントから初期化することにより、ゼロショット強化学習に比べてパフォーマンスの上限が大幅に向上することが明らかになりました。決定論的な完全一致シグナルに駆動されるこのアプローチは、検証可能な推論合成の堅牢なスケーリング可能性を実証しています。