arXiv (NLP)AI
Physics-R1:視覚的物理推論のための監査済みオリンピアド コーパスとレシピ
Physics-R1: An Audited Olympiad Corpus and Recipe for Visual Physics Reasoning
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
マルチモーダル物理評価パイプラインの信頼性に関する重大な問題が明らかになった。研究チームは、視覚言語推論の測定方法を歪める3つの未検出の構築上の問題を特定し、その解決策を提示している。具体的には、訓練・評価データの汚染、翻訳のずれ、および多肢選択問題での飽和という3つの課題が確認されている。
従来の単段階5-gram-Jaccard監査では検出されなかったが、より精密な3段階監査(Jaccard指標→mxbai-embed-largeコサイン類似度→Haiku-4.5LLM判定)を適用したところ、SciInstruct単体で134件の重複および4,846件の言い換え候補が発見された。また、エストニア語と英語の成対オリンピアド問題59個での検証では、Sonnet 4.5において17パーセントポイントの性能差が観測され(30.5%対13.6%)、これは翻訳が評価に大きな影響を及ぼすことを示している。さらに、同一モデルでも多肢選択問題と自由回答形式では46パーセントポイント以上の性能格差(79.7%対33.4%)が生じており、評価形式の影響が深刻であることが判明した。
これらの課題に対応するため、研究チームは4つのアーティファクトを提供している。6,432レコードの3段階監査済みマルチモーダルコーパス(PhysCorp-A)、2,268レコードの閉形式RLプール(PhysR1Corp)、500問題の99.8%新規出典ホールドアウトオリンピアド評価セット(PhysOlym-A)、およびQwen3-VL-8B-Thinkingから開発されたPhysics-R1参照レシピを含む。Physics-R1はGSPO+DAPOの手法を採用し、PhysOlym-A liberal評価で8.0から26.3へ(18.3ポイント向上)、PhysReason評価で23.9から39.6へ(15.7ポイント向上)と著しい改善を達成し、既存の大規模言語モデルを上回る性能を示している。