arXiv (NLP)AI
大規模言語モデルの多言語知識編集におけるマージング手法:実証的研究
Merging Methods for Multilingual Knowledge Editing for Large Language Models: An Empirical Odyssey
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)の知識を更新する際、複数の言語にまたがって編集を行う多言語知識編集(MKE)は、言語ごとの編集が互いに干渉し合うため、単一言語での編集よりも大幅に難しいという課題があります。本研究は、MKEにおけるベクトルマージング手法の有効性、Task Singular Vectors for Merging(TSVM)が多言語間の干渉をどの程度軽減できるか、そして重みスケーリング係数とランク圧縮比がパフォーマンスに与える影響について調査しています。
研究チームは、2つの主流なバックボーンLLM、2つの基本的な知識編集手法、12言語を用いて、MzsREベンチマーク上で大規模なバッチ編集設定下で6つのマージング変種を評価しました。その結果、共有共分散を伴う改良されたベクトル合計法が最も信頼性の高い全体的戦略であることが明らかになった一方で、共有共分散なしの単純な合計は性能が低いことが判明しました。
TSVMは一部の設定下でパフォーマンスを向上させますが、多言語間の干渉を緩和する能力には限界があります。さらに、重みスケール係数とランク比の両方に対してパフォーマンスが敏感に反応することが分かり、デフォルトより大きなスケーリングと比較的低いランクを使用することで、より良い結果が得られる傾向が確認されました。本研究の知見は、MKEにおける現在のベクトルマージング手法の実践的な強みと限界を明確にし、今後の多言語知識編集研究に対して有用なガイダンスを提供します。