arXiv (NLP)AI
SKG-Eval:段階的意味知識グラフを用いた複数ターン対話の状態追跡的評価
SKG-Eval: Stateful Evaluation of Multi-Turn Dialogue via Incremental Semantic Knowledge Graphs
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
複数ターンの対話システムを自動的に評価することは、自然言語処理における重要な課題です。従来の評価手法では、現在のプロンプトへの応答品質のみに焦点を当てており、会話全体を通じて確立された固有表現、主張、対話的コミットメントといった文脈情報を十分に考慮していません。既存のLLM判定フレームワークや埋め込みベースのメトリクスは、フラットな表現またはターン単位の孤立した表現に依存しているため、矛盾、話題の逸脱、固有表現の不一貫性といった長距離の問題を効果的に検出することができません。
こうした限界に対処するため、研究チームはSKG-Evalという新しい評価フレームワークを提案しました。このフレームワークは対話を進化する意味知識グラフ(SKG)としてモデル化し、複数ターンにわたる固有表現、関係性、コミットメントを追跡します。構造化されたトリプル抽出を通じてグラフを段階的に更新し、三つの相補的信号を計算します。まず「局所的関連性」は現在のプロンプトおよび参照テキストとの整合性を測定し、次に「歴史的一貫性」はグラフベースおよび埋め込みドリブンの信号を用いて新しい情報が先行する文脈とどのように接続しているかを評価します。さらに「論理的一貫性」は幾何学的矛盾エンジンによって検出され、NLIモデルやLLM判定に依存せずに複数ターン間の矛盾を発見します。
複数のベンチマークにおける評価結果は、SKG-Evalが人間による判定との相関性において既存手法を上回り、特に長い会話における長距離の不一貫性検出を大幅に改善することを示しています。加えて、このフレームワークは矛盾の明示的な証拠と固定入力に対する決定論的スコアを生成するため、再現可能で監査可能な評価を実現します。全体として、意味知識グラフを通じた構造化された外部状態追跡は、LLMベースの対話評価器における暗黙的推論に対するスケーラブルな代替案を提供するという重要な洞察を示唆しています。