日本語タイトル#
リンク予測のためのセマンティック、スペクトル、構造メトリクスによる知識グラフの複雑性評価
英文タイトル#
Evaluating Knowledge Graph Complexity via Semantic, Spectral, and Structural Metrics for Link Prediction
日本語摘要#
データセットの複雑性を理解することは、知識グラフ(KGs)上でのリンク予測モデルの評価と比較において基本的な要素です。 スペクトルクラスタリングフレームワーク内のクラス間の確率的差異から導出された累積スペクトル勾配(CSG)指標は、分類器に依存しない複雑性指標として提案されており、クラスの基数が増加するにつれて変化し、下流の性能と相関するとされていますが、これまで KG 環境で評価されたことはありません。 本研究では、多関係リンク予測の文脈における CSG を批判的に検討し、Transformer 由来の埋め込みを通じてセマンティック表現を導入します。 以前の主張とは対照的に、CSG はパラメータ化に非常に敏感であり、クラスの数が増加するにつれて堅牢にスケールしないことがわかりました。 さらに、CSG は平均逆順位(MRR)や Hit@1 などの標準性能指標との相関が弱いか、一貫性がありません。 分析を深めるために、一連の構造的およびセマンティック KG 複雑性指標を導入し、ベンチマークテストを行いました。 我々の研究結果は、関係エントロピー、ノードレベルの最大関係多様性、関係タイプの基数を通じて捉えられたグローバルおよびローカルな関係の曖昧さが MRR および Hit@1 と強い逆相関を示し、これらの指標がタスクの難易度のより忠実な指標であることを示唆しています。 逆に、平均次数、次数エントロピー、PageRank、固有ベクトル中心性などのグラフの連結性測定は Hit@10 と正の相関を示します。 我々の結果は、CSG が主張する安定性と一般化予測能力がリンク予測設定で成立しないことを示し、知識駆動学習においてより安定した、解釈可能で、タスクに整合したデータセットの複雑性測定の必要性を強調しています。
英文摘要#
Understanding dataset complexity is fundamental to evaluating and comparing link prediction models on knowledge graphs (KGs). While the Cumulative Spectral Gradient (CSG) metric, derived from probabilistic divergence between classes within a spectral clustering framework, has been proposed as a classifier agnostic complexity metric purportedly scaling with class cardinality and correlating with downstream performance, it has not been evaluated in KG settings so far. In this work, we critically examine CSG in the context of multi relational link prediction, incorporating semantic representations via transformer derived embeddings. Contrary to prior claims, we find that CSG is highly sensitive to parametrisation and does not robustly scale with the number of classes. Moreover, it exhibits weak or inconsistent correlation with standard performance metrics such as Mean Reciprocal Rank (MRR) and Hit@1. To deepen the analysis, we introduce and benchmark a set of structural and semantic KG complexity metrics. Our findings reveal that global and local relational ambiguity captured via Relation Entropy, node level Maximum Relation Diversity, and Relation Type Cardinality exhibit strong inverse correlations with MRR and Hit@1, suggesting these as more faithful indicators of task difficulty. Conversely, graph connectivity measures such as Average Degree, Degree Entropy, PageRank, and Eigenvector Centrality correlate positively with Hit@10. Our results demonstrate that CSGs purported stability and generalization predictive power fail to hold in link prediction settings and underscore the need for more stable, interpretable, and task-aligned measures of dataset complexity in knowledge driven learning.
文章ページ#
リンク予測のためのセマンティック、スペクトル、構造メトリクスによる知識グラフの複雑性評価
PDF 获取#
QR コードをスキャンしてさらに素晴らしいコンテンツを確認