文章主要内容总结
本文提出了一种名为KG-HTC的零样本层次文本分类方法,旨在解决层次文本分类(HTC)中数据标注成本高、标签空间大、长尾分布等问题。该方法通过将知识图谱(KG)与大型语言模型(LLM)结合,利用检索增强生成(RAG)框架从知识图谱中动态检索与输入文本语义相关的子图,并将其转换为结构化提示,引导LLM进行层次分类。实验在三个公开数据集(WoS、Dbpedia、Amazon)上表明,KG-HTC在严格零样本设置下显著优于基线方法,尤其在深层标签分类中表现更佳。
文章创新点
-
知识图谱与LLM的融合架构
提出KG-HTC框架,将层次标签表示为有向无环图(DAG)形式的知识图谱,通过余弦相似度检索相关子图,为LLM提供结构化语义上下文,增强其对层次标签语义的理解。 -
动态子图检索与提示生成
设计基于RAG的子图检索算法,根据输入文本动态筛选高相关标签节点,生成从叶节点到根节点的层次路径序列,并将其转换为LLM可理解的结构化提示,有效缓解标签空间大带来的信息过载问题。 -
零样本层次分类的高效性
在严格零样本设置下,无需任何标注数据即可实现层次分类,且在深层标签分类中性能衰减显著低于现有方法(如Z-STC、HiLA),证明了结