文章主要内容总结
本文提出了一种名为KG-HTC的零样本层次文本分类方法,旨在解决层次文本分类(HTC)中数据标注成本高、标签空间大、长尾分布等问题。该方法通过将知识图谱(KG)与大型语言模型(LLM)结合,利用检索增强生成(RAG)框架从知识图谱中动态检索与输入文本语义相关的子图,并将其转换为结构化提示,引导LLM进行层次分类。实验在三个公开数据集(WoS、Dbpedia、Amazon)上表明,KG-HTC在严格零样本设置下显著优于基线方法,尤其在深层标签分类中表现更佳。
文章创新点
-
知识图谱与LLM的融合架构
提出KG-HTC框架,将层次标签表示为有向无环图(DAG)形式的知识图谱,通过余弦相似度检索相关子图,为LLM提供结构化语义上下文,增强其对层次标签语义的理解。 -
动态子图检索与提示生成
设计基于RAG的子图检索算法,根据输入文本动态筛选高相关标签节点,生成从叶节