研究问题
将自然语言处理的WordPiece技巧迁移到知识图谱中并提出NodePiece,从而用较少的子实体嵌入去建模大规模知识图谱上的实体嵌入,并增强模型的泛化性能。
背景动机
- 大规模知识图谱的出现,使得学习所有节点的嵌入变得非常困难
- NLP领域也面临过此表太大难以对所有词的嵌入建模的问题,采用了WordPiece技巧来解决。它不再把一个词看成一个整体,而是分割成几个子词。比如"loved",“loving”,“loves"这三个单词,其实本身的语义都一样,但是如果我们以单词为单位,那它们就算不一样的词,WordPiece把上面的3个单词拆分成"lov”,“ed”,“ing”,"es"几部分,这样可以把词的本身的意思和时态分开,有效的减少了词表的数量。