内容来源:来自加州大学圣迭戈分校(UCSD)、卡内基梅隆大学(CMU)等机构的研究者提出了一种 自动知识抽取框架,可以从
BERT 或
RoBerta等预训练语言模型中高效且可扩展地提取
知识图谱。
知识图谱简介
知识图谱 (KG) 是表示知识的一种形式,通常由头尾实体及其关系的三元组构成。它被广泛应用在各个领域,包括搜索引擎、推荐系统、聊天机器人和医疗保健。传统的知识图谱是通过昂贵的众包(例如WordNet, ConceptNet, ATOMIC)构建的。
尽管最近的研究探索了使用文本挖掘技术来自动构建知识图谱,但由于需要庞大的语料库和复杂的处理流水线,这仍然是一项具有挑战性的任务。此外,文本挖掘的一个不可避免的缺点是抽取的关系仅限于所选语料库所涵盖的关系。例如,许多常识性的知识并不会在人类语言中被显式地表达,因此从语料库中提取它们并不是一件容易的事。自动构建包含有“任何关系”的知识图谱仍然是一个未经探索的领域。
随着神经网络的发展,越来越多的神经网络模型在不同领域的任务上取得优异的表现,例如使用GPT-3和ChatGPT进行语言建模,以及使用 bioBERT
BertNet是一种新的框架,能从预训练的BERT或RoBERTa等语言模型中自动、高效且可扩展地提取知识图谱。该框架通过自动生成提示和执行知识搜索,生成的实体对具有竞争力的质量、多样性和新颖性,可扩展到更丰富的关系,同时提供对语言模型知识的可解释性。
订阅专栏 解锁全文
1459

被折叠的 条评论
为什么被折叠?



