OpenKG地址:http://openkg.cn/dataset/openconcept
官网:http://openconcepts.openkg.cn(提供Dump)
开放许可协议:CC BY-SA 4.0(署名-相同共享)
OpenConcepts 介绍
OpenConcepts (http://openconcepts.openkg.cn/) 是一个基于自动化知识抽取算法构建的中文概念图谱,由浙江大学知识引擎实验室贡献。本次开源了OpenConcepts中的440万概念核心实体,以及5万概念和1200万实体-概念三元组,并提供json,ttl, json-ld多种格式的原始Dump下载。
概念是人脑对事物的本质反应,能够帮助机器更好的理解自然语言。相较于传统的知识图谱,OpenConcepts包含大量中文细粒度概念,且具备自动更新、自动扩充的能力。比如对于“刘德华”这一实体,OpenConcepts不仅包含“香港歌手”、“演员”等传统概念,还具有“华语歌坛不老男歌手”、“娱乐圈绝世好男人”等细粒度标签。
OpenConcepts构建
构建知识图谱具有诸多挑战。早年的英文知识图谱如CyC、WordNet以及中文知识库如HowNet等大多通过专家手工构建,其构建成本非常高昂。Openconcepts采取完全自动化构建的方式,基于海量的中文网页数据和若干开放的中文知识库,通过自动化信息抽取、短语挖掘等自然语言处理技术,实现概念知识图谱的自动化构建。相较于传统的概念知识图谱,OpenConcepts的特点在于:
1. OpenConcepts包含大量的中文细粒度概念,这部分细粒度概念填补了中文细粒度知识的空白。
2. OpenConcepts是基于全自动化构建的方式,其整合了诸多自然语言处理算法并形成一套完整的知识抽取框架,具备自动化抽取、自动化扩展、自动化更新的能力。
OpenConcepts的自动化构建主要分为两大模块,1)概念知识的自动化抽取 2) 概念知识的融合,相关技术已经发表在国际顶会KDD 2021。我们首先通过开放的知识库、百科InfoBox等结构化、半结构化数据抽取粗粒度的概念。对于细粒度的概念,我们采取短语挖掘和序列标注相结合的策略,通过实体-概念模板和无监督短语挖掘构造弱监督样本,并基于迭代的降噪学习训练基于序列标注的概念抽取模型(http://openconcepts.openkg.cn/concept_extract_page),在离线测试集上概念抽取模型准确率可达0.89,召回率可达0.85。然后,我们对抽取到的不同的实体和概念进行融合,并通过贝叶斯估计过滤掉低置信度的概念。此外,我们也构造人工规则约束对高层次的概念进行人工干预,保证准确率。
具体的说,我们首先从包含噪声的海量开放语料中提取常见的细粒度概念,然后获取候选概念和实例,并通过概率推理和概念匹配将候选概念和实例与相应的概念联系起来。我们定义了一组精准的模板来从高置信度的匹配查询中利用Bootstrapping方法提取概念短语。例如,“十大XXX”是一种可用于提取种子概念的模式。基于这种模式,我们可以抽取出“十大手机游戏”等概念。然而由于文本中存在大量的噪声,因此我们采用一种基于对齐一致性的Bootstrapping方法来处理含噪文本。假设在某一轮中找到的新模板p,n_s是现有种子概念集合中的概念数,p可以从查询集Q中提取这些概念。设n_e是p可以从Q中提取的新概念的个数,我们通过函数 Filter(p): 1)