
语言资源
文章平均质量分 81
「已注销」
这个作者很懒,什么都没留下…
展开
-
大规模领域词汇库项目DomainWordsDict:涵盖68个领域、共计916万的词汇库资源开放
项目概述DomainWordsDict, Chinese words dict that contains more than 68 domains, which can be used as text classification、knowledge enhance task。涵盖68个领域、共计916万词的专业词典知识库,可用于文本分类、知识增强、领域词汇库扩充等自然语言处理应用。在利用学习模型进行自然语言处理任务时候,领域词汇可以作为一项重要的领域特征加入到模型当中,可以提升领域性模型的性能。地址原创 2021-08-28 12:27:47 · 3231 阅读 · 0 评论 -
老刘说NLP:这几年的NLP历程回顾,以及关于NLP(知识图谱等)落地的思考
一、前言只有把自己所思考的,所认识的东西,以文字的方式记录下来,才是对自己成长最好的记录方式。是的,距离上一次动手写博客或者技术文章已经过去了大半年的时间。作为一个比较喜欢总结的人,这无疑是一个一大段空白。对的,今年,我经历了一场很不可思议的事情。学业与工作经历起伏。从三月份到六月份这四个月的时间里,困在一个怎么也走不出的低谷。因此,今年我做了一个我从未想过的决定,我离开了工作整整四年(加上实习是五年)的中科院软件所,投身互联网。软件所的五年里,我以极大的热情执着于自然语言处理技术的基础研究和应用落地。原创 2021-08-22 20:23:31 · 4971 阅读 · 5 评论 -
关于知识图谱标准化构建平台的思考:知识图谱只能做项目,不能做平台?
从知识图谱被大家所熟知之后,知识图谱自身已经已经成为“知识图谱+”的一个潮流,许多领域、许多行业在各个层级,都在大规模地进行知识图谱方面的结合尝试。而这种尝试,本质上包括两种,一种是以项目的方式做知识图谱,即解决方案,另一种是以产品的方式做知识图谱,即做标准化的知识平台。不同的做法会带来不同的问题,最近自己也正经历着这两种方式的转变,发现了一些问题,有些思考,写出来与大家一同分享。一、知识图谱标准化平台的六个问题1、知识图谱当前的应用场景是什么?关于知识图谱的应用场景,目前畅想的已经足够过。但本质上,原创 2021-08-22 22:50:35 · 3522 阅读 · 4 评论 -
PersonGraphDataSet近十万的开放人物关系图谱项目
PersonGraphDataSetPersonGraphDataSet, nearly 10 thousand person2person relationship facts that build from extraction method, which can be applied to person kg search and inference applications。 人物图谱数据集,近十万的人物关系图谱事实数据库,通过人物关系抽取算法抽取+人工整理得出,可用于人物关系搜索、查询、人物关原创 2021-01-26 20:29:35 · 4905 阅读 · 2 评论 -
ChineseDiachronicCorpus项目,大规模中文历时语料库
ChineseDiachronicCorpusChineseDiachronicCorpus,中文历时语料库,横跨六十余年,包括腾讯历时新闻2009-2016,人民日报历时语料1946-2003,参考消息历时语料1957-2002。基于历时流通语料库,可用于历时语言变化计算、语言监测、社会文化变迁研究提供基础性的语料支持。# 为什么中文开放数据集如此之难有的时候我在想,chineseldc基本停滞了,后面除了gluedata benchmark,国内数据集开源为什么这么难?我想了一想,不当当是侵权的问题,原创 2021-01-16 20:08:34 · 1550 阅读 · 2 评论 -
KerasSeq2seqGeneration:基于seq2seq模型的文本生成任务项目
项目的由来1、分类、抽取、序列标注、生成任务是自然语言处理的四大经典任务,其中,分类、抽取任务,可以使用规则进行快速实现。而对于生成而言,则与统计深度学习关系较为密切。2、当前,GPT系列,自动文本生成、文本图像生成,图像文本生成等魔幻主义大作频频上演。3、目前开源的seq2seq模型项目晦涩难度,不利于阅读与入门。受此三个现实背景,也正好在接触生成这个任务,特做此项目。项目链接:https://github.com/liuhuanyong/KerasSeq2seqGeneration项目的构原创 2021-01-07 15:39:40 · 938 阅读 · 0 评论 -
Cognitive Inference:认知推理下的常识知识库资源、常识推理测试评估与中文实践项目索引
CognitiveInferenceCognitive Inference,认知推理、常识知识库、常识推理与常识推理评估的系统项目,以现有国内外已有的常识知识库为研究对象,从常识知识库资源建设和常识推理测试评估两个方面出发进行整理,并结合自己近几年来在逻辑性推理知识库的构建、应用以及理论思考进行介绍。具体包括已有常识知识库项目资源介绍、逻辑推理类知识库的项目实践集合、常识推理测试评估项目集合。项目地址:https://github.com/liuhuanyong/CognitiveInference/原创 2020-08-31 09:35:29 · 1494 阅读 · 0 评论 -
面向中文自然语言处理的60余类系统开源实践项目与工业探索索引
项目介绍面向中文自然语言处理的六十余类实践项目及学习索引,涵盖语言资源构建、社会计算、自然语言处理组件、知识图谱、事理图谱、知识抽取、情感分析、深度学习等几个学习主题。包括作者个人简介、学习心得、语言资源、工业落地系统等,是供自然语言处理入门学习者的一个较为全面的学习资源,欢迎大家使用,并提出批评意见。 项目地址: liuhuanyong.github.io 工业项目 项目类型 中文名称 技术点 技术博客.原创 2020-08-30 11:16:21 · 1595 阅读 · 0 评论 -
事理逻辑为核心的自然语言处理理论实践与工业探索项目
事理为核心的自然语言处理项目 项目类型 中文名称 技术点 技术公众号 数地工场技术文章 面向事理图谱、知识库构建、社会计算等技术落地探索 事理自然语言处理语义平台 数地工场 信息抽取、舆情分析、语义计算、信息采集类、问句解析类api 7*24小时实时抽象事理学习、搜索与关联推理系..原创 2020-08-30 11:09:49 · 763 阅读 · 0 评论 -
ChineseSemanticKB,面向中文处理的12类、百万规模的语义常用词库存
ChineseSemanticKBChineseSemanticKB,chinese semantic knowledge base, 面向中文处理的12类、百万规模的语义常用词典,包括34万抽象语义库、34万反义语义库、43万同义语义库等,可支持句子扩展、转写、事件抽象与泛化等多种应用场景。项目介绍语义知识库是自然语言处理中十分重要的一个基础资源,与学术界追求算法模型不同,工业界的自然语言处理对于底层的词汇知识库、语义知识库等多种资源依赖度很高,具体体现在:1、具有落地场景的自然语言处理任务都是业原创 2020-07-18 22:57:01 · 993 阅读 · 0 评论 -
助力句子变换:35W抽象、43W同义、13W简称三大知识库对外开源
句子变换,是指根据给定中文句子,借助某种语言处理手段,扩展出一定数据规模的中文句子集合,是一个从1到N的过程,目的在于解决搜索(查询扩展)、分类(样本扩充)、抽取(数据回标)、推荐与生成(关联引导)等多个工业级应用任务。我们发现,在处理以上几个任务的过程中,句子级别的操作,是以句子中的词为基本单位来实现的,即以词的更换、删除,语序和组合规则的重组等操作为基本手段。将词的这种操作依据进行有效整理和形式化,是一项重要的工作,我们在实际开发过程中,对该工作的成果进一步归类成“抽象知识”、“同义知识”、“简称知原创 2020-07-07 13:25:47 · 1267 阅读 · 2 评论 -
事件抽取中的“门面技术”:事件名称生成浅谈
6月10日,“网信中国”微信公众号发布消息称:微博热搜榜、热门话题榜暂停更新一周,这使得很多热榜平台都受到波及,而在吃瓜之余,我们更进一步地思考热点榜单以及热点名称生成背后的技术,并发出两连问:热点名称是否仅仅来源于用户搜索,还是源于对用户搜索内容的进一步提炼和精简?对于现在每天发布的大量资讯,如何将资讯中的热点提取出来,并为热点生成一个形式简短、表达通顺、语义完整的名称?实际上,“热点名称”这一最终的输出结果,对于整个事件提取来说,是个实实在在的“门面技术”,热点名称是否一目了然,是否具有明显的代表性原创 2020-06-23 14:59:38 · 1742 阅读 · 0 评论 -
随笔-机器如何学习我们的知识?
1、 人类语言的语法知识。不同的人类语言有不同的语言表达形式,包括语言符号,语言符号的组合和应用规则。阿拉伯文字、斯拉夫文字、罗马文字、拉丁文字、象形文字等代表着不同语言背景、语言文化。2、 机器可用的词典知识库有哪些?1) 类别词库。特定实体词、功能词、非功能词。2) 组合词库。组合词库包括搭配词库,共现词库。a) 搭配词库:i. 位置共现:窗口共现、互信息、卡方ii. 句法共现:成份共现(VP/NP)、依存共现(SBV,VOB,ATT,POB等)iii. 语义共现:语义角色共现(工具,结原创 2020-06-02 12:15:37 · 676 阅读 · 0 评论 -
金融情报挖掘:面向公开文本的期货事件聚合与传导因素分析
金融情报挖掘是情报领域的一个重要分支,通过对金融领域信息进行提取和分析,发现关联线索,对传导关联进行建模,能够挖掘出市场变动的规律,最终辅助决策。例如,国内外资本市场,衍生品市场热点不断,如“原油跌停”、“智利地震”、“美股暴跌”、“华鑫期货违反法律法规”、“期货公司抵制文华财经”等,这些事件涉及多个金融机构、人物、产品等多类实体。通过舆情分析,寻找这些事件之间的传导关系,对市场产品(国债期货、股指期货)趋势的影响有着重要意义。通过舆情分析,寻找这些事件之间的传导关系,对市场产品(国债期货、股指期货)原创 2020-05-26 14:23:58 · 1914 阅读 · 1 评论 -
情报领域因果推理智能项目概览:以DAPAR为例
美国国防高级研究计划局(Defense Advanced Research Projects Agency),简称DARPA,提出了旨在从推进人工智能常识推理能力发展、深化机器学习理论研究和推进国防部复杂问题中应用人工智能、深化美军对人工智能的研究和应用的“的下一代人工智能”计划。具体包括有:知识导向的“人工智能推理图谱”(KAIROS )、“世界建模者”(World Modelers )、“大机...原创 2020-04-13 15:55:47 · 7328 阅读 · 0 评论 -
大规模事理常识知识系统“学迹”的定位、应用与不足
我们于3月16正式对外发布了一个面向事理的实时学习和搜索系统Demo,取名叫“学迹”,取自“学事理,知行迹”(https://xueji.zhiwenben.com)。“学迹”的发布,进一步拓宽了现有知识库的门类,为进一步获取特定事件的概念解释、前序原因、后续结果、特定事件的关联结构化信息提供了一个快速可查的入口。“学迹”自发布后,受到广泛的关注,也产生了不少疑问,如学迹的定位、学迹与现有其他搜...原创 2020-03-30 21:19:33 · 3097 阅读 · 0 评论 -
如何看待事理图谱版magi--"学迹"
如何看待事理图谱版magi–“学迹”看到界面和功能都似乎很相似,除了magi更通用一些,这个系统更专注“事件”这个领域,请问两者的区别是什么?或者说这个系统就是利用magi背后的技术做的?@zhangmianhongnizhangmianhongni commented 2 hours ago同问,一看风格就是magi一样回复大家:感谢关注,我更倾向于称它为"事理图谱版的MAGI,也...原创 2020-03-19 17:05:03 · 1220 阅读 · 0 评论 -
实时事理逻辑知识库(事理图谱)终身学习项目-EventKGNELL(学迹)
EventKGNELLEventKGNELL, event knowlege graph never end learning system, a event-centric knowledge base search system,实时事理逻辑知识库终身学习和事件为核心的知识库搜索项目。包括事件概念抽取、事件因果逻辑抽取、事件数据关联推荐与推理。一、 “学迹”项目的起源与愿景“踏雪有痕,抓...原创 2020-03-18 13:42:05 · 3052 阅读 · 1 评论 -
领域词汇知识库的类型、可用资源与构建技术漫谈
词是语言系统中重要的语言单元,词语是开展文本处理的基础,在语义表示上具有比字符更丰富的表达能力。词语具有领域特性,不同的领域具有不同的词汇体系,如军事领域、医疗领域、公共治安领域、金融领域之间存在着很大的差异性。这种领域性的特性,一方面可用于领域分类、领域标签化、领域区分、关键词提取以及特征词提取,也可支持知识图谱知识体系如本体与实例体系的搭建。另一方面,也提出了领域词汇的抽取,领域词汇之间语义关...原创 2020-01-15 20:28:02 · 3796 阅读 · 1 评论 -
没错,继事理图谱后,我们又搞事情了:数地工场自然语言处理语义开放平台正式对外发布!
重磅!数地工场开放平台正式对外发布2020年的钟声即将敲响,在这辞旧迎新之际,经过近几年在Fintech领域中的自然语言处理技术研发和产品迭代积累,数据地平线Datahorizon迎来重大更新,以数据、事件、逻辑的语义toolbox为愿景的数地工场开放平台V1.0正式对外发布。数地工场链接:http://nlp.zhiwenben.com欢迎大家前来体验并提出建议。01,什么是数地工场数...原创 2019-12-27 10:00:05 · 1808 阅读 · 5 评论 -
【再认识】认知智能下需要的实体知识与事件知识
1,知识图谱理想上双层结构,实际单层知识图谱是个双层结构。模式层和实例层,模式层,又称为本体层,模式层分成两个部分,一个是概念的上下层级,另一个是概念之间的关系层或者概念的自身属性信息层。前者规定了概念类之间的类关系,赋予了概念之间可以继承的特性,后者定义了不同类自身的属性和关系变体。严格意义上来说,知识图谱中的模式层对数据项的取值是有严格定义的,例如数据库中的各种数据类型(字符串型、float...原创 2019-11-14 13:46:46 · 1362 阅读 · 0 评论 -
【重磅】全行业事理图谱V3.0正式发布:基于实证的由因求果、由果溯因,因果路径发现
我们一直在事理图谱的探索和应用路上不断前行。。。【中科院软件所】数据地平线的金融事理图谱Demo已经和大家见面有一段时间了(Demo地址:http://eg.zhiwenben.com/),这段时间我们收到了很多用户的建议反馈和合作邀约,大家对产品的认可和喜爱我们深表感谢。今天,金融事理图谱Demo 3.0大版本正式推出,新版本在算法层面进行了深度优化,并在由因及果基础功能上加入了由果溯因,事...原创 2019-11-13 21:54:22 · 3418 阅读 · 1 评论 -
浅谈事理图谱认知:系统体系+领域收敛+人机协同+辅助范式
知识图谱是什么,有太多的理解,在工作过程中遇到一些朋友的需求,很多都是凭着对知识图谱那张可视化的图的记忆来看说,能够帮他们做知识图谱,这难免暴露出现在行业创新的急躁。当然,对于知识图谱是什么,教材是最好的例子,目前先后有高教社赵军老师团队的知识图谱,电子工业出版社肖仰华老师的知识图谱概念,也有陈华钧老师的知识图谱构建实战。第一本教材很偏学术理论,从知识工程的角度上来说的知识图谱,作者都是做实体关系...原创 2019-10-12 20:53:01 · 2766 阅读 · 1 评论 -
50万抽象知识图谱项目(实体抽象、性状抽象与动作抽象)
AbstractKnowledgeGraphAbstractKnowledgeGraph, a systematic knowledge graph that concentrate on abstract thing including abstract entity and action. 抽象知识图谱,目前规模50万,支持名词性实体、状态性描述、事件性动作进行抽象。目标于抽象知识,包括抽象...原创 2019-08-05 13:52:29 · 3989 阅读 · 1 评论 -
MiningZhiDaoQACorpus,580万百度知道问题,980万问答对数据挖掘项目
MiningZhiDaoQACorpus580万百度知道问答数据挖掘项目ZhiDaoChatCorpus, zhidao QA pairs crawled from Baidu zhidao which contains more than 5,800,000 question and answers with certain tags。百度知道问答语料库,包括超过580万的问题,每个问题带有...原创 2019-08-01 21:17:28 · 1721 阅读 · 2 评论 -
事理图谱:一种纯学术需求、无法落地、漏洞百出的新技术或新概念?
过去几个月,深陷所谓“事理图谱”当中,苦恼不已。从2018年4月份开始做所谓的“事理图谱”以来至今,磕磕碰碰,做了很多技术上的尝试,也不乏在应用事理图谱上尝试了多种做法,也不乏写了几篇关于事理图谱的文章(实际有未想明白之处)。现在写个阶段性的总结,以对过去在“事理图谱”中的工作进行一种反思。什么是事理图谱1、事理图谱是怎么来的?实话的说,“事理图谱”这个词是国内哈工大刘挺老师首次提出,对应于...原创 2019-10-04 21:08:13 · 8660 阅读 · 4 评论 -
基于线上问答社区的逻辑性知识自动问答接口ZhidaoChatbot
ZhidaoChatbotZhidaoChatbot, a chatbot that can be an expert on the common questions like why,how,when,who,what based on the online question-answer website,基于线上公开问答数据的知道类问答机器人demo,与检索方式不同,可以进行常规问题的问答,...原创 2019-03-29 22:48:51 · 1247 阅读 · 2 评论 -
基于在线百科知识库的多义词词义消歧项目
WordMultiSenseDisambiguationWordMultiSenseDisambiguation, chinese multi-wordsense disambiguation based on online bake knowledge base and semantic embedding similarity compute,基于百科知识库的中文词语多义项获取与特定句子词语...原创 2018-11-18 17:57:49 · 1581 阅读 · 5 评论 -
事理图谱概念辨析及其与风险标签分类结合的应用探讨
以事件为描述核心,以揭示事件之间的演化逻辑关系的事理图谱自提出后,引起了工业界的极大兴趣,在积极探索事理图谱本质、事理图谱构建技术细节的同时,如何找到技术与应用场景之间的结合成为目前广泛讨论的问题。我们团队持续对以上两个问题进行研究和实践,积累了一些认识,写出来与大家分享。一、事理图谱本质的类型和认知目前提到“事理图谱”这个名词时,大家或许在认知上会有很大的差异,并会伴随着如“事件图谱”、“事...原创 2019-05-24 20:56:30 · 3679 阅读 · 1 评论 -
军事武器知识图谱构建与自动问答项目QAonMilitaryKG
QAonMilitaryKG QAonMilitaryKG,QaSystem based on military knowledge graph that stores in mongodb which is different from the previous one, 基于mongodb存储的军事领域知识图谱问答项目,包括飞行器、太空装备等8大类,100余小类,共计5800项的军事武器知识...原创 2019-05-02 14:34:29 · 35227 阅读 · 6 评论 -
中文现代诗歌创作项目
PersonalModernPoemsPersonal Modern Poems,65 modern chinese pomes composed by myself which names ‘听说’<listening> that expresses the thought of life, love and surrounding during my bachelor perio...原创 2018-12-23 22:32:26 · 1482 阅读 · 0 评论 -
中文自然语言处理语言资源项目(ChineseNLPcorpus)
ChineseNLPcorpusAn collection of Chinese nlp corpus including basic Chinese syntactic wordset, semantic wordset, historic corpus and evaluate corpus. 中文自然语言处理的语料集合,包括语义词、领域共时、历时语料库、评测语料库等。本项目简单谈谈自己对语...原创 2018-12-16 11:09:04 · 6628 阅读 · 0 评论 -
KnowledgeGraph Slides项目(CCKS系列报告2013-2018)
简介 Knowledge Graph Slides, a collection of knowledge graph lectures, including the ccks series from 2013 to 2018, 中文知识图谱计算会议CCKS报告合集,涵盖从2013年至2018年,共48篇,从中可以看出从谷歌2012年推出知识图谱以来,中国学术界及工业界这6年来知识图谱的主流思想变...原创 2018-12-15 13:20:40 · 1243 阅读 · 1 评论 -
中文人物关系图谱构建与应用项目(人物关系抽取,关系抽取评测)
ChinesePersonRelationGraphChinesePersonRelationGraph, person relationship extraction based on nlp methods.中文人物关系知识图谱项目,内容包括中文人物关系图谱构建,基于知识库的数据回标,基于远程监督与bootstrapping方法的人物关系抽取,基于知识图谱的知识问答等应用.项目地址:htt...原创 2019-05-30 16:51:47 · 20843 阅读 · 9 评论 -
中文文本蕴含计算项目(88万中文文本蕴含数据集+中文文本蕴含模型)
ChineseTextualInferenceChineseTextualInference project including chinese corpus build and inferecence model, 中文文本推断项目,包括88万文本蕴含中文文本蕴含数据集的翻译与构建,基于深度学习的文本蕴含判定模型构建.项目地址:https://github.com/liuhuanyong/C...原创 2018-11-28 15:30:13 · 4051 阅读 · 1 评论 -
中文幽默语料库构建与计算项目(幽默等级识别,幽默类型识别,隐喻类型识别,隐喻情绪识别)
ChineseHumorSentimentchinese Humor Detection or Computation based on corpus and nlp methods, 基于语料库与NLP方法的中文幽默计算与检测项目项目地址:https://github.com/liuhuanyong/ChineseHumorSentiment项目介绍幽默多指令人发笑的品质或者具有发笑的能...原创 2018-11-27 21:55:21 · 2782 阅读 · 0 评论 -
语言资源的类别、搜索与搭建策略
语言资源的类别、搜索与搭建策略一、引言语言资源,本身是一个宽泛的概念,即语言+资源,语言指的是资源的限定域,资源=资+源,是资料的来源或者汇总,加在一起,也就形成了这样一种界定:任何语言单位形成的集合,都可以称为语言资源。语言资源是自然语言处理任务中的一个必不可少的组成部分,一方面语言资源是相关语言处理任务的支撑,为语言处理任务提供先验知识进行辅助,另一方面,语言处理任务也为语言资源提出了需求...原创 2018-11-22 12:11:58 · 1194 阅读 · 0 评论 -
基于法律罪行知识图谱的智能预判与客服问答
CrimeKgAssitantCrime assistant including crime type prediction and crime consult service based on nlp methods and crime kg,罪名法务智能项目,内容包括856项罪名知识图谱, 基于280万罪名训练库的罪名预测,基于20W法务问答对的13类问题分类与法律资讯问答功能.项目地址:...原创 2018-11-11 21:17:59 · 11681 阅读 · 26 评论 -
中文自然语言处理向量合集(字向量,拼音向量,词向量,词性向量,依存关系向量)
ChineseEmbeddingChinese Embedding collection incling token ,postag ,pinyin,dependency,word embedding.中文自然语言处理向量合集,包括字向量,拼音向量,词向量,词性向量,依存关系向量.共5种类型的向量.项目地址:https://github.com/liuhuanyong项目简介目前不同于on...原创 2018-11-03 19:52:02 · 14325 阅读 · 3 评论 -
自然语言处理语言资源项目
项目地址:https://github.com/liuhuanyong/LanguageResources致力于利用web公开信息,采用爬虫脚本,加工处理形成语言资源包括词汇知识库,领域语料等语言资源,该资源可用于自然语言处理任务.1、 corpus_resources.py:词库,包括: name:人民日报语料 link:https://pan.baidu.c...原创 2018-10-07 20:48:50 · 1417 阅读 · 1 评论