
人工智能
文章平均质量分 83
「已注销」
这个作者很懒,什么都没留下…
展开
-
技术总结:图算法、开源工具及其在工业界的应用场景概述
知识图谱本质上是一种图结构,在图内部数据规模大且质量高、外部算力足够的情况下,充分利用好图算法,能够最大程度地发挥出其数据价值。实际上,图(Graph)是一个常见的数据结构,现实世界中有很多很多任务可以抽象成图问题,比如社交网络,蛋白体结构,交通路网数据,以及很火的知识图谱等,甚至规则网络结构数据(如图像,视频等)也是图数据的一种特殊形式。而随着数据多样性的发展,图计算已经成为业界的一个重要的研究方向,其中图神经网络广泛应用于图的表征学习,与传统的图学习相比,既能学习图网络的拓扑结构,也能聚合邻居特征...原创 2021-09-21 19:47:21 · 2690 阅读 · 0 评论 -
技术思考:也谈知识图谱平台中的数据流程与构建范式思考
笔者之前写过一篇文章《关于知识图谱标准化构建平台的思考:知识图谱只能做项目,不能做平台?》,地址:https://blog.youkuaiyun.com/lhy2014/article/details/119857488,从技术实现的难度上,对这一平台的实现发表了自己的看法,也突出了其中确实存在的一些现实难题。而即便如此,知识图谱平台,作为一个面向不同领域的标准化、可复用平台,是各大知识图谱公司、企业都在努力的方向。那么,作为一个标准化的知识图谱平台,其构成是怎样的,其数据流程与构建范式是按照一个怎样的流程进行的。带着原创 2021-09-21 00:11:11 · 1456 阅读 · 0 评论 -
SinglepassTextCluster项目:基于single-pass算法思想的自动文本聚类组件
项目的背景SinglepassTextCluster, an TextCluster tool based on Singlepass cluster algorithm that use tfidf vector and doc2vec,which can be used for individual real-time corpus cluster task。基于single-pass算法思想的自动文本聚类小组件,内置tfidf和doc2vec两种文本向量方法,可自动输出聚类数目、类簇文档集合和簇类大原创 2021-09-04 22:53:56 · 1088 阅读 · 1 评论 -
万字长文:近年来学界、业界视角下的“事理图谱”发展总结与思考
大部分技术都会经历从提出,到验证,再到修正,再到落地的这样一个过程。事理图谱这个概念从国内学者自2017年提出到现在,已经经历了近4年的时间,那么在这四年的时间里,事理图谱目前处于一个什么样的状态。事理图谱,当前自然处于什么处理的状态。事理图谱包括事件的界定、事件关系的抽取、事件融合、事件要素提取、事件抽象、事件演化概率计算等多个技术核心点。首先,对于事件的界定上看。目前还没有看到一个标准的表示方案。我之前写过的早期文章中有介绍,事件的表示可以用核心动词(这个在目前的学术界评测集semeval,cec中采原创 2021-08-29 01:37:32 · 3159 阅读 · 0 评论 -
ChineseDiachronicCorpus项目,大规模中文历时语料库
ChineseDiachronicCorpusChineseDiachronicCorpus,中文历时语料库,横跨六十余年,包括腾讯历时新闻2009-2016,人民日报历时语料1946-2003,参考消息历时语料1957-2002。基于历时流通语料库,可用于历时语言变化计算、语言监测、社会文化变迁研究提供基础性的语料支持。# 为什么中文开放数据集如此之难有的时候我在想,chineseldc基本停滞了,后面除了gluedata benchmark,国内数据集开源为什么这么难?我想了一想,不当当是侵权的问题,原创 2021-01-16 20:08:34 · 1550 阅读 · 2 评论 -
Cognitive Inference:认知推理下的常识知识库资源、常识推理测试评估与中文实践项目索引
CognitiveInferenceCognitive Inference,认知推理、常识知识库、常识推理与常识推理评估的系统项目,以现有国内外已有的常识知识库为研究对象,从常识知识库资源建设和常识推理测试评估两个方面出发进行整理,并结合自己近几年来在逻辑性推理知识库的构建、应用以及理论思考进行介绍。具体包括已有常识知识库项目资源介绍、逻辑推理类知识库的项目实践集合、常识推理测试评估项目集合。项目地址:https://github.com/liuhuanyong/CognitiveInference/原创 2020-08-31 09:35:29 · 1494 阅读 · 0 评论 -
面向中文自然语言处理的60余类系统开源实践项目与工业探索索引
项目介绍面向中文自然语言处理的六十余类实践项目及学习索引,涵盖语言资源构建、社会计算、自然语言处理组件、知识图谱、事理图谱、知识抽取、情感分析、深度学习等几个学习主题。包括作者个人简介、学习心得、语言资源、工业落地系统等,是供自然语言处理入门学习者的一个较为全面的学习资源,欢迎大家使用,并提出批评意见。 项目地址: liuhuanyong.github.io 工业项目 项目类型 中文名称 技术点 技术博客.原创 2020-08-30 11:16:21 · 1595 阅读 · 0 评论 -
领域情报搜索实践:真实场景下的问答实施策略与风险分析
知识搜索,对于一个企业而言,目前无论是在对内管理还是对外服务的业务上,都有着大量的需求,并表现出急迫性的特征。例如,很多企业都积累了大量的企业知识资产,并且规模以每年200%的速度增长,其中80%以上的数据是以文件、邮件、图片等非结构化数据的形式,存放于企业内计算机系统中的各个角落,并且这些数据的总量,远远超过了互联网信息的总量,这些数据给整理带来很大的难度。又如,银行各个部门拥有众多IT系统,系统中存储大量数据、信息,数据结构复杂,每个系统都拥有简单的“数据库检索”功能,但常常出现找不到、找不准、找不原创 2020-06-02 12:54:30 · 3495 阅读 · 0 评论 -
情报领域因果推理智能项目概览:以DAPAR为例
美国国防高级研究计划局(Defense Advanced Research Projects Agency),简称DARPA,提出了旨在从推进人工智能常识推理能力发展、深化机器学习理论研究和推进国防部复杂问题中应用人工智能、深化美军对人工智能的研究和应用的“的下一代人工智能”计划。具体包括有:知识导向的“人工智能推理图谱”(KAIROS )、“世界建模者”(World Modelers )、“大机...原创 2020-04-13 15:55:47 · 7327 阅读 · 0 评论 -
大规模事理常识知识系统“学迹”的定位、应用与不足
我们于3月16正式对外发布了一个面向事理的实时学习和搜索系统Demo,取名叫“学迹”,取自“学事理,知行迹”(https://xueji.zhiwenben.com)。“学迹”的发布,进一步拓宽了现有知识库的门类,为进一步获取特定事件的概念解释、前序原因、后续结果、特定事件的关联结构化信息提供了一个快速可查的入口。“学迹”自发布后,受到广泛的关注,也产生了不少疑问,如学迹的定位、学迹与现有其他搜...原创 2020-03-30 21:19:33 · 3097 阅读 · 0 评论 -
实时事理学习与搜索平台DemoV1.0正式对外发布
我们团队探索了一种将事件、概念、逻辑、实时学习、多类知识库实时更新串起来的知识服务新模式。一个面向事理的实时学习和搜索系统Demo,取名叫“学迹”,取自“学事理,知行迹”。一、 “学迹”的起源与愿景“踏雪有痕,抓铁有印”,“来时须有影,去时更有踪”,万物皆有迹可循。语言是社会的镜子,每天产生的文本中蕴含了大量的事件知识,清晰地记录了社会发展中各个事物在人们脑海中的印象以及自身发展和演变的轨迹...原创 2020-03-17 21:39:24 · 907 阅读 · 0 评论 -
【再认识】认知智能下需要的实体知识与事件知识
1,知识图谱理想上双层结构,实际单层知识图谱是个双层结构。模式层和实例层,模式层,又称为本体层,模式层分成两个部分,一个是概念的上下层级,另一个是概念之间的关系层或者概念的自身属性信息层。前者规定了概念类之间的类关系,赋予了概念之间可以继承的特性,后者定义了不同类自身的属性和关系变体。严格意义上来说,知识图谱中的模式层对数据项的取值是有严格定义的,例如数据库中的各种数据类型(字符串型、float...原创 2019-11-14 13:46:46 · 1362 阅读 · 0 评论 -
自然语言处理中的中文词性、标记规范及其应用
POS = {“n”: { # 1. 名词 (1个一类,7个二类,5个三类)“n”: “名词”,“nr”: “人名”,“nr1”: “汉语姓氏”,“nr2”: “汉语名字”,“nrj”: “日语人名”,“nrf”: “音译人名”,“ns”: “地名”,“nsf”: “音译地名”,“nt”: “机构团体名”,“nz”: “其它专名”,“nl”: “名词性惯用语”,“ng...原创 2019-04-08 16:28:39 · 4369 阅读 · 1 评论 -
中文句法分析、标记规范及其应用
一、 Why句法分析二、 句法分析的类型句法分析,分成两种,一种是句子结构分析(syntactic structure parsing)和依存句法分析(dependency parsing)。其中句法结构分析又称为句法分析、短语句法分析。依存句法分析分为依存句法分析和语义依存分析两类。2.1句子结构分析本质上将句子视作为嵌套的短语组合。句法结构分析主要目的是解析整个句子的句法组织结构以及短...原创 2019-04-20 19:35:50 · 3950 阅读 · 0 评论 -
说实话:中文自然语言处理(知识图谱)的N个真实情况
中文自然语言处理,目前在AI泡沫之下,真假难辨,实战技术与PPT技术往往存在着很大的差异。目前关于AI或者自然语言处理,做的人与讲的人往往是两回事。...原创 2019-04-20 20:05:56 · 5450 阅读 · 16 评论 -
因果关系固定搭配知识库项目CausalCollocation
CausalKnowledgeBaseCausalKnowledgeBase, causal knowledge base including causal pairs extracted from web text using the methods like PMI, Collocation。基于网络文本的因果知识库项目,采用PMI,搭配抽取等方法,形成因果对频繁集。项目地址:https:...原创 2019-04-22 18:08:16 · 1547 阅读 · 1 评论 -
2004-2019十六年热点事件库HistoryHotEventBase项目
HistoryHotEventBase historyhotevent projrct ,which concentrate on the dayily hot event covers the time range from 2004 to 2019, 16 years in total,从2004年至2019年共16年的每日热点事件项目,目标包...原创 2019-04-22 23:32:49 · 2012 阅读 · 1 评论 -
军事武器知识图谱构建与自动问答项目QAonMilitaryKG
QAonMilitaryKG QAonMilitaryKG,QaSystem based on military knowledge graph that stores in mongodb which is different from the previous one, 基于mongodb存储的军事领域知识图谱问答项目,包括飞行器、太空装备等8大类,100余小类,共计5800项的军事武器知识...原创 2019-05-02 14:34:29 · 35222 阅读 · 6 评论 -
事理图谱概念辨析及其与风险标签分类结合的应用探讨
以事件为描述核心,以揭示事件之间的演化逻辑关系的事理图谱自提出后,引起了工业界的极大兴趣,在积极探索事理图谱本质、事理图谱构建技术细节的同时,如何找到技术与应用场景之间的结合成为目前广泛讨论的问题。我们团队持续对以上两个问题进行研究和实践,积累了一些认识,写出来与大家分享。一、事理图谱本质的类型和认知目前提到“事理图谱”这个名词时,大家或许在认知上会有很大的差异,并会伴随着如“事件图谱”、“事...原创 2019-05-24 20:56:30 · 3678 阅读 · 1 评论 -
50万抽象知识图谱项目(实体抽象、性状抽象与动作抽象)
AbstractKnowledgeGraphAbstractKnowledgeGraph, a systematic knowledge graph that concentrate on abstract thing including abstract entity and action. 抽象知识图谱,目前规模50万,支持名词性实体、状态性描述、事件性动作进行抽象。目标于抽象知识,包括抽象...原创 2019-08-05 13:52:29 · 3987 阅读 · 1 评论 -
MiningZhiDaoQACorpus,580万百度知道问题,980万问答对数据挖掘项目
MiningZhiDaoQACorpus580万百度知道问答数据挖掘项目ZhiDaoChatCorpus, zhidao QA pairs crawled from Baidu zhidao which contains more than 5,800,000 question and answers with certain tags。百度知道问答语料库,包括超过580万的问题,每个问题带有...原创 2019-08-01 21:17:28 · 1721 阅读 · 2 评论 -
中文自然语言处理向量合集(字向量,拼音向量,词向量,词性向量,依存关系向量)
ChineseEmbeddingChinese Embedding collection incling token ,postag ,pinyin,dependency,word embedding.中文自然语言处理向量合集,包括字向量,拼音向量,词向量,词性向量,依存关系向量.共5种类型的向量.项目地址:https://github.com/liuhuanyong项目简介目前不同于on...原创 2018-11-03 19:52:02 · 14325 阅读 · 3 评论 -
基于线上问答社区的逻辑性知识自动问答接口ZhidaoChatbot
ZhidaoChatbotZhidaoChatbot, a chatbot that can be an expert on the common questions like why,how,when,who,what based on the online question-answer website,基于线上公开问答数据的知道类问答机器人demo,与检索方式不同,可以进行常规问题的问答,...原创 2019-03-29 22:48:51 · 1247 阅读 · 2 评论 -
基于因果逻辑库的定性事件结果及结果方向性预测
EventPredictBasedOnEGfuture event predict demo based on causal event graph that covers the full industries that can predict the benefits or bad effects in accordance with the event given by the user,...原创 2019-03-29 20:13:34 · 817 阅读 · 0 评论 -
SiameseSentenceSimilarity相似句子匹配分类项目
SiameseSentenceSimilaritySiameseSentenceSimilarity,个人实现的基于Siamese bilstm模型的相似句子判定模型,提供训练数据集和测试数据集.项目地址:https://github.com/liuhuanyong/SiameseSentenceSimilarity项目介绍句子相似度计算是自然语言处理中的一个重要技术手段,主要有两种方法:...原创 2018-11-28 10:42:07 · 2111 阅读 · 0 评论 -
中文幽默语料库构建与计算项目(幽默等级识别,幽默类型识别,隐喻类型识别,隐喻情绪识别)
ChineseHumorSentimentchinese Humor Detection or Computation based on corpus and nlp methods, 基于语料库与NLP方法的中文幽默计算与检测项目项目地址:https://github.com/liuhuanyong/ChineseHumorSentiment项目介绍幽默多指令人发笑的品质或者具有发笑的能...原创 2018-11-27 21:55:21 · 2780 阅读 · 0 评论 -
语言资源的类别、搜索与搭建策略
语言资源的类别、搜索与搭建策略一、引言语言资源,本身是一个宽泛的概念,即语言+资源,语言指的是资源的限定域,资源=资+源,是资料的来源或者汇总,加在一起,也就形成了这样一种界定:任何语言单位形成的集合,都可以称为语言资源。语言资源是自然语言处理任务中的一个必不可少的组成部分,一方面语言资源是相关语言处理任务的支撑,为语言处理任务提供先验知识进行辅助,另一方面,语言处理任务也为语言资源提出了需求...原创 2018-11-22 12:11:58 · 1194 阅读 · 0 评论 -
基于在线百科知识库的多义词词义消歧项目
WordMultiSenseDisambiguationWordMultiSenseDisambiguation, chinese multi-wordsense disambiguation based on online bake knowledge base and semantic embedding similarity compute,基于百科知识库的中文词语多义项获取与特定句子词语...原创 2018-11-18 17:57:49 · 1580 阅读 · 5 评论 -
基于法律罪行知识图谱的智能预判与客服问答
CrimeKgAssitantCrime assistant including crime type prediction and crime consult service based on nlp methods and crime kg,罪名法务智能项目,内容包括856项罪名知识图谱, 基于280万罪名训练库的罪名预测,基于20W法务问答对的13类问题分类与法律资讯问答功能.项目地址:...原创 2018-11-11 21:17:59 · 11679 阅读 · 26 评论 -
新闻事件报道重要性判定项目
EventLine项目地址:https://github.com/liuhuanyong/ImportantEventExtractoAn exploration for Eventline (important news Rank organized by pulic time),针对某一事件话题下的新闻报道集合,通过使用docrank算法,对新闻报道进行重要性识别,并通过新闻报道时间挑选出...原创 2018-10-07 11:05:23 · 1783 阅读 · 0 评论 -
中国古代诗词文本挖掘项目
PoemMining项目地址:https://github.com/liuhuanyong/PoemMiningChinese Classic Poem Mining Project including corpus buiding by spyder and content analysis by nlp methods, 基于爬虫与nlp的中国古代诗词文本挖掘项目项目介绍中国古代诗词文...原创 2018-10-07 11:01:15 · 4331 阅读 · 1 评论 -
基于裁判文书与犯罪案例文本挖掘项目
LawCrimeMiningLaw Crime Mining Based on Corpus build and content analysis by NLP methods. 基于领域语料库构建与NLP方法的裁判文书与犯罪案例文本挖掘项目项目地址:https://github.com/liuhuanyong/LawCrimeMining项目介绍正邪不两立,法律与犯罪水火不容,随着我国法...原创 2018-10-07 10:33:45 · 5359 阅读 · 1 评论 -
中文词语概念上下位图谱项目
HyponymyExtraction项目地址:https://github.com/liuhuanyong/HyponymyExtractionHyponymyExtraction and Graph based on KB Schema, Baike-kb and online text extract, 基于知识概念体系,百科知识库,以及在线搜索结构化方式的词语上下位抽取.项目介绍上下...原创 2018-10-07 10:26:40 · 6830 阅读 · 0 评论 -
中文电子病例命名实体识别项目
MedicalNamedEntityRecognitionMedical Named Entity Recognition implement using bi-directional lstm and crf model with char embedding.CCKS2018中文电子病例命名实体识别项目,主要实现使用了基于字向量的四层双向LSTM与CRF模型的网络.该项目提供了原始训练数据...原创 2018-11-28 12:10:18 · 14064 阅读 · 30 评论 -
中文文本蕴含计算项目(88万中文文本蕴含数据集+中文文本蕴含模型)
ChineseTextualInferenceChineseTextualInference project including chinese corpus build and inferecence model, 中文文本推断项目,包括88万文本蕴含中文文本蕴含数据集的翻译与构建,基于深度学习的文本蕴含判定模型构建.项目地址:https://github.com/liuhuanyong/C...原创 2018-11-28 15:30:13 · 4050 阅读 · 1 评论 -
中文人物关系图谱构建与应用项目(人物关系抽取,关系抽取评测)
ChinesePersonRelationGraphChinesePersonRelationGraph, person relationship extraction based on nlp methods.中文人物关系知识图谱项目,内容包括中文人物关系图谱构建,基于知识库的数据回标,基于远程监督与bootstrapping方法的人物关系抽取,基于知识图谱的知识问答等应用.项目地址:htt...原创 2019-05-30 16:51:47 · 20842 阅读 · 9 评论 -
知识图谱之语言计算与信息抽取
语言计算与信息抽取是自然语言处理中两块重要内容。本文将根据自己的工作总结,形成了语言计算与信息抽取的知识图谱分布图。一、总体图谱二、概念抽取三、实体抽取四、事件抽取五、语言监测六、文本计算内容七、文本内容计算应用总结 本文介绍了关于语言计算与信息抽取关联知识网络,作为...原创 2019-03-25 20:10:48 · 3918 阅读 · 0 评论 -
我们的实践: 400万全行业动态事理图谱Demo
历史经验知识在未来预测的应用华尔街的独角兽Kensho,是智能金融Fintech的一个不得不提的成功案例,这个由高盛领投的6280万美元投资,总融资高达7280万美元的公司自推出后便名声大噪。Warren是kensho是一个代表产品,用户能够以通俗易懂的英文来询问Warren金融问题,例如“当三级飓风袭击佛罗里达州时,哪支股票上涨得最快?”在回答这个问题的时候,它会在后台强大的全球历史事件库中进...原创 2019-01-16 23:31:01 · 3059 阅读 · 2 评论 -
知识表示发展史:从一阶谓词逻辑到知识图谱再到事理图谱
研究证实,人类从一出生即开始累积庞大且复杂的数据库,包括各种文字、数字、符码、味道、食物、线条、颜色、公式、声音等,大脑惊人的储存能力使我们累积了海量的资料,这些资料构成了人类的认知知识基础。实验表明,将数据依据彼此间的关联性进行分层分类管理,使资料的储存、管理及应用更加系统化,可以提高大脑运作的效率。知识库是实现人工智能的基础元件,知识库是理解人类语言的背景知识,而如何构造这个知识库,找到一种合...原创 2019-01-14 10:36:32 · 10721 阅读 · 3 评论 -
运用事理图谱搞事情:新闻预警、事件监测、文本可视化、出行规划与历时事件流生成
运用事理图谱搞事情:新闻预警、事件监测、文本可视化、路径规划与快报生成        目前,事理图谱在描述领域事件时空信息上具有独特性,这种逻辑图结构能够以一种直观的方式向我们展现出一个领域知识的链路信息。从学术的角度上来说,事理图谱与事件抽取、事件关系抽取、脚本学习、事件链生成、篇章句间关系识别、图谱图结构运算等多个研究方向关系密切,具原创 2019-01-18 16:39:39 · 6737 阅读 · 2 评论