
语言信息处理
文章平均质量分 84
「已注销」
这个作者很懒,什么都没留下…
展开
-
工程实践:基于规则句法的事件关系与主谓宾三元组抽取项目实现
目前,知识图谱在学术界如火如荼地进行,但受限于知识图谱各个环节中的性能问题,还尚未能够在工业界大规模运用。而与知识图谱中以实体为知识节点,实体关系为实体关系边对知识进行组织不同,以事件作为节点,事件关系作为节点关联的三元组信息的抽取和应用,当前也是大家在探索的一个方向(即事理图谱,先撇开其建模和应用现状不讲)。笔者之前围绕事件关系三元组抽取,结合语言学背景,尝试了一些朴素方式下的事件关系三元组、事件主谓宾三元组抽取的工作。如:顺承事件关系三元组抽取,地址:https://github.com/liuh原创 2021-10-02 18:12:36 · 4714 阅读 · 1 评论 -
工程实践:基于规则模式的军事和医药领域知识图谱问答快速实现
知识结构化问答是知识图谱的一个重要的应用方向,虽然现在许多真实的使用体验上,会被评价为“鸡肋且智障”,并且在落地上还没有太多的付费场景,但也不乏有不少学生、公司、机构在尝试花时间去做这个事情。当前,医疗知识图谱QAonMilitaryKG,成为了不少朋友都会参考的一个问答快速实现demo的案例,网上也有不少的复现和踩坑记录总结。本文则围绕着医疗知识图谱QAonMilitaryKG和军事武器知识图谱问答两个项目进行简要介绍,希望可以作为大家的一个指引。一、军事武器知识图谱构建与自动问答项目QAonMilit原创 2021-10-02 18:08:48 · 3240 阅读 · 2 评论 -
老刘说NLP:焦虑被大肆贩卖下的自然语言处理学习思考
当下,越来越多的人在贩卖焦虑。当我们打开知乎、脉脉、公众号、软文、自然语言处理速成机构等发布的文章和消息时,总能看到自然语言处理算法岗灰飞烟灭、算法岗高薪速成宝典等传递和炒作焦虑的身影。这些身影,直接导致了越来越多的人陷入一种茫然与迷茫之中,在算法岗高薪的诱惑之下,越来越多人(无论是科班的,半路出家的),都加入到算法岗的从业大潮之中,并且逐步形成了市场中人员素质参差不齐、鱼龙混杂,最终劣币驱逐良币的畸形形态。近期,有不少朋友来信,表示对当前的状态很不满,希望能够尽快地找到一个合适的方向、快速的学习方式,提原创 2021-09-12 23:48:14 · 1597 阅读 · 2 评论 -
关于话题演化关系网络生成的路线思考:从话题聚类到话题网络展示
话题演化关系网络生成,是实现事件演化追踪的一个重要方法。通过对文本话题进行聚类、内容处理、话题演化关联、话题演化网络的展示,能够在一定程度上为用户揭示出一个事件发展的情况。本文就笔者对该方向的实现路线思考进行总结,分享给大家。一、文本话题聚类1、使用single-pass趟次聚类算法,将聚类的相似度阈值设置为0.6,对给定主题的所有文本进行聚类,得到多个话题类及每个类别下对应的文档集合。2、假设一个话题下必须包含的文档数量大于某个阈值,否则不能成为话题。在本次实验中,将类下文档数量小于2的主题进行删除原创 2021-09-04 23:52:29 · 1430 阅读 · 0 评论 -
SinglepassTextCluster项目:基于single-pass算法思想的自动文本聚类组件
项目的背景SinglepassTextCluster, an TextCluster tool based on Singlepass cluster algorithm that use tfidf vector and doc2vec,which can be used for individual real-time corpus cluster task。基于single-pass算法思想的自动文本聚类小组件,内置tfidf和doc2vec两种文本向量方法,可自动输出聚类数目、类簇文档集合和簇类大原创 2021-09-04 22:53:56 · 1088 阅读 · 1 评论 -
大规模领域词汇库项目DomainWordsDict:涵盖68个领域、共计916万的词汇库资源开放
项目概述DomainWordsDict, Chinese words dict that contains more than 68 domains, which can be used as text classification、knowledge enhance task。涵盖68个领域、共计916万词的专业词典知识库,可用于文本分类、知识增强、领域词汇库扩充等自然语言处理应用。在利用学习模型进行自然语言处理任务时候,领域词汇可以作为一项重要的领域特征加入到模型当中,可以提升领域性模型的性能。地址原创 2021-08-28 12:27:47 · 3230 阅读 · 0 评论 -
CCKS2020事理图谱应用工作:刘焕勇等.面向开放文本的逻辑推理知识抽取与事件影响推理探索
一、背景介绍第十四届全国知识图谱与语义计算大会(CCKS 2020) 11 月 12 日至 15 日在江西南昌举行,CCKS(China Conference on Knowledge Graph and Semantic Computing)是由中国中文信息学会语言与知识计算专委会定期举办的全国年度学术会议,CCKS 已经成为国内知识图谱、语义技术、语言理解和知识计算等领域的核心会议。中国科学院软件研究所&数据地平线在事理图谱方面的应用工作《C13. 刘焕勇等.面向开放文本的逻辑推理知识抽取与原创 2020-12-16 12:12:07 · 3008 阅读 · 6 评论 -
唐刘之辩:行业知识图谱的schema构建的难点、重点与困惑
一、议题昨日,阿里达摩院唐呈光老师与我就行业知识图谱的schema的构建对于业务人员是不是有困难以及其中的难点或者耗时点做了一个剪短的讨论,我觉得很有趣,发出来与大家一同思考。唐:唐呈光,阿里巴巴算法专家小蜜对话开发平台对话引擎负责人刘:刘焕勇,中国科学院软件研究所工程师、数据地平线算法总监二、 正文唐:焕勇,有个问题想和你探讨一下,你觉得行业知识图谱的schema的构建对于业务人员是不是有困难?这其中的难点或者耗时点,到底在哪里?刘:唐老师,简单说两点自己的拙见。刘:1、是的,尤其是刚入行不原创 2020-12-16 10:35:18 · 5841 阅读 · 4 评论 -
事理逻辑为核心的自然语言处理理论实践与工业探索项目
事理为核心的自然语言处理项目 项目类型 中文名称 技术点 技术公众号 数地工场技术文章 面向事理图谱、知识库构建、社会计算等技术落地探索 事理自然语言处理语义平台 数地工场 信息抽取、舆情分析、语义计算、信息采集类、问句解析类api 7*24小时实时抽象事理学习、搜索与关联推理系..原创 2020-08-30 11:09:49 · 763 阅读 · 0 评论 -
可信知识实证在UGC时代情报应用中的思考与探索
可信知识实证在UGC时代情报应用中的思考与探索在当前互联网高度发达、可发布信息源和信息渠道猛增且多元化的大背景下,信息形态变得广泛且多模。从传统的纸质文档,到中期的电子结构化文档、电子非结构化文本,再到如今的语音信息、图片信息、视频流信息鼎立的局面,信息市场变得复杂而多变。在UGC(用户生产内容)以及数据众包生产的大环境下,存在广泛的信息过载和信息混乱的问题。但情报的挖掘、信息的二次加工显得尴尬且必须,这对数据生产中的数据获取端、知识抽取环节以及业务端三个方向提出了更高的要求。事实上,支撑起目前自然语原创 2020-07-28 18:56:12 · 740 阅读 · 0 评论 -
ChineseSemanticKB,面向中文处理的12类、百万规模的语义常用词库存
ChineseSemanticKBChineseSemanticKB,chinese semantic knowledge base, 面向中文处理的12类、百万规模的语义常用词典,包括34万抽象语义库、34万反义语义库、43万同义语义库等,可支持句子扩展、转写、事件抽象与泛化等多种应用场景。项目介绍语义知识库是自然语言处理中十分重要的一个基础资源,与学术界追求算法模型不同,工业界的自然语言处理对于底层的词汇知识库、语义知识库等多种资源依赖度很高,具体体现在:1、具有落地场景的自然语言处理任务都是业原创 2020-07-18 22:57:01 · 993 阅读 · 0 评论 -
基于法律罪行知识图谱的智能预判与客服问答
CrimeKgAssitantCrime assistant including crime type prediction and crime consult service based on nlp methods and crime kg,罪名法务智能项目,内容包括856项罪名知识图谱, 基于280万罪名训练库的罪名预测,基于20W法务问答对的13类问题分类与法律资讯问答功能.项目地址:...原创 2018-11-11 21:17:59 · 11679 阅读 · 26 评论 -
说实话:中文自然语言处理(知识图谱)的N个真实情况
中文自然语言处理,目前在AI泡沫之下,真假难辨,实战技术与PPT技术往往存在着很大的差异。目前关于AI或者自然语言处理,做的人与讲的人往往是两回事。...原创 2019-04-20 20:05:56 · 5450 阅读 · 16 评论 -
因果关系固定搭配知识库项目CausalCollocation
CausalKnowledgeBaseCausalKnowledgeBase, causal knowledge base including causal pairs extracted from web text using the methods like PMI, Collocation。基于网络文本的因果知识库项目,采用PMI,搭配抽取等方法,形成因果对频繁集。项目地址:https:...原创 2019-04-22 18:08:16 · 1547 阅读 · 1 评论 -
2004-2019十六年热点事件库HistoryHotEventBase项目
HistoryHotEventBase historyhotevent projrct ,which concentrate on the dayily hot event covers the time range from 2004 to 2019, 16 years in total,从2004年至2019年共16年的每日热点事件项目,目标包...原创 2019-04-22 23:32:49 · 2012 阅读 · 1 评论 -
事理图谱概念辨析及其与风险标签分类结合的应用探讨
以事件为描述核心,以揭示事件之间的演化逻辑关系的事理图谱自提出后,引起了工业界的极大兴趣,在积极探索事理图谱本质、事理图谱构建技术细节的同时,如何找到技术与应用场景之间的结合成为目前广泛讨论的问题。我们团队持续对以上两个问题进行研究和实践,积累了一些认识,写出来与大家分享。一、事理图谱本质的类型和认知目前提到“事理图谱”这个名词时,大家或许在认知上会有很大的差异,并会伴随着如“事件图谱”、“事...原创 2019-05-24 20:56:30 · 3678 阅读 · 1 评论 -
MiningZhiDaoQACorpus,580万百度知道问题,980万问答对数据挖掘项目
MiningZhiDaoQACorpus580万百度知道问答数据挖掘项目ZhiDaoChatCorpus, zhidao QA pairs crawled from Baidu zhidao which contains more than 5,800,000 question and answers with certain tags。百度知道问答语料库,包括超过580万的问题,每个问题带有...原创 2019-08-01 21:17:28 · 1721 阅读 · 2 评论 -
热点事件发现、演化及时间线Timeline、故事线Storyline自动生成
一、热点事件概述二、热点事件的挖掘可行性三、热点事件的挖掘方法四、热点事件演化分析五、热点事件的时间线timeline及故事线Storyline生成六、总结...原创 2019-04-20 19:46:56 · 9082 阅读 · 5 评论 -
中文句法分析、标记规范及其应用
一、 Why句法分析二、 句法分析的类型句法分析,分成两种,一种是句子结构分析(syntactic structure parsing)和依存句法分析(dependency parsing)。其中句法结构分析又称为句法分析、短语句法分析。依存句法分析分为依存句法分析和语义依存分析两类。2.1句子结构分析本质上将句子视作为嵌套的短语组合。句法结构分析主要目的是解析整个句子的句法组织结构以及短...原创 2019-04-20 19:35:50 · 3950 阅读 · 0 评论 -
自然语言处理中的中文词性、标记规范及其应用
POS = {“n”: { # 1. 名词 (1个一类,7个二类,5个三类)“n”: “名词”,“nr”: “人名”,“nr1”: “汉语姓氏”,“nr2”: “汉语名字”,“nrj”: “日语人名”,“nrf”: “音译人名”,“ns”: “地名”,“nsf”: “音译地名”,“nt”: “机构团体名”,“nz”: “其它专名”,“nl”: “名词性惯用语”,“ng...原创 2019-04-08 16:28:39 · 4369 阅读 · 1 评论 -
中文电子病例命名实体识别项目
MedicalNamedEntityRecognitionMedical Named Entity Recognition implement using bi-directional lstm and crf model with char embedding.CCKS2018中文电子病例命名实体识别项目,主要实现使用了基于字向量的四层双向LSTM与CRF模型的网络.该项目提供了原始训练数据...原创 2018-11-28 12:10:18 · 14064 阅读 · 30 评论 -
SiameseSentenceSimilarity相似句子匹配分类项目
SiameseSentenceSimilaritySiameseSentenceSimilarity,个人实现的基于Siamese bilstm模型的相似句子判定模型,提供训练数据集和测试数据集.项目地址:https://github.com/liuhuanyong/SiameseSentenceSimilarity项目介绍句子相似度计算是自然语言处理中的一个重要技术手段,主要有两种方法:...原创 2018-11-28 10:42:07 · 2111 阅读 · 0 评论 -
中文幽默语料库构建与计算项目(幽默等级识别,幽默类型识别,隐喻类型识别,隐喻情绪识别)
ChineseHumorSentimentchinese Humor Detection or Computation based on corpus and nlp methods, 基于语料库与NLP方法的中文幽默计算与检测项目项目地址:https://github.com/liuhuanyong/ChineseHumorSentiment项目介绍幽默多指令人发笑的品质或者具有发笑的能...原创 2018-11-27 21:55:21 · 2780 阅读 · 0 评论 -
语言资源的类别、搜索与搭建策略
语言资源的类别、搜索与搭建策略一、引言语言资源,本身是一个宽泛的概念,即语言+资源,语言指的是资源的限定域,资源=资+源,是资料的来源或者汇总,加在一起,也就形成了这样一种界定:任何语言单位形成的集合,都可以称为语言资源。语言资源是自然语言处理任务中的一个必不可少的组成部分,一方面语言资源是相关语言处理任务的支撑,为语言处理任务提供先验知识进行辅助,另一方面,语言处理任务也为语言资源提出了需求...原创 2018-11-22 12:11:58 · 1194 阅读 · 0 评论 -
基于在线百科知识库的多义词词义消歧项目
WordMultiSenseDisambiguationWordMultiSenseDisambiguation, chinese multi-wordsense disambiguation based on online bake knowledge base and semantic embedding similarity compute,基于百科知识库的中文词语多义项获取与特定句子词语...原创 2018-11-18 17:57:49 · 1580 阅读 · 5 评论 -
中文自然语言处理向量合集(字向量,拼音向量,词向量,词性向量,依存关系向量)
ChineseEmbeddingChinese Embedding collection incling token ,postag ,pinyin,dependency,word embedding.中文自然语言处理向量合集,包括字向量,拼音向量,词向量,词性向量,依存关系向量.共5种类型的向量.项目地址:https://github.com/liuhuanyong项目简介目前不同于on...原创 2018-11-03 19:52:02 · 14325 阅读 · 3 评论 -
新闻事件报道重要性判定项目
EventLine项目地址:https://github.com/liuhuanyong/ImportantEventExtractoAn exploration for Eventline (important news Rank organized by pulic time),针对某一事件话题下的新闻报道集合,通过使用docrank算法,对新闻报道进行重要性识别,并通过新闻报道时间挑选出...原创 2018-10-07 11:05:23 · 1783 阅读 · 0 评论 -
基于裁判文书与犯罪案例文本挖掘项目
LawCrimeMiningLaw Crime Mining Based on Corpus build and content analysis by NLP methods. 基于领域语料库构建与NLP方法的裁判文书与犯罪案例文本挖掘项目项目地址:https://github.com/liuhuanyong/LawCrimeMining项目介绍正邪不两立,法律与犯罪水火不容,随着我国法...原创 2018-10-07 10:33:45 · 5359 阅读 · 1 评论 -
KnowledgeGraph Slides项目(CCKS系列报告2013-2018)
简介 Knowledge Graph Slides, a collection of knowledge graph lectures, including the ccks series from 2013 to 2018, 中文知识图谱计算会议CCKS报告合集,涵盖从2013年至2018年,共48篇,从中可以看出从谷歌2012年推出知识图谱以来,中国学术界及工业界这6年来知识图谱的主流思想变...原创 2018-12-15 13:20:40 · 1243 阅读 · 1 评论 -
中文自然语言处理语言资源项目(ChineseNLPcorpus)
ChineseNLPcorpusAn collection of Chinese nlp corpus including basic Chinese syntactic wordset, semantic wordset, historic corpus and evaluate corpus. 中文自然语言处理的语料集合,包括语义词、领域共时、历时语料库、评测语料库等。本项目简单谈谈自己对语...原创 2018-12-16 11:09:04 · 6627 阅读 · 0 评论 -
基于线上问答社区的逻辑性知识自动问答接口ZhidaoChatbot
ZhidaoChatbotZhidaoChatbot, a chatbot that can be an expert on the common questions like why,how,when,who,what based on the online question-answer website,基于线上公开问答数据的知道类问答机器人demo,与检索方式不同,可以进行常规问题的问答,...原创 2019-03-29 22:48:51 · 1247 阅读 · 2 评论 -
基于因果逻辑库的定性事件结果及结果方向性预测
EventPredictBasedOnEGfuture event predict demo based on causal event graph that covers the full industries that can predict the benefits or bad effects in accordance with the event given by the user,...原创 2019-03-29 20:13:34 · 817 阅读 · 0 评论 -
知识图谱之语言计算与信息抽取
语言计算与信息抽取是自然语言处理中两块重要内容。本文将根据自己的工作总结,形成了语言计算与信息抽取的知识图谱分布图。一、总体图谱二、概念抽取三、实体抽取四、事件抽取五、语言监测六、文本计算内容七、文本内容计算应用总结 本文介绍了关于语言计算与信息抽取关联知识网络,作为...原创 2019-03-25 20:10:48 · 3918 阅读 · 0 评论 -
我们的实践: 400万全行业动态事理图谱Demo
历史经验知识在未来预测的应用华尔街的独角兽Kensho,是智能金融Fintech的一个不得不提的成功案例,这个由高盛领投的6280万美元投资,总融资高达7280万美元的公司自推出后便名声大噪。Warren是kensho是一个代表产品,用户能够以通俗易懂的英文来询问Warren金融问题,例如“当三级飓风袭击佛罗里达州时,哪支股票上涨得最快?”在回答这个问题的时候,它会在后台强大的全球历史事件库中进...原创 2019-01-16 23:31:01 · 3059 阅读 · 2 评论 -
运用事理图谱搞事情:新闻预警、事件监测、文本可视化、出行规划与历时事件流生成
运用事理图谱搞事情:新闻预警、事件监测、文本可视化、路径规划与快报生成        目前,事理图谱在描述领域事件时空信息上具有独特性,这种逻辑图结构能够以一种直观的方式向我们展现出一个领域知识的链路信息。从学术的角度上来说,事理图谱与事件抽取、事件关系抽取、脚本学习、事件链生成、篇章句间关系识别、图谱图结构运算等多个研究方向关系密切,具原创 2019-01-18 16:39:39 · 6737 阅读 · 2 评论 -
事件、事件抽取与事理图谱
事件、事件抽取与事理图谱    人类社会是一个静态事物进行动态活动所创造形成的世界,人类的命题记忆是以“事件”为存储单位的,存储的是组成事件的概念及其之间的关系以及事件及其之间的关系,以事件作为知识的基本单元更能反映客观世界的知识,特别是知识的动态性,从认知心理学的角度来看,事件更符合人类的理解与思维习惯。知识库是机器实现认知智能的根本前提之一,如何让机器...原创 2019-01-04 23:06:04 · 18753 阅读 · 1 评论 -
中文现代诗歌创作项目
PersonalModernPoemsPersonal Modern Poems,65 modern chinese pomes composed by myself which names ‘听说’<listening> that expresses the thought of life, love and surrounding during my bachelor perio...原创 2018-12-23 22:32:26 · 1482 阅读 · 0 评论 -
中文词语概念上下位图谱项目
HyponymyExtraction项目地址:https://github.com/liuhuanyong/HyponymyExtractionHyponymyExtraction and Graph based on KB Schema, Baike-kb and online text extract, 基于知识概念体系,百科知识库,以及在线搜索结构化方式的词语上下位抽取.项目介绍上下...原创 2018-10-07 10:26:40 · 6830 阅读 · 0 评论