
自然语言处理
文章平均质量分 75
最小森林
It's now or never .
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python日期实体提取
日期实体提取1 需求根据用户的每句语音进行解析,识别出用户的酒店预订需求,如房间型号、入住时间等;用户的语音在发送给后台进行请求时已经转换成中文文本,然而由于语音转换工具的识别问题,许多日期类的数据并不是严格的数字,会出现诸如“六月12”“2016年八月”“20160812”“后天下午”等形式。例如“我要今天住到明天”(假设今天为2017年10月1号),那么通过日期解析后,应该输出为“201...转载 2019-12-04 21:16:44 · 3712 阅读 · 1 评论 -
译文:Relation Classification via Multi-Level Attention CNNs 使用多层级attention机制的CNN进行关系分类
通过多层面的attention CNN的关系分类原文:Relation Classification via Multi-Level Attention CNNs http://eprints.bimcoordinator.co.uk/14/摘要:关系分类是众多从文本中挖掘结构化事实的信息抽取系统中的一个重要组成部分。我们提出了一种新的卷积神经网络体系结构,针对这一任务,依赖于两个层次...翻译 2019-02-22 10:59:23 · 4192 阅读 · 3 评论 -
00 知识图谱 课程导读
知识图谱 课程导读文章目录知识图谱 课程导读0课程介绍1下载地址2课程大纲:第一课: 知识图谱概论第二课: 知识表示与知识建模第三课: 知识抽取与挖掘I第四课: 知识抽取与挖掘II第五课: 知识存储第六课: 知识融合第七课: 知识推理第八课: 语义搜索第九课: 知识问答I第十课: 知识问答II第十一课: 行业知识图谱应用0课程介绍本文为小象学院 王昊奋 的知识图谱课程笔...原创 2019-02-24 11:09:11 · 1853 阅读 · 4 评论 -
01 知识图谱概论
01 知识图谱概论本文是王昊奋老师《知识图谱》系列笔记第1篇。文章目录01 知识图谱概论1 知识图谱与语义技术概览1.1 知识图谱的概念演化1.1.1 语义网络(Semantic Networks)1.1.2 本体论(Ontology)1.1.3 万维网 Web1.1.4 语义网(THe Semantic Web)1.1.5 链接数据(LInked Data)1.1.6 知识图谱(K...原创 2019-03-01 11:18:58 · 2383 阅读 · 0 评论 -
02 知识图谱知识表示与知识建模
知识表示与知识建模本文是王昊奋老师《知识图谱》系列笔记第2篇。文章目录知识表示与知识建模1知识的概与早期的知识表示方法1.1 知识的概念1.1.1 知识的特点1.1.2 知识的分类1.2 早期的知识表示方法1.2.1一阶谓词逻辑(不重要)1.2.2产生式系统1.2.3框架表示法(类似一个模版)1.2.4语义网络2基于语义网的知识表示框架2.1 RDF简介2.2 RDFS(RDF Sc...原创 2019-03-01 11:25:26 · 3094 阅读 · 0 评论 -
02.1 知识图谱工具 Protege的下载安装与使用
Protege的下载安装与使用本文是王昊奋老师《知识图谱》系列笔记第2.1篇。文章目录Protege的下载安装与使用0 相关介绍0.0 Protege相关介绍0.1 Protégé的特点0.2 Protégé的用途1 Protege的下载1.1 准备工作:安装配置JAVA环境1.2 官网下载2 Protege的安装2.1 直接解压缩2.2 双击运行3 Protege的使用实例-创建类...原创 2019-03-01 11:27:19 · 67301 阅读 · 28 评论 -
Self-Attention GAN 中的 self-attention 机制
Self-Attention GAN 中的 self-attention 机制文章目录Self-Attention GAN 中的 self-attention 机制1 论文简介2 Self-Attention3总结4参考文献转载自:里昂中央理工博士在读 尹相楠: https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247495...转载 2019-03-06 11:15:35 · 7617 阅读 · 9 评论 -
怎么保存Protege 5.x中HermiT推理机reasoner的推理结果?
How save the result of reasoner HermiT in Protege怎么保存Protege 5.x中HermiT推理机reasoner的推理结果?我们在使用Protégé5.5,我想将推理器的结果保存到本体文件中。当我停止推理时,所有结果都消失了。如何保存结果?1现象当我们使用推理机推理后,protege推理出来的结果会用黄色标出。但是当我们想要保存推理后的...原创 2019-03-22 11:35:57 · 5397 阅读 · 3 评论 -
python替换同义词 jieba替换同义词
python替换同义词 jieba替换同义词文章目录python替换同义词 jieba替换同义词0 描述:1构建同义词文件txt2代码0 描述:在构建基于知识图谱的问答系统过程中,我们发现 知识图谱对于实体的识别是非常敏感的, 如果用户输入的关键词 不对(哪怕只差一个词) 知识图谱就找不到对应的三元组。所以我们打算现将用户的输入做一个预处理 , 将一些同义词 手动 转化为 知识图谱的中标准...原创 2019-03-26 09:55:33 · 15233 阅读 · 3 评论 -
Fuseki Result: failed with message SyntaxError: Unexpected token in JSON at position 0
Fuseki: Not able to upload owl fileFuseki无法上传三元组,报错Result: failed with message “SyntaxError: Unexpected token < in JSON at position 0”解决办法:修改文件:run/configuration/fuseki_conf.ttl在service1配置中添加...原创 2019-03-23 20:51:59 · 1842 阅读 · 2 评论 -
03 知识图谱 知识抽取
知识抽取与挖掘本文是王昊奋老师《知识图谱》系列笔记第三篇。文章目录1. 知识抽取的概念and子任务(非结构化信息抽取)1.1 实体识别1.1.1 实体识别其他应用1.1.1.1 实体链接(共指消解 实体消歧)1.1.1.2 其他应用1.1.2 实体识别算法1.1.2.1 方法一般流程1.1.2.2 编码方式1.1.2.4 机器学习算法1.1.2.5 实验1:用CRF做实体识别实验。1...原创 2019-04-26 14:41:43 · 3202 阅读 · 0 评论 -
实践篇(1)准备数据和本体建模
本文参考知乎大神SimmerChan文章:《实践篇(一):数据准备和本体建模》https://zhuanlan.zhihu.com/p/32389370文章目录1. 数据准备2. 本体建模2.1 Protege的下载安装2.2 构建本体2.2.1 本体资源的IRI2.2.2 定义“类”2.2.3 定义实体间的关系2.2.4 定义实体属性2.2.5 可视化本体2.2.6 本体保存3 总结...原创 2019-04-26 14:44:18 · 3564 阅读 · 1 评论 -
实践篇(2):关系数据库到RDF
文章目录简介1. D2RQ下载安装2. D2RQ安装3. D2RQ的使用3.1 D2RQ使用第一步:生成mapping3.2 D2RQ使用第二步:修改mapping文件3.3 D2RQ使用第三步:生成RDF文件简介在上一文章中我们定义了本体结构、并且把数据保存在mysql中,其ER图如下:为了把RDB(关系型数据库)转换成RDF(三元组形式),同时把RDB中数据映射到我们定义的本体上...原创 2019-04-26 14:46:36 · 2723 阅读 · 1 评论 -
实践篇(3)RDF查询语言SPARQL
本文转载自SimmerChan大神知乎文章:https://zhuanlan.zhihu.com/p/32703794文章目录简介1. SPARQL2、例子3开放域假设4、总结简介前面我们已经介绍过了语义网技术栈中的RDF,RDFS/OWL。这次我们介绍最后一个核心技术标准——SPARQL(RDF,OWL和SPARQL称为语义网的三大核心技术)。RDF本质上是一种数据模型,那么我们...原创 2019-04-26 14:53:05 · 1622 阅读 · 0 评论 -
实践篇(4):Apache jena SPARQL endpoint及推理
本文主要参考SimmerChan大神文章:https://zhuanlan.zhihu.com/p/33224431 做了一些版本更新0 前言在上一步,我们得到了.nt格式的三元组文件。并且学会了如果使用sparsql语句进行三元组查询。在这篇文章我们将利用框架实现对三元组知识的查询。我们知道SPARQL是我们最常用的查询三元组的工具,那么我们需要一个平台,这个平台既可以在下层...原创 2019-04-26 14:54:21 · 2766 阅读 · 0 评论 -
实践篇(5):基于REfO的简单知识问答
本文主要参考SimmerChan大神文章:https://zhuanlan.zhihu.com/p/33224431Pelhans 大神的博客:http://pelhans.com/2018/09/03/kg_from_0_note3/1 简介基于浙江大学在openKG上提供的 基于REfO的KBQA实现及示例。代码部分浙大方面已经完成绝大部分,这里主要将其应用到自己的知识图谱上。...原创 2019-04-26 14:55:39 · 6367 阅读 · 1 评论 -
在Keras的Embedding层中使用预训练的word2vec词向量
文章目录1 准备工作1.1 什么是词向量?1.2 获取词向量2 转化词向量为keras所需格式2.1 获取所有词语word和词向量2.2 构造“词语-词向量”字典2.3 填充字典和矩阵2.4 在 keras的Embedding层中使用 预训练词向量*2.5 不使用“预训练”而直接生成词向量3 整体代码:在Keras模型中使用预训练的词向量3.1 读取数据3.2 句子分词3.3 *构造词向量字典3....原创 2019-05-15 15:54:32 · 20482 阅读 · 19 评论 -
2019-06-17问答系统项目落地调研
文章目录1 chatbot概述1.1 行业分类及目前的应用状况1.2 问答实现方式1.3 两种问答模式的优劣:2 框架分析2.1 平台型2.1.1 Wit.ai2.1.2 谷歌Dialogflow2.1.3 科大讯飞AIUI平台AIUI开放平台结构AIUI开放平台优点2.1.4 百度UNIT平台优点:2.2 解析型2.2.1 阿里小蜜2.2.1.1 任务型:意图决策+slot filling的匹配...原创 2019-06-28 09:30:32 · 3462 阅读 · 1 评论 -
2018.06.06论文:12个NLP分类模型
1 概述1.1模型概览1.2各模型效果对比:1.4 代码用法:2 模型细节:2.1 快速文本(fastText)介绍解释总结2.2文本卷积神经网络(Text CNN)2.3文本循环神经网络(Text RNN)2.4 双向长短期记忆网络文本关系(BiLstm Text Relation)2.5 两个卷积神经网络文本关系(two CNN Text Relation)...原创 2018-06-14 21:59:57 · 15464 阅读 · 0 评论 -
Improved Representation Learning for Question Answer Matching
Improved Representation Learning for Question Answer Matching1 引言:Passage-level答案选择是典型问答(QA)系统中的重要组成部分之一。 它需要有效的表示来捕捉问题和答案之间复杂的语义关系。其中: 答案文本选择步骤也被称为文本评分(passage scoring)。 问题 Medicare是否覆盖我...翻译 2018-04-11 11:11:43 · 1348 阅读 · 0 评论 -
Attention-over-Attention Neural Networks for Reading Comprehension 讯飞
该论文是科大讯飞2016发的一篇定会论文,拜读之后翻译,并记录:Attention-over-Attention Neural Networks for Reading Comprehension1 引言2 相关工作2.1 本文的主要思路2.2 本文的创新点3 Attention-over-Attention Reader 模型3.1 Contextual Embeddin...翻译 2018-04-11 11:10:51 · 1819 阅读 · 1 评论 -
利用卷积神经网络(CNN)构造社区问答系统
问答社区算是一类已经比较成熟的互联网应用了,国外的比如Quora、StackOverflow,国内的比如老派的百度知道,新一代的知乎,都算是代表性的社交类问答社区。问答社区本质上就是个人肉知识库,通过一段时间的积累,会累积相当多以问题,答案>方式存在的知识。 除了这些通用的问答社区外还有很多垂直领域的问答社区,比如我们畅捷通的会计家园,就是拥有数百万财会人员的知识转载 2017-06-13 11:24:13 · 1488 阅读 · 2 评论 -
使用深度双向LSTM模型构造社区问答系统
关于社区问答系统的问题背景,我们在之前的“利用卷积神经网络构造社区问答系统”一文里已经说明得很清楚,本文就不再赘述,不清楚背景的读者可自行参照上文,我们这些相关的研发工作主要是为了开发畅捷通“会计家园”交流社区的相关功能。为了保持行文完整,简明叙述形式化描述的问题如下:假设我们已知问答库如下:其中,Qi是问答社区中的历史问题,Ai是Qi问题的精华转载 2017-06-13 11:27:47 · 2077 阅读 · 0 评论 -
bat 2018自然语言处理校园招聘的要求
寻找了多家国内主要IT公司有关NLP的2018校园招聘,于大家分享。另外查漏补缺,看看自己缺乏那些方面的经验和技术。下面直接放结论,没时间的可以只看总结:总结:主要在以下几个方面有要求,打勾的次数反应了热度:1.自然语言处理相关的具体操作:分词、语义、句意、对话、机器翻译、自动问答等√√√√√2.经典的机器学习算法、竞赛经历√√√3.多线程、网络编程、分布式编程√4原创 2017-08-11 21:50:33 · 9287 阅读 · 0 评论 -
词嵌入来龙去脉 word embedding、word2vec
0词嵌入来龙去脉NLP的核心关键语言表示RepresentationNLP词的表示方法类型1词的独热表示one-hot representation2词的分布式表示distributed representationNLP语言模型词的分布式表示1基于矩阵的分布表示2基于聚类的分布表示3基于神经网络的分布表示词嵌入 word embedding词嵌入 word embedding转载 2017-08-14 21:57:45 · 30861 阅读 · 15 评论 -
在TensorFlow中实现文本分类的CNN
在TensorFlow中实现文本分类的CNN在TensorFlow中实现文本分类的CNN数据和预处理模型实现1 输入占位符2 向量层3 卷积层和池化层4 Dropout 层5 得分和预测6 loss 和 Accuracy7 可视化网络训练过程1 实例化CNN并尽可能减少损失2 Summaries 摘要3 Checkpointing 检查点4 Initializing t翻译 2017-09-06 09:25:08 · 19280 阅读 · 16 评论 -
Python 繁体中文与简体中文相互转换
Python 繁体中文与简体中文相互转换[toc] 工作中需要将繁体中文转换成简体中文 上网找了些资料,发现这个包最方便1 安装不需要什么安装方法,只需要把这两个文件下载下来,保存到与代码同一目录下即可 https://raw.githubusercontent.com/skydark/nstools/master/zhtools/langconv.py https://raw.g原创 2017-09-03 17:30:00 · 17485 阅读 · 1 评论 -
自然语言处理 怎么获得数据集 中文语料集?
深度学习 自然语言处理 怎么获得数据集 中文语料集?深度学习 自然语言处理 怎么获得数据集 中文语料集爬虫数据平台1 数据堂2 搜狗实验室3 自然语言处理与信息检索共享平台4 聚数力人工收集的现如今构件人工智能、机器学习甚至深度学习系统,变得越来越容易。但是让这些模型或者系统真正有价值的却是“数据”。那么如果刚刚上手机器学习或者深度学习,怎么寻找合适的数据集呢?下面就介绍一些获取数据原创 2017-09-19 22:15:17 · 15967 阅读 · 1 评论 -
word2vec的python应用
word2vec的python应用word2vec的python应用简单介绍词向量的由来Word2Vec的python应用1 安装2 语料的下载3 模型的训练4 保存模型5 模型的使用代码总结词嵌入(Word Embedding)是一项非常重要且应用广泛的技术,可以将文本和词语转换为机器能够接受的数值向量,这里我们详细讨论其概念和实现。1 简单介绍词向量的由来语言的表示主要有两种:原创 2017-11-27 11:28:59 · 4928 阅读 · 4 评论 -
Translating Embeddings for Modeling Multi-relational Data 论文翻译:多元关系数据嵌入
摘要1简介2transE模型3相关工作4实验1数据集2实验设置3链接预测4用几个例子学习预测新关系5总结和展望摘要:考虑多元关系数据得实体和关系在低维向量空间的嵌入问题。我们的目标是提出一个权威的模型,该模型比较容易训练,包含一组简化了的参数,并且能够扩展到非常大的数据库。因此,我们提出了TransE,一个将关系作为低维空间实体嵌入的翻译的方法。尽管它很简单,翻译 2018-01-12 16:24:41 · 10254 阅读 · 1 评论 -
怎么加载训练好的词向量bin
怎么加载训练好的词向量binword2vec 有的时候需要加载之际之前训练好的词向量,或者加载下载的别人的词向量,加载如下:1默认方法如果你是用默认方法训练的,则可以直接load:model.save('/model/word2vec_model')new_model=gensim.models.Word2Vec.load('/model/word2vec_model')也可以获取每个词的词向量mo原创 2018-01-05 15:28:55 · 13009 阅读 · 6 评论 -
Representation Learning on Network 网络表示学习笔记
Embedding NodesEncoder-decoder ViewEncoding Methods1 Factorization based2 Random Walk based3 Deep Learning based网络表示学习(Representation Learning on Network),一般说的就是向量化(Embedding)技术,简单来说,就是转载 2018-01-05 21:23:59 · 6270 阅读 · 5 评论 -
DKRL论文:实体描述的知识图谱的表示学习
DKRL论文:实体描述的知识图谱的表示学习翻译 2018-01-15 21:35:19 · 5924 阅读 · 0 评论 -
人工智能工程师学习路线/自然语言处理算法工程师
人工智能工程师学习路线/自然语言处理算法工程师学习路径人工智能工程师学习路线自然语言处理算法工程师学习路径1入门级别1 数据结构2 算法重点3python2进阶阶段1 机器学习算法2深度学习算法3深度学习框架4 大数据计算框架3高阶1 强化学习2 迁移学习3自然语言处理1入门级别1.1 数据结构1.2 算法(重点)面试必考原创 2018-01-08 15:12:30 · 5911 阅读 · 6 评论 -
python使用scikit-learn计算TF-IDF
本文转载自:Eastmount大神的文章: http://www.voidcn.com/article/p-bbabkmsv-pt.html1 Scikit-learn下载安装1.1 简介1.2 安装软件2 TF-IDF基础知识2.1 TF-IDF概念2.2 举例说明计算3 Scikit-Learn中计算TF-IDF3.1 CountVectorizer...转载 2018-03-14 21:33:58 · 18944 阅读 · 3 评论 -
python - 如何拆分没有空格的文本为单词列表?将组合单词拆分开
python - 如何拆分没有空格的文本为单词列表?将组合单词拆分开很多时候,我们需要把一长串单词字符拆分开来,比如:输入:“tableapplechairtablecupboard …”很多字。我们希望有一个有效的算法来分割这样的文本到单词列表,并得到:输出:[“table”,“apple”,“chair”,“table”,“cup”,“board”]或者将一个很长的函数名拆分...转载 2018-02-28 16:35:17 · 6882 阅读 · 6 评论 -
2018.03.26试题理解论文两篇阅读
1 A Constituent-Centric Neural Architecture for Reading Comprehension0 摘要:0.1应用领域:0.2模型1 引言1.1 任务1.2 解决办法2模型2.1 模型的总架构:2.2 chain-of-trees LSTM编码层2.2.1 tree LSTM2.2.2 Chain-of-Trees LS...原创 2018-04-08 22:42:15 · 1476 阅读 · 0 评论 -
向量空间模型(VSM)在文档相似度计算上的简单介绍
声明哈本文转载至:http://blog.youkuaiyun.com/felomeng/article/details/4024078这个作者很牛,写的很好通俗易懂向量空间模型(VSM:Vector space model)是最常用的相似度计算模型,在自然语言处理中有着广泛的应用,这里简单介绍一下其在进行文档间相似度计算时的原理。假设共有十个词:w1,w2,......,w10,而共有三转载 2017-03-30 21:22:57 · 3806 阅读 · 0 评论