
NLP
文章平均质量分 61
android_ruben
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
haystack之1初识haystack
目录初识haystackhaystack的特点最简单的QA示例总结初识haystack去年就关注到了haystack这个框架,那会儿还不是很完善。今年再次看到haystack发现已经很完善了。在17年的时候曾经基于RASA框架写过一篇关于如何打造一个chatbot的文章,很粗浅的介绍并写了一个chatbot。QA在NLP领域一直受到很多的关注,比如AIML就是早期的用于开发chatbot的标记语言。随着深度学习时代的到来,各项NLP技术日新月异、百花齐放,业界对NLP技术本身的关注远大于QA的关注。原创 2021-05-31 19:24:11 · 1710 阅读 · 3 评论 -
[[NLP]基于Simaese LSTM的句子相似度计算
句子相似度计算在问答系统以及客服机器人当中应用比较频繁,比对针对对话模型中比较频繁的问句可以先进行过滤,之后再进行对话理解。在文本检测方面也有所应用,比如作家写作风格的检测。本文叙述的句子相似度计算方法来自论文Siamese Recurrent Architectures for Learning Sentence Similarity,论文是基于Simaese LSTM网络对成对相似句进行训练,通原创 2017-11-02 17:13:39 · 12742 阅读 · 87 评论 -
[NLP]如何打造一个Chatbot
聊天机器人的应用非常广泛,无人驾驶、智能音箱、问答系统、客服机器人、对话机器人、个性化推荐、搜索引擎等等产品都有所应用。 说起聊天机器人想必大家都已经很熟悉了,比如亚马逊的Alex,谷歌的谷歌助手,苹果的Siri,百度的度秘以及众多大厂小厂都投身于聊天机器人相关技术的研发。 聊天机器人的火热程度勿用多说,从各大厂商对聊天机器人的投入也可以看出聊天机器人在商业上的价值巨大。作为机器人行业的从业者,原创 2017-10-14 12:33:54 · 10694 阅读 · 11 评论 -
[NLP]如何进行情感分析
本文介绍的是如何进行情感识别。在自然语言中(尤其社交媒体和购物网站中),每一句话都隐含了具体的情感倾向,比如中性、正面、负面。比如:今天天气不错;今天心情不太好;苹果手机不错;地球是圆的。对于人来说,可以很轻易的就分辨出上述句子是正面的、中性的、负面的。 但是在自然语言处理中是如何进行判断的呢?下面就对基本的情感分析方法进行介绍。1.准备1.1 种子词库在真正开始前,首先想想人看到一句话是如何思考原创 2017-10-08 12:18:46 · 11850 阅读 · 1 评论 -
[nlp]意图分类是怎么实现的
如何进行意图分析之前开始做语义理解的时候,笔者采用的是比较粗暴的方法进行匹配。随着语料的积累,语料库的规模变得越来越大,匹配的效率也随着越来越低,对语料进行意图分类的想法也就随着产生。当用户输入之后,系统首先对输入进行意图分类,然后对分类下的语料进行匹配,从而减轻计算量,提高系统的匹配效率。本文只是简单的阐述一下意图分析的典型思路和方法,并实现一个基本的意图分类器,而无意系统的探究意图分类。更详细的原创 2017-09-21 03:28:00 · 8386 阅读 · 3 评论 -
[python]NLTK简明教程
nltk简明教程NLTK是python环境下NLP工具包,包含了丰富的文本处理和文本挖掘API。安装安装NLTK比较简单,linux环境下只需要简单的执行sudo pip install -U nltk即可完成安装。语料下载import nltk#指定目录下载nltk自带的英文语料#如果不是使用的默认路径需要执行下面的语句添加环境变量:#vim ~/.profile#文件末尾添加NLTK_D原创 2017-09-19 21:19:18 · 18530 阅读 · 2 评论 -
[NLP]CS224n学习笔记一:NLP介绍
1.什么是自然语言处理?自然语言处理是做什么的?自然语言处理难在哪里?语言是表达人的想法以及人与人之间交流的工具,而自然语言处理则是让计算机拥有处理人类语言的能力,从而让计算机能够使用和理解人类的语言。如今,自然语言处理在生活中应用已经很广泛,尤其是苹果的siri,谷歌的Google Assistant和alex,微软的Cortana和小冰。国内也有很多语音相关的应用,尤其是笔者所在的机器人行业,各原创 2017-09-26 00:44:08 · 2241 阅读 · 0 评论 -
[NLP]使用NMF模型提取文章topic
本文的目标是使用sklearn工具包实现自动提取文章主题。from time import timefrom sklearn.feature_extraction.text import TfidfVectorizerfrom sklearn.decomposition import NMFfrom sklearn.datasets import fetch_20newsgroupsimpo原创 2017-08-18 16:40:14 · 3424 阅读 · 1 评论 -
[NLP]使用LDA模型计算文档相似度
定义wiki关于lda的定义:隐含狄利克雷分布简称LDA(Latent Dirichlet allocation),是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它。LDA首先由Blei, David M.、原创 2017-07-20 19:52:51 · 17185 阅读 · 32 评论 -
[NLP]训练Word2vec的JAVA版本
前言word2vec是什么在这里就不再赘述了,简单的说就是将词组转换成向量,完成词组的数值化表示。本文的目标是完成word2vec的java版本的训练。系统系统环境为ubuntu 14.04 64位。过程1.命令行执行:git clone https://github.com/NLPchina/Word2VEC_java.gitcd Word2VEC_java2.在Word2VEC_java目录下原创 2017-03-25 11:44:03 · 7537 阅读 · 4 评论 -
[NLP]1.StanfordNLP的安装和初探
简介Stanford CoreNLP提供了一系列自然语言分析工具。它能够给出基本的词形,词性,不管是公司名还是人名等,格式化的日期,时间,量词,并且能够标记句子的结构,语法形式和字词依赖,指明那些名字指向同样的实体,指明情绪,提取发言中的开放关系等。 如果需要进行如下任务,Standfrod CoreNLP正合适: 1.一个集成的语言分析工具集; 2.进行快速,可靠的任意文本分析; 3.整体原创 2017-01-18 14:10:46 · 8208 阅读 · 0 评论 -
[NLP]AIML初探
1.简介AIML的全称是 Artificial Intelligence Modelling Language,是基于xml格式标签,用于开发的人工智能应用程序。 它的特点就是基于对话模板的匹配,因而需要大量的对话库。在实际的开发过程中需要考虑到全面的对话场景才能实现较好的对话体验。 AIML主要应用于专家系统或者领域内的问答系统,在这些领域内AIML具有相当的优势。缺点就是不易读,实现效率低,原创 2016-11-16 22:04:46 · 6152 阅读 · 3 评论