
自然语言处理
文章平均质量分 70
公众号【五元杂货铺】
公众号【五元杂货铺】
知乎【大飞飞飞飞飞】
微信【wuyuanzahuopu】
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
词向量模型(1)
词向量模型one-hot Vectorone-hot vector最简单的编码方式:假设我们的词库总共有n个词,那我们开一个1*n的高维向量,而每个词都会在某个索引index下取到1,其余位置全部都取值为0。问题这种词向量编码方式简单粗暴,我们将每一个词作为一个完全独立的个体来表达。遗憾的是,这种方式下,我们的词向量没办法给我们任何形式的词组相似性权衡。因为你开了一个极高维度的...转载 2018-08-14 09:55:59 · 11933 阅读 · 0 评论 -
Deep Learning in NLP (一)词向量和语言模型
这篇博客是我看了半年的论文后,自己对 Deep Learning 在 NLP 领域中应用的理解和总结,在此分享。其中必然有局限性,欢迎各种交流,随便拍。 Deep Learning 算法已经在图像和音频领域取得了惊人的成果,但是在 NLP 领域中尚未见到如此激动人心的结果。关于这个原因,引一条我比较赞同的微博。@王威廉:Steve Renals算了一下icassp录取文章题目中包含dee...转载 2018-08-14 10:21:07 · 368 阅读 · 1 评论 -
自然语言处理中的N-Gram模型详解
N-Gram(有时也称为N元模型)是自然语言处理中一个非常重要的概念,通常在NLP中,人们基于一定的语料库,可以利用N-Gram来预计或者评估一个句子是否合理。另外一方面,N-Gram的另外一个作用是用来评估两个字符串之间的差异程度。这是模糊匹配中常用的一种手段。本文将从此开始,进而向读者展示N-Gram在自然语言处理中的各种powerful的应用。基于N-Gram模型定义的字符串距离 利用...转载 2018-08-13 16:25:09 · 3471 阅读 · 0 评论 -
自然语言处理--基于规则(AIML)的问答机器人
基于规则(AIML)的问答机器人一个完整的智能应答语音机器人可以大致分成几个组成部分,以下为一个简单的流程,后续每个过程的细节可以拓展。首先我们需要接受到用户的语音; 通过第三方的接口将语音转为文本; 对文本分词和纠错; 基于规则(正则表达式)的应答和基于检索的应答(或seq2seq,但这一般应用于自由场景); 将生成的答案转语音;本篇博客主要讲的是基于规则(正则表达式的应答),...原创 2018-08-27 11:29:22 · 7736 阅读 · 2 评论 -
词向量学习总结
词向量又称词嵌入,是自然语言处理过程中对“基本单位”词的一种数学化表示,生成词向量的方法有神经网络,单词共生矩阵的降维,语言概率模型等。词向量的表示离散表示(one-hot representation)传统的基于规则或基于统计的自然语义处理方法看做一个原子符号,one-hot representation将每个词表示成一个长的向量,这个向量的维度就是词表(词空间)的大小,向量中只有一个...原创 2018-08-21 17:12:56 · 2603 阅读 · 0 评论 -
关于基于检索的聊天机器人实现(具参考价值)
目前网上能找到的关于基于检索的聊天机器人开源代码基本上都是chatbot-retrieval这个项目,其余一些都是在基于这个版本的代码,大家修修改改换了个名字而已,参考意义不大,并且连博客文章都是翻译复制粘贴的。实际上按照他们博客内容和代码很难将这个项目跑起来,我也是踩了两天的坑,最终终于找到了所有项目和博客参考的源头,并整理出有参考意义的代码和博客。首先chatbot-retrieval...原创 2018-09-03 17:03:08 · 2786 阅读 · 4 评论