
自然语言处理NLP
文章平均质量分 78
hfutdog
做技术的人要耐得住寂寞
展开
-
为文本摘要网络Pointer-Generator Networks制作中文复述训练数据
这里首先向大家推荐一篇论文https://arxiv.org/abs/1704.04368。这篇论文介绍了一个文本摘要网络,具体是怎样的,这里不作详细介绍。向大家推荐知乎上一篇介绍它的文章https://zhuanlan.zhihu.com/p/27272224,其余请自行了解阅读论文。下面是pointer-generator的开源项目地址:https://github.com/abisee/...原创 2017-11-05 10:10:54 · 8375 阅读 · 60 评论 -
NLP数据预处理——同义词替换程序
自然语言数据预处理中经常会涉及到同义词替换,比如计算两个句子的相似度中,把一个词的两个同义词利用同义词替换技术转换为同一个词,那么就提高了相似度计算的可靠性。学习自然语言处理的同学肯定都会做到数据预处理的工作,下面分享我最近写的一个程序,希望能为从事同样工作的同学提供那么一点帮助,也希望自己的程序能够得到指点。程序中设计到分词技术和同义词表,分词采用了哈工大的pyltp,其官方文档链接为htt...原创 2018-07-18 23:46:01 · 26682 阅读 · 5 评论 -
NLP数据预处理——词频统计(创建词典)程序
自然语言处理中经常涉及到创建词典或者词频统计,这里分享一个小程序,希望能给大家提供一点帮助,也欢迎各位指点我的程序,哪怕再小的程序也值得不断完善。词频统计问题可以描述如下:用Python实现函数count_words(),该函数输入字符串s和数字n,返回s中n个出现频率最高的单词。返回值是一个元组列表,包含出现次数最高的n个单词及其次数,即[(<单词1>, <次数1>), ...原创 2018-07-07 16:57:56 · 9143 阅读 · 1 评论 -
中文NLP数据预处理程序分享
转眼间,接触NLP已经一年多了,虽然大部分时间是在打杂,但也多少积累了一点东西。今天在这里我就把我自己写的中文NLP数据预处理代码分享一下,代码基于python 3.6.5在win 10通过测试,涵盖了我自己常用的一些操作。程序大致包括的功能如下表:文件操作去噪操作其他读写文本删除空行分词合并文件删除中英文标点词性标注分割数据集删除停用词命名实体识...原创 2019-01-15 16:56:43 · 6374 阅读 · 2 评论 -
循环神经网络(RNN)的工作方式(一)
目录0 前言1.1 为什么选择序列模型1.2 数学符号1.3 循环神经网络模型0 前言这篇博客主要是吴恩达《深度学习》课程的《序列模型》第一周课《循环序列模型》的笔记整理,中间加入了一些自己的理解,供自己以后能够快速复习,也供一些有需要的朋友查看。1.1 为什么选择序列模型序列模型有着丰富的应用场景。我们一起来看看上面ppt中的例子。第一行是语音识别(Speech recognitio...原创 2019-01-25 18:36:55 · 1263 阅读 · 0 评论 -
循环神经网络(RNN)的工作方式(二)
目录1.7 对新序列采样本篇文章是吴恩达《深度学习》序列模型部分第一周课程的笔记,前面的小节的笔记见循环神经网络的工作方式(一)。1.7 对新序列采样在你训练一个序列模型之后,要想了解这个模型学到了什么,一种非正式的方法就是进行一次新序列采样。一个序列模型模拟了任意特定单词序列的概率,我们要做的是对这个概率分布进行采样来生成一个新的单词序列。为了进行采样,要做一些截然不同的事情,第一步要...原创 2019-01-28 10:31:13 · 712 阅读 · 0 评论 -
RNN与LSTM的区别
这篇文章简单总结一下RNN与LSTM的区别。首先,对于基本RNN来说,它能够处理一定的短期依赖,但无法处理长期依赖问题。比如句子The cat, which already ate …, was full.和句子The cats, which already ate …, were full.,两句话的差别在于主语和谓语动词的单复数,由于句子比较长,RNN就无法处理这种问题。那么RNN为什么无法...原创 2019-07-19 15:44:28 · 49895 阅读 · 8 评论