
NLP
文章平均质量分 87
重回成都
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
人民日报语料库抓取python实现
最近需要抓取语料库,在一个NLP的论坛上看到有人民日报的1946到2003的所有资料。准备把这些资料抓取下来(虽然有点老了,但是聊胜于无,哪位高人知道更好的来源请告知)。程序是用python写的,主要用到bs4解析模块。由于是新手没有使用多线程,事实证明效率果然不快,因为有大量的数据IO。等看完多线程爬虫再实现一个多线程版本的。先将就用吧。在windows下运行的同学,请把程序中文件夹和文件名原创 2015-05-20 10:54:01 · 8608 阅读 · 1 评论 -
HMM模型之viterbi算法
1、前言 viterbi算法是HMM模型的三大算法之一。HMM模型解决三大问题:评估、解码和学习。viterbi用于解决解码问题,在自然语言处理中用于解决划分问题,分词是对于句子的划分,viterbi是很好的分词算法。推荐参看的是《HMM学习最佳范例》。这里的术语将参照《HMM最佳学习范例》。关于HMM模型中的数值引用于结巴分词中的源代码。2、初始向量 这里sta原创 2015-06-01 13:40:07 · 2774 阅读 · 0 评论 -
人民日报语料库抓取python实现(二)--多线程
由于有大量的IO,多线程可以提高爬取的效率。出于不同队列存储不同url和对于爬虫进行分工的初衷,这里实现了两个队列shareMonthQueue和shareReportQueue。其中shareMonthQueue存储所有月份初始url和包含的其他页面(一个月份有很多page,例:1946年5月包含30个page)。shareReportQueue存储所有新闻的url。两个队列有其专用的爬虫mon原创 2015-05-22 16:11:11 · 2611 阅读 · 0 评论 -
结巴分词源代码解析(二)
本篇分两部分,一、补充说明动态规划求最大概率路径的过程;二、使用viterbi算法处理未登录词。一、动态规划求最大概率路径补充从全模式中看出一句话有多种划分方式,那么哪一种是好的划分方式,最大概率路径认为,如果某个路径下词的联合概率最大,那么这个路径为最好的划分方式。(个人认为这种思想是有缺陷的,我们知道每一个词的出现频率是一个较小的小数,小数相乘结果会受到小数的个数较大影响,原创 2015-05-31 17:22:43 · 2345 阅读 · 0 评论 -
HMM模型之前向算法
1、介绍 向前算法是用于HMM模型的评估问题。评估问题:对于一个观察序列和通过不同系统得到的HMM模型,怎么判断哪一个HMM模型是最有可能产生这个观察序列。 HMM模型三元组(π\pi,A,B),其中π\pi表示初始向量,A表示状态转移矩阵,B表示混合矩阵,实例可以参看《HMM模型之viterbi算法》。 2、实现 要得到对于观察序列在当前HMM模型下原创 2015-06-04 15:58:08 · 1335 阅读 · 0 评论 -
理解卷及神经网络应用在自然语言处理的学习笔记
博客地址:http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp/首先申明本人的英语很搓,看英文非常吃力,只能用这种笨办法来方便下次阅读。有理解错误的地方,请别喷我。CNN怎么应用到NLP什么是卷积和什么是卷积神经网络就不讲了,自行google。从在自然语言处理的应用开始(SO, HOW D原创 2016-05-13 16:07:59 · 8103 阅读 · 0 评论