
读书笔记
文章平均质量分 73
cherrygirl1989
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
standford NLP课程笔记三 句子切分
! , ? 毫无疑问是一个句子的结尾而. 则不一定是句子的结尾,.可以用于句子结尾缩写 如Inc.数字 如0.4, .02%因此需要一个分类器来确定.是哪种。 二元分类器(是句子结尾,不是句子结尾)更复杂一点的决策树特征带.的单词形态:首字母大写,小写,全是大写,数字.后面的单词形态:首字母大写,小写,全是大写,数字数字特征:带.的单词长度带.原创 2015-06-10 15:25:52 · 2643 阅读 · 0 评论 -
standford NLP课程笔记一 正则表达式
课程地址https://www.coursera.org/course/nlp记得以前在网页上查正则表达式时,总是被那些归纳总结的表看到头昏压花,今天学了视频课程,感觉学到好多,至少很基本的东西是知道了一些,自己能读写简单的正则表达式了。[] 里面的字符表示每个都可以,比如[wW]oodchuck 可以表示woodchuck和Woodchuck[12原创 2015-06-09 17:46:31 · 862 阅读 · 0 评论 -
standford NLP课程笔记二 分词
这一节概略的介绍了一下分词的内容。分词是NLP里面很重要的方面。每个NLP任务都需要做文本的规范化,包括切分单词单词格式规范化切分句子用N表示单词总数,V表示不同的单词数(size of vocabulary),用shake.txt做了实验,将非字母的字符作为分隔符,统计每个单词的出现次数。遇到的问题: d和s 的个数非常多,因为文章中经常会出现‘s类似这样的词原创 2015-06-10 14:13:50 · 976 阅读 · 0 评论 -
standford NLP课程笔记四 编辑距离
编辑距离用来衡量两个串的相似度编辑距离就是用最少的编辑操作将一个词变为另一个词,操作有三种插入删除替换如何计算最短编辑距离? 动态规划字符串X长度为n字符串Y长度为m定义D(i,j)表示X[0,i]和Y[0,j]的最短编辑距离,则D(n,m)表示X和Y的最短编辑距离先计算i,j较小的情况下的D(i,j),然后再 利用已经计算出来的结果来计算i,j较大的情况下的D原创 2015-06-10 15:33:12 · 875 阅读 · 0 评论