
NLP
文章平均质量分 80
liuha511
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
NLTK 学习笔记(3)
分类和标注词汇(tagging) 1. POS tagger >>> text = nltk.word_tokenize("And now for something completely different") >>> nltk.pos_tag(text) [('And', 'CC'), ('now', 'RB'), ('for', 'IN'), ('something', 'NN'), (原创 2014-11-30 13:00:37 · 3137 阅读 · 0 评论 -
NLTK学习笔记(7)- Extracting information from text
先来一张信息提取流程图 1. NP Trunking 用正则表达式的一个简单例子 >>> sentence = [("the", "DT"), ("little", "JJ"), ("yellow", "JJ"), ... ("dog", "NN"), ("barked", "VBD"), ("at", "IN"), ("the", "DT"), ("cat", "NN")]>>原创 2014-12-01 22:54:28 · 1951 阅读 · 0 评论 -
NLTK学习笔记(6)
1. 探索上下文语境(Exploiting Context) 上下文语境特征往往提供关于正确标记的强大线索——例如:标注词fly,如果知道它前面的词是“a”将使我们能够确定它是一个名词,而不是一个动词。如果前面的词是“to”显然它是一个动词。所以今天我们构造的词性分类器,它的特征检测器检查一个词出现的上下文以便决定应该分配的词性标记。特别的,前面的词被作为一个特征。 >>> def pos原创 2014-12-01 20:22:36 · 1151 阅读 · 0 评论 -
NLTK 学习笔记(5)
1. 文档分类 Step1: 我们根据已经分类好的语料库构建一个前2000个最频繁词的链表。然后,定义一个特征提取器,简单地检查这些词是否在一个给定的文档中。 >>> from nltk.corpus import movie_reviews >>> documents = [(list(movie_reviews.words(fileid)), category) ... for原创 2014-12-01 16:08:55 · 1028 阅读 · 0 评论 -
Porting your code to NLTK 3.0
Original link: https://github.com/nltk/nltk/wiki/Porting-your-code-to-NLTK-3.0 NLTK 3.0 contains a number of interface changes. These are being incorporated into a new version of the NLTK book, upd转载 2014-12-01 15:54:27 · 833 阅读 · 0 评论 -
NLTK 学习笔记(2)
POS速查表 标记 含义 例子 ADJ 形容词 new, good, high, special, big, local ADV 副词 really, already, still, early, now CNJ 连词 and, or,原创 2014-11-30 10:57:41 · 662 阅读 · 0 评论 -
NLTK 学习笔记(1)
1. 规范化文本(Normalize) 1.1 分词 (Tokenize/Segment) (1) 词干提取(Steaming) 【原文】Porter 和Lancaster 词干提取器按照它们自己的规则剥离词缀。请注意Porter 词干提取器正确处理了词lying(将它映射为lie ),而Lancaster 词干提取器并没有处理好。 我们完全按照书上的例子来试一下:>>> raw原创 2014-11-30 09:17:11 · 1797 阅读 · 0 评论 -
NLTK 学习笔记(4)
文本分类 1. 有监督分类 先来个经典的图 (1) 性别判定 我们使用特征提取器处理名称数据,并划分特征集的结果链表为一个训练集和一个测试集。训练集用于训练一个新的“朴素贝叶斯”分类器。之后,我们在上面测试一些没有出现在训练数据中的名字(Neo and Trinity from 黑客帝国): >>> def gender_features(word): ... retur原创 2014-11-30 23:08:46 · 1052 阅读 · 0 评论 -
nltk 3.0 的parse
怕自己忘了,先记下来。原文8-2的程序 grammar2 = nltk.parse_cfg(""" S -> NP VP NP -> Det Nom | PropN Nom -> Adj Nom | N VP -> V Adj | V NP | V S | V NP PP PP -> P NP PropN -> 'Buster' | 'Chatterer' | 'Joe' Det -> 'the原创 2014-11-30 19:20:37 · 1413 阅读 · 0 评论 -
R maxent
只是简单走一遍 > library(maxent) > data data 大体是这样的 Article_ID Date Title Subject Topic.Code 1 41246 1-Jan-96 Nation's Smaller Jails Struggle T原创 2014-12-03 10:06:19 · 2787 阅读 · 2 评论