
NLP
文章平均质量分 80
liuha511
这个作者很懒,什么都没留下…
展开
-
NLTK 学习笔记(3)
分类和标注词汇(tagging)1. POS tagger>>> text = nltk.word_tokenize("And now for something completely different")>>> nltk.pos_tag(text)[('And', 'CC'), ('now', 'RB'), ('for', 'IN'), ('something', 'NN'), (原创 2014-11-30 13:00:37 · 3113 阅读 · 0 评论 -
NLTK学习笔记(7)- Extracting information from text
先来一张信息提取流程图1. NP Trunking用正则表达式的一个简单例子>>> sentence = [("the", "DT"), ("little", "JJ"), ("yellow", "JJ"),... ("dog", "NN"), ("barked", "VBD"), ("at", "IN"), ("the", "DT"), ("cat", "NN")]>>原创 2014-12-01 22:54:28 · 1875 阅读 · 0 评论 -
NLTK学习笔记(6)
1. 探索上下文语境(Exploiting Context)上下文语境特征往往提供关于正确标记的强大线索——例如:标注词fly,如果知道它前面的词是“a”将使我们能够确定它是一个名词,而不是一个动词。如果前面的词是“to”显然它是一个动词。所以今天我们构造的词性分类器,它的特征检测器检查一个词出现的上下文以便决定应该分配的词性标记。特别的,前面的词被作为一个特征。>>> def pos原创 2014-12-01 20:22:36 · 1132 阅读 · 0 评论 -
NLTK 学习笔记(5)
1. 文档分类Step1: 我们根据已经分类好的语料库构建一个前2000个最频繁词的链表。然后,定义一个特征提取器,简单地检查这些词是否在一个给定的文档中。>>> from nltk.corpus import movie_reviews>>> documents = [(list(movie_reviews.words(fileid)), category)... for原创 2014-12-01 16:08:55 · 1013 阅读 · 0 评论 -
Porting your code to NLTK 3.0
Original link: https://github.com/nltk/nltk/wiki/Porting-your-code-to-NLTK-3.0NLTK 3.0 contains a number of interface changes. These are being incorporated into a new version of the NLTK book, upd转载 2014-12-01 15:54:27 · 821 阅读 · 0 评论 -
NLTK 学习笔记(2)
POS速查表标记含义例子ADJ形容词new, good, high, special, big, localADV副词really, already, still, early, nowCNJ连词and, or,原创 2014-11-30 10:57:41 · 649 阅读 · 0 评论 -
NLTK 学习笔记(1)
1. 规范化文本(Normalize)1.1 分词 (Tokenize/Segment)(1) 词干提取(Steaming)【原文】Porter 和Lancaster 词干提取器按照它们自己的规则剥离词缀。请注意Porter 词干提取器正确处理了词lying(将它映射为lie ),而Lancaster 词干提取器并没有处理好。我们完全按照书上的例子来试一下:>>> raw原创 2014-11-30 09:17:11 · 1770 阅读 · 0 评论 -
NLTK 学习笔记(4)
文本分类1. 有监督分类先来个经典的图(1) 性别判定我们使用特征提取器处理名称数据,并划分特征集的结果链表为一个训练集和一个测试集。训练集用于训练一个新的“朴素贝叶斯”分类器。之后,我们在上面测试一些没有出现在训练数据中的名字(Neo and Trinity from 黑客帝国):>>> def gender_features(word):... retur原创 2014-11-30 23:08:46 · 1027 阅读 · 0 评论 -
nltk 3.0 的parse
怕自己忘了,先记下来。原文8-2的程序grammar2 = nltk.parse_cfg("""S -> NP VPNP -> Det Nom | PropNNom -> Adj Nom | NVP -> V Adj | V NP | V S | V NP PPPP -> P NPPropN -> 'Buster' | 'Chatterer' | 'Joe'Det -> 'the原创 2014-11-30 19:20:37 · 1389 阅读 · 0 评论 -
R maxent
只是简单走一遍> library(maxent)> datadata 大体是这样的 Article_IDDateTitleSubjectTopic.Code1412461-Jan-96Nation's Smaller Jails Struggle T原创 2014-12-03 10:06:19 · 2756 阅读 · 2 评论