
自然语言处理
记录自然语言学习过程
panghaomingme
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
NTLK使用二
使用nltk去除停用词 import nltk sent = "I am a student" word_list = nltk.word_tokenize(sent) print(word_list) from nltk.corpus import stopwords # 先token⼀一把,得到⼀一个word_list # ... # 然后filter⼀一把 filtered_words =原创 2017-02-17 12:46:29 · 729 阅读 · 0 评论 -
NLTK下载
我用的是anaconda,一开始以为用anaconda包对nltk进行安装,后来发现不能用,总会报错:Resource 'tokenizers/punkt/english.pickle' not found. Please use the NLTK Downloader to obtain the resource: 后来查资料发现还需要下载一些包,下面说一下过程 在控制台中输入以下代码原创 2017-02-13 11:07:25 · 1457 阅读 · 0 评论 -
NLTK使用
Sentence Tokenize(分割句子) 1、直接使用sent_tokenize from sklearn.datasets import fetch_20newsgroups news = fetch_20newsgroups(subset='train') X,y = news.data,news.target text = X[0] from nltk.tokenize impor原创 2017-02-15 15:43:14 · 4094 阅读 · 0 评论 -
python 中文编码问题
最近处理中文文本,真恶心,找了好多文章,这篇写的真的不错,最底下有链接,大家可以看看 据说Python 最恶心的地方是中文编码问题,这也让很多人放弃使用Python。此刻我只想说。。放弃得好!。。 因为这确实是Python 最恶心的问题,暂时木有之一。 在经过多次挫败,多次google,多次stackoverflow 无果之后,只有硬着头皮上。。因为只会用Python 了摔! 终于转载 2017-06-22 11:16:49 · 403 阅读 · 0 评论 -
TfidfVectorizer和TfidfTransformer
vectorizer=CountVectorizer() transformer=TfidfTransformer() tfidf=transformer.fit_transform(vectorizer.fit_transform(corpus)) 等价于: transformer=TfidfVectorizer() tfidf2=transformer.fit_transform(c原创 2017-06-23 12:40:40 · 3336 阅读 · 0 评论