
NLTK
光英的记忆
新世界,新创造
展开
-
NLTK 对文本结构进行语法分析代码示例
from nltk import CFGimport nltkfrom nltk.chunk.regexp import *from nltk.parse.stanford import StanfordParser# import re# nltk.download('maxent_ne_chunker')# nltk.download('words')# nltk.downl...原创 2019-05-24 15:23:03 · 1831 阅读 · 1 评论 -
Invalid escape sequence
Invalid escape sequence转义即可原创 2019-05-23 17:54:45 · 5237 阅读 · 0 评论 -
OSError: No such file or directory: 'C:\\Users\\2019\\AppData\\Roaming\\nltk_data\\corpora\\stopword
nltk.download()原创 2019-05-23 20:10:11 · 4072 阅读 · 1 评论 -
自然语言处理简介第一章实例代码
import nltkimport urllib.request as urllibimport refrom bs4 import BeautifulSoupimport operatorprint("Python and NLTK installed successfully")# urllib2 is use to download the html content ...原创 2019-05-23 20:35:37 · 293 阅读 · 0 评论 -
NLTK文本整理和清洗示例代码
# csv loadimport nltkimport csvimport jsonfrom nltk.tokenize import sent_tokenizefrom nltk.tokenize import word_tokenizefrom nltk.tokenize import regexp_tokenizefrom nltk.tokenize import bla...原创 2019-05-23 21:00:07 · 1392 阅读 · 0 评论 -
NLTK分布式进程和大型数据集的处理 execnet教程
pip install execnet原创 2019-06-05 16:22:43 · 249 阅读 · 0 评论 -
使用dateutil解析日期和时间,LXML提取URL
import nltkfrom dateutil import parserfrom dateutil import tzimport datetimefrom lxml import htmlimport lxml.html.cleanfrom bs4 import BeautifulSoup# 使用dateutil解析日期和时间print(parser.parse('Th...原创 2019-06-05 20:12:29 · 357 阅读 · 0 评论 -
在Hadoop上运行NLTK代码示例
在Hadoop上运行NLTK在Hadoop上运行Python进程,有很多种方法。本节将会谈论一些在Hadoop运行Python的主流方式,如流MapReduce作业,在Hive中的Python UDF,以及Python Hadoop包装器。通常,以map函数和reduce函数的形式,编写Hadoop作业。对于给定的任务,用户必须写出map和reduce函数的实现。通常,这些mapper和r...原创 2019-05-29 10:41:17 · 250 阅读 · 0 评论 -
NLTK 字符串文本预处理全部代码示例
from __future__ import print_functionimport nltkfrom nltk.tokenize import TreebankWordTokenizerfrom nltk.tokenize import WordPunctTokenizerfrom nltk.tokenize import RegexpTokenizerfrom nltk.toke...原创 2019-06-06 16:37:04 · 992 阅读 · 0 评论 -
ModuleNotFoundError: No module named 'nltk.collocation'
https://stackoverflow.com/questions/43557561/cant-import-nltk-saying-importerror-no-module-named-collocations原创 2019-06-06 19:18:47 · 2817 阅读 · 0 评论 -
NLTK词性标注和组快代码示例
import nltkfrom nltk.tag.util import tuple2strfrom nltk.corpus import treebankfrom nltk.tag import untagimport os,os.pathimport nltk.data# nltk.download('universal_tagset')# # 词性标注text1 = nl...原创 2019-06-07 22:21:21 · 898 阅读 · 0 评论 -
NLTK 标记文本和WordNet的基础代码示例
1将文本标记成句子from nltk.tokenize import sent_tokenizeimport nltk.datafrom nltk.tokenize import word_tokenizefrom nltk.tokenize import RegexpTokenizerfrom nltk.tokenize import PunktSentenceTokenizer...原创 2019-06-02 16:57:42 · 590 阅读 · 0 评论 -
raise LookupError(resource_not_found)
下载相关组件即可解决原创 2019-05-23 17:24:16 · 2197 阅读 · 0 评论 -
Spellchecker inspection helps locate typos and misspelling in your code, comments and literals,
Spellchecker inspection helps locate typos and misspelling in your code, comments and literals, and fix them in one click.大概说的是有一个检查单词拼写的功能,提示我这个变量可能是个拼错的单词。把Effect勾去掉,问题解决~~~...原创 2019-05-23 16:51:42 · 855 阅读 · 0 评论 -
NLTK获取文章摘要代码示例
import sysimport nltkfrom sklearn.feature_extraction.text import TfidfVectorizer# 获取文章摘要# 一旦有了no_of_nouns和no_of_ners分数的列表,就可以利用这些分数,创建更复杂的规则。# 例如,一个典型的新闻报道将从相关话题的重要细节开始,最后一句话是整个故事的总结f = open(...原创 2019-05-24 19:25:18 · 940 阅读 · 0 评论 -
NLTK朴素贝叶斯,文本分类代码示例 采样 SMSSpamCollection数据集下载
https://stackoverflow.com/文本分类代码 编译通过import nltkfrom nltk.corpus import stopwordsfrom nltk.stem import WordNetLemmatizerimport csvimport numpy as npfrom sklearn.feature_extraction.text im...原创 2019-05-25 22:07:21 · 2903 阅读 · 1 评论 -
UnicodeDecodeError: 'gbk' codec can't decode byte 0x93 in position 6325: illegal multibyte sequence
https://stackoverflow.com/questions/21504319/python-3-csv-file-giving-unicodedecodeerror-utf-8-codec-cant-decode-byte-err还是国外的网站比较靠谱,解决了问题原创 2019-05-25 20:03:27 · 11138 阅读 · 0 评论 -
混淆矩阵(Confusion matrix)的原理及使用(scikit-learn 和 tensorflow)
原理 在机器学习中,混淆矩阵是一个误差矩阵, 常用来可视化地评估监督学习算法的性能.混淆矩阵大小为 (n_classes, n_classes) 的方阵, 其中 n_classes 表示类的数量. 这个矩阵的每一行表示真实类中的实例, 而每一列表示预测类中的实例 (Tensorflow 和 scikit-learn 采用的实现方式). 也可以是, 每一行表示预测类中的实例, 而每一列表示...原创 2019-05-26 16:31:59 · 5768 阅读 · 0 评论 -
gensim安装 文本主题模型代码示例
https://github.com/RaRe-Technologies/gensimpip install -U gensim代码示例import nltkfrom nltk import collectionsfrom nltk.corpus import stopwordsfrom nltk.stem import WordNetLem...原创 2019-05-26 20:55:36 · 332 阅读 · 0 评论 -
NLP自然语言处理知识结构索引汇总
python自然语言处理实战 python和nltk电子书 自然语言处理简介第一章实例代码 NLTK文本整理和清洗示例代码 NLTK 对文本结构进行语法分析代码示例 NLTK获取文章摘要代码示例 NLTK朴素贝叶斯,文本分类代码示例 采样 SMSSpamCollection数据集下载 混淆矩阵(Confusion matrix)的原理及使用(scikit-lea...原创 2019-05-22 11:32:56 · 694 阅读 · 0 评论 -
正则表达式
正则表达式NLP发烧友的另外一个重要技能是使用正则表达式工作。正则表达式描述了字符串的有效模式匹配。我们大量使用模式提取从众多杂乱无章的文本数据中获得有意义的信息。以下是读者所需要的正则表达式。在我一生中,我所用的正则表达式都不会超过这个范围。 (句点):这个表达式匹配除了换行符\ n外的任意单个字符。 \ w:这个表达式匹配[a~z A~Z 0~9]中的某个字符或数字。 \ ...原创 2019-05-22 19:47:58 · 133 阅读 · 0 评论 -
ModuleNotFoundError: No module named 'urllib2'
在python3.3里面,用urllib.request代替urllib2import urllib.requesturl = "http://www.baidu.com"response1 = urllib.request.urlopen(url)#打印请求的状态码print(response1.getcode())#打印请求的网页内容的长度print(len(respon...原创 2019-05-22 20:17:25 · 11263 阅读 · 2 评论 -
TypeError: cannot use a string pattern on a bytes-like object
TypeError: cannot use a string pattern on a bytes-like objectTypeError: can’t use a string pattern on a bytes-like object.html用decode(‘utf-8’)进行解码,由bytes变成string。py3的urlopen返回的不是string是bytes。...原创 2019-05-22 20:45:44 · 383 阅读 · 0 评论 -
NotImplementedError: To remove HTML markup, use BeautifulSoup's get_text() function
NotImplementedError: To remove HTML markup, use BeautifulSoup's get_text() function经查阅nltk的相关方法可能已经失效了,改用BeautifulSoup的同类方法即可,代码如下from bs4 import BeautifulSoupresponse = urllib.request.urlopen...原创 2019-05-22 21:14:02 · 861 阅读 · 0 评论 -
_csv.Error: iterator should return strings, not bytes (did you open the file in text mode?)
读取二进制文件with open("fer2013.csv", "rb", encoding="utf-8") as vsvfile: reader = csv.reader(vsvfile) rows = [row for row in reader] print(rows)文本格式 默认是文本格式# 因为open()默认打开文本文件with open(...原创 2019-05-23 16:26:19 · 944 阅读 · 0 评论 -
NLTK替换和矫正单词代码示例
import nltkfrom nltk.stem import PorterStemmerfrom nltk.stem import WordNetLemmatizerimport re# import enchant# from nltk.metrics import edit_distance# 词干提取stemmer = PorterStemmer()print(ste...原创 2019-06-03 19:46:52 · 2289 阅读 · 1 评论