
自然语言处理
zhuzuwei
这个作者很懒,什么都没留下…
展开
-
jieba分词中的词性类型
jieba为自然语言语言中常用工具包,jieba具有对分词的词性进行标注的功能,词性类别如下: Ag 形语素 形容词性语素。形容词代码为 a,语素代码g前面置以A。 a 形容词 取英语形容词 adjective的第1个字母。 ad 副...转载 2018-01-11 07:56:36 · 4188 阅读 · 0 评论 -
jieba分词
1. jieba.cut():返回的是一个迭代器。参数cut_all是bool类型,默认为False,即精确模式,当为True时,则为全模式2. jieba.lcut(): 返回的是列表。3. jieba.cut_for_search()是搜索引擎模式4. 添加自定义词典使用默认字典时,一些新的词汇无法正确分词#添加自定义词典text1 = '无妻徒刑,厉害炸...原创 2018-01-10 21:52:40 · 2925 阅读 · 0 评论 -
Kaggle入门赛BagofWordsMeetsBagsofPopcorn(一)数据预处理
1.re.sub(pattern,repl,string,count=0)letters_only= re.sub("[^a-zA-Z]", " ", review_text)将文本中非字母的字符替换为空格pattern,表示正则中的模式字符串repl,就是replacement,被替换,的字符串的意思。repl可以是字符串,也可以是函数string,即表示要被处理,要被替换的那...原创 2018-01-08 13:24:22 · 1045 阅读 · 0 评论 -
文本分析(一)nltk 和 gensim word2vec
1. 加载punkt tokenizer用于分句 tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')raw_sentences = tokenizer.tokenize(review.strip())2. 训练word2vec模型from gensim.models import word2vecmod...原创 2018-01-08 17:41:09 · 5265 阅读 · 0 评论 -
Kaggle入门赛BagofWordsMeetsBagsofPopcorn(二)gensim word2vec
1. makeFeatureVec是建立特征向量2. getAvgFeatureVecs给定一组评论(每一个单词列表),计算每个的平均特征向量,并返回一个二维numpy数组3. 训练一个100个estimator的随机森林模型,用于预测测试数据 from gensim.models import Word2Vecfrom sklearn.cluster import KMean...原创 2018-01-08 17:49:42 · 1832 阅读 · 0 评论 -
nltk词性标注的缩写解释
本文转自http://blog.youkuaiyun.com/heyongluoyao8/article/details/437317431. CC Coordinating conjunction 连接词2. CD Cardinal number 基数词3. DT Determiner 限定词(如this,that,these,those,su...转载 2018-01-08 20:30:39 · 3601 阅读 · 1 评论 -
nltk学习之统计词频和分词nltk.word_tokenize nltk.FreqDist
1. 分词(1)可以使用split()函数 import nltkimport numpy as npimport refrom nltk.corpus import stopwords#1 分词1text = "Sentiment analysis is a challenging subject in machine learning.\ People expres...原创 2018-01-08 20:32:51 · 16948 阅读 · 0 评论 -
nltk 词性标注详解
1. 准备工作:分词和清洗 import nltkfrom nltk.corpus import stopwordsfrom nltk.corpus import brownimport numpy as np#分词text = "Sentiment analysis is a challenging subject in machine learning.\ People...原创 2018-01-09 09:07:09 · 16514 阅读 · 0 评论 -
nltk分块,命名实体识别和关系抽取 AttributeError: module 'nltk.sem' has no attribute 'show_raw_rtuple'
1. 分块是用于实体识别的基本技术示例:名词短语分块 #一个简单的基于正则表达式的NP分块的例子sentence = [('the','DT'),('little','JJ'),('yellow','JJ'),('dog','NN'),\ ('barked','VBD'),('at','IN'),('the','DT'),('cat','NN')]gram...原创 2018-01-10 21:05:22 · 2743 阅读 · 0 评论 -
nltk 句子结构分析
1. 一些语法困境: groucho_grammar = nltk.parse_cfg(""" S -> NP VP PP -> P NP NP -> Det N | Det N ...原创 2018-01-12 08:46:38 · 4634 阅读 · 2 评论 -
nltk中的FreqDist,ConditionalFreqDist和Bigram
1. FreqDist的使用:接受参数words后, 会统计words中每个word的频数,并返回一个字典,key是word,value是word在words中出现的频数。 sentences = '异响严重,副驾门异响,不知不觉就到了3000公里首保'sentences2 = '我的小悦也有异响了!'words = jieba.lcut(sentences)words1 = ji...原创 2018-01-24 19:47:42 · 6262 阅读 · 0 评论 -
tensorflow 实现汽车评论情感极性分析:简单神经网络
一. 获取数据import numpy as npimport pandas as pdimport jieba# 1. 读取数据,数据预处理comment_path = "G:\\myLearning\\pythonLearning201712\\carComments\\01\\myCleanedComments.CSV"comment_df = pd.read_csv(comme...原创 2018-06-30 19:21:25 · 1856 阅读 · 3 评论 -
鬼吹灯文本挖掘5:sklearn实现文本聚类和文本分类
鬼吹灯文本挖掘1:jieba分词和CountVectorizer向量化鬼吹灯文本挖掘2:wordcloud 词云展示鬼吹灯文本挖掘3:关键词提取和使用sklearn 计算TF-IDF矩阵鬼吹灯文本挖掘4:LDA模型提取文档主题 sklearn LatentDirichletAllocation和gensim LdaModel1. 准备数据import numpy as npimport pand...原创 2018-06-29 15:52:25 · 11214 阅读 · 2 评论 -
自然语言处理学习8:python使用standford CoreNLP进行中文分词、标注和命名实体识别
jieba分词可以进行中文分词和标注,但是无法进行命名实体识别。1. 环境配置 (1) 下载安装JDK 1.8及以上版本 (2)下载Stanford CoreNLP文件,解压。 (3)处理中文还需要下载中文的模型jar文件,然后放到stanford-corenlp-full-2016-10-31根目录下即可(注意一定要下载这个文件哦,否则它默认是按英文来处理的)。...原创 2018-06-02 11:54:12 · 15140 阅读 · 13 评论 -
自然语言处理学习2:英语分词1word_tokenize, WordPunctTokenizer, TreebankWordTokenizer , WhitespaceTokenizer等
1. 分词word tokenize(1) 使用nltk.word_tokenize(text), 其中"isn't"被分割为"is"和"n't"(2)使用WordPunctTokenizer(),单词标点分割,其中"isn't"被分割为"isn","'" 和“t"(3) 使用TreebankWordTokenizer (宾夕法尼亚州立大学 Treebank原创 2018-05-28 17:33:56 · 7036 阅读 · 0 评论 -
自然语言处理学习3:中文分句re.split(),jieba分词和词频统计FreqDist
1. 使用re.split() 分句,re.split(delimiter, text)import jiebaimport re# 输入一个段落,分成句子,可使用split函数来实现paragraph = "生活对我们任何人来说都不容易!我们必须努力,最重要的是我们必须相信自己。 \我们必须相信,我们每个人都能够做得很好,而且,当我们发现这是什么时,我们必须努力工作,直到我们成功...原创 2018-05-28 19:09:42 · 29885 阅读 · 6 评论 -
自然语言处理学习4:nltk词频统计FreqDist,ConditionalFreqDist和tabulate 结合汽车评论实例
1. 加载函数和准备数据import nltkimport jiebaimport numpy as npimport pandas as pdimport re# 读取评价数据def load_comments(filename): df = pd.read_csv(filename, encoding='gbk') pos_comments = list(df...原创 2018-05-28 21:20:26 · 6214 阅读 · 0 评论 -
自然语言处理学习9:NLTK中BigramCollocationFinder的使用
from nltk.collocations import BigramCollocationFinderfrom nltk.metrics import BigramAssocMeasures1. nltk.collocations.BigramCollocationFinder(word_fd,bigram_fd,window_size=2)用于查找和排列bigram搭配或其他关联度量的工...原创 2018-06-11 18:55:59 · 4199 阅读 · 3 评论 -
自然语言处理5:jieba分词详解全模式,精确模式和搜索引擎模式
1. jieba.cut():返回的是一个迭代器。参数cut_all是bool类型,默认为False,即精确模式,当为True时,则为全模式2. jieba.lcut(): 返回的是列表。3. jieba.cut_for_search()是搜索引擎模式4. 添加自定义词典使用默认字典时,一些新的词汇无法正确分词#添加自定义词典text1 = '无妻徒刑,厉害炸...原创 2018-05-29 08:46:49 · 28346 阅读 · 1 评论 -
自然语言处理学习6:nltk词性标注
1. 使用词性标注器import nltktext = nltk.word_tokenize("They refuse to permit us to obtain the refuse permit")tagged_text = nltk.pos_tag(text)print(tagged_text)# 为避免标记的复杂化,可设置tagset为‘universal’tagged...原创 2018-05-29 16:34:20 · 3204 阅读 · 0 评论 -
自然语言处理学习7:jieba中文关键词提取和词性标注
1. 关键词提取: jieba.analyse.extrags()其中参数sentence 为待提取的文本,topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20,withWeight 为是否一并返回关键词权重值,默认值为 False。 allowPOS 仅包括指定词性的词,默认值为空,即不筛选。import jiebaimport jieba.analyseimpor...原创 2018-05-29 19:49:56 · 4010 阅读 · 0 评论 -
鬼吹灯文本挖掘1:jieba分词和CountVectorizer向量化
1. 数据预处理import pandas as pdimport numpy as npimport jiebaimport re# 1. 读取斗破苍穹文档: 共33章gcd1_df = pd.read_csv('G:\\自学笔记\\学习笔记:Python数据分析--玩转文本挖掘\\PythonData\\鬼吹灯之精绝古城txt全本精校版.txt',\ ...原创 2018-06-21 21:14:10 · 9179 阅读 · 2 评论 -
鬼吹灯文本挖掘2:wordcloud 词云展示
1原创 2018-06-22 16:04:02 · 1375 阅读 · 2 评论 -
鬼吹灯文本挖掘3:关键词提取extract_tags和使用sklearn TfidfTransformer 计算TF-IDF矩阵
1. jieba模块进行关键词提取 jiaba.analyse.extract_tags() 可以使用默认的TF-IDF模型对文档进行分析。 参数withWeight设置为True时可以显示词的权重,topK设置显示的词的个数。# 注意:函数是在使用默认的TF-IDF模型进行分析jieba.analyse.extract_tags(gcd1_chap.txt[1])['胡国华'...原创 2018-06-22 17:05:01 · 15414 阅读 · 4 评论 -
鬼吹灯文本挖掘4:LDA模型提取文档主题 sklearn LatentDirichletAllocation和gensim LdaModel
鬼吹灯文本挖掘1:jieba分词和CountVectorizer向量化鬼吹灯文本挖掘2:wordcloud 词云展示鬼吹灯文本挖掘3:关键词提取和使用sklearn 计算TF-IDF矩阵注:tfidf_mat数据准备可参考鬼吹灯文本挖掘31. Sklearn实现LDA模型,并提取文档主题 (1)其中参数n_topics是主题个数,max_iter是迭代次数 (2)lda_model....原创 2018-06-22 19:30:21 · 7471 阅读 · 8 评论 -
自然语言处理学习1:nltk英文分句WordPunctTokenizer、分词word_tokenize和词频统计FreqDist
1. 分句Sentences Segment:使用nltk中的punkt句子分割器进行断句加载:nltk.data.load('tokenizer/punkt/english.pickle')import nltkfrom nltk.tokenize import WordPunctTokenizerimport numpy as np# 输入一个段落,分成句子(Punkt句子分割...原创 2018-05-28 17:32:55 · 22157 阅读 · 3 评论