
自然语言处理
宋建国
接下来要更新的内容有:Flask全栈知识
展开
-
NLP学习(一)
1.NLTK模块2.常用操作词密度-重复率def lexical_diversity(text): #词密度-重复率 return len(text) / len(set(text))搜索单词text1.concordance("monstrous")搜索相似度text1.similar("monstrous")搜索共同上下文text2.commo...原创 2019-04-13 15:51:35 · 662 阅读 · 0 评论 -
利用中文维基百科数据进行词语相似度word2vec实验
使用维基百科数据利用word2vec简历词向量, 通过对词向量之间的距离的比对,查找出与给出词语相似度较高的单词进行返回1.使用维基百科官方给出的文档处理程序处理从维基百科上下载的压缩包文件成原始text格式。使用命令 python process.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.text#!/usr/bin/env pyt...原创 2019-07-10 09:35:40 · 648 阅读 · 0 评论 -
文本主题与分类(二)--关键词抽取
基于 TF-IDF 算法的关键词抽取import jieba.analysejieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())sentence 为待提取的文本topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20withWeight 为是否一并返回关键词权重值,默认值为 ...原创 2019-04-23 14:19:56 · 1401 阅读 · 0 评论 -
NLP学习(六)-词性标注问题
爆Resource averaged_perceptron_tagger not found.是因为找不到词性标注器,ipython执行下列操作即可。import nltknltk.download(‘averaged_perceptron_tagger’)1.词性标注器import nltkfrom nltk.tag import pos_tag #词性标注器from nltk....原创 2019-04-15 16:11:18 · 1954 阅读 · 0 评论 -
文本主题与分类(一)--WORD_CLOUD词云的使用
1.导入数据包,分词包,等初始设置import warningswarnings.filterwarnings("ignore")#忽略警告 https://blog.youkuaiyun.com/u013544265/article/details/28617527import jieba #分词包import numpy #numpy计算包import codecs #codec...原创 2019-04-22 21:14:31 · 834 阅读 · 0 评论 -
NLP学习(五)-中文语料处理
1.中文分词三大类基于字典,词库进行匹配正向最大匹配逆向最大匹配双向最大匹配设立切分标志法最佳匹配基于词频度统计N-gram模型隐马尔科夫模型基于字标注的中文分词方法基于知识理解2.结巴分词# # -*- coding: utf-8 -*-### from __future__ import unicode_literals# import ...原创 2019-04-15 08:56:42 · 2226 阅读 · 0 评论 -
NLP学习(四)-英文语料处理(未整理好,请忽略)
分词#分词from nltk import word_tokenizetokens = word_tokenize(raw_text)创建text# #创建texttext = nltk.Text(tokens) #将分词后的结果创建为一个文本print(text.collocations())#查看一些常用搭配打开本地文件,与去除换行符打开本地文件f = op...原创 2019-04-14 20:35:12 · 1253 阅读 · 0 评论 -
NLP学习(三)-词典
词典输出词典中不常见的词,即没有出现在文本中的词import nltkdef unusual_words(text):#输出不常见的词 text_vocab = set(w.lower() for w in text if w.isalpha()) english_vocab = set(w.lower() for w in nltk.corpus.words.words...原创 2019-04-14 10:38:59 · 2645 阅读 · 0 评论 -
NLP学习(二)-语料库学习
基本语料库函数1.古腾堡语料库获取模块语料库中的文档列表print(nltk.corpus.gutenberg.fileids()) #模块中的语料库的文档列表提取特定文档的词汇,并输出文章长度emma = nltk.corpus.gutenberg.words('austen-emma.txt')#提取文档词语print(emma[:50])print(len(emma...原创 2019-04-13 20:55:31 · 2297 阅读 · 0 评论 -
通过分析希拉里邮件简单熟悉使用lda模型提取语料库主题
1.知识准备1.1 函数解析函数官网参考class gensim.models.ldamodel.LdaModel(corpus=None, num_topics=100, id2word=None, distributed=False, chunksize=2000, passes=1, update_every=1, alpha='symmetric', eta=None, decay=...原创 2019-07-14 14:56:02 · 4951 阅读 · 1 评论