
文本处理
文章平均质量分 85
这是一个死肥宅
多谢指导!
展开
-
python读写不同格式文本方法
1. txt格式参考于:廖雪峰python 文件读写读:以读文件的模式打开一个文件对象,Python内置的open()函数f = open('txt文件地址', '打开模式(默认为’r‘)', encoding='文件编码(默认为gbk编码)' , errors='ignore')打开模式:r 以只读方式打开文件。这是默认模式。文件必须存在,不存在抛出错误rb 以二进制...原创 2019-04-11 18:21:28 · 968 阅读 · 1 评论 -
单文本分析--词频统计
说明:读取单个或多个文本内容(txt,word,pdf),对文章进行分词(中文),并统计每个词语出现的次数并按从大到小排序。同时通过停用词库排除停用词,并展示结果读取单个文本内容(txt,word,pdf),对文章进行分词(中文),并统计每个词语出现的次数并按从大到小排序。同时通过停用词库排除停用词。需要掌握的知识:(1)掌握自然语言分析的基本术语:词频,停用词(2)jieba模块的使用(...原创 2019-04-08 21:59:16 · 3642 阅读 · 1 评论 -
文本聚类学习过程简述
文本处理1.去空格,换行符,去停用词def delstopwordslist(classsstr): #去掉与stop.txt中相同的词 stopwords = [line.strip() for line in open('stop.txt', encoding='UTF-8').readlines()] outstr = ''.join([word for word in c...原创 2019-04-20 19:05:27 · 563 阅读 · 1 评论 -
python 共现矩阵构建
1.什么是共词矩阵:共词矩阵:共词矩阵能表明两个词之间的关系程度2.构建过程:数据准备:假设有10篇文本,我们将从这10篇文本中,提取每一篇的分词结果,并存入Single_text_list中。再将由10篇文章的关键词列表合为一个列表Full_text_list,Full_text_list=[ [文章1切词结果],[文章2切词结果] ...]构建:1.对每篇文章作词频统计,选出其...原创 2019-04-26 19:44:02 · 14116 阅读 · 18 评论 -
python-word2vec模块使用详解
这里,我们不讲word2vec的原理(其实是还了解不透彻,以后明白了再写,大家在阅读本文之前,可以先简单了解一下其推理过程),就只了解其参数和输入输出。1.Word2vec作用:表达不同词之间的相似和类比关系2.安装方法:pip install --upgrade gensim #因为Gensim开发了一套工具箱叫做gensim,里面继承了Word2vec方法。3.输入参数格式:i...原创 2019-04-29 21:34:47 · 49034 阅读 · 18 评论 -
tensorflow多层卷积网络实现CNN文本分类
1.实验数据获取:这里的实验数据是本人自己提取的,具体方式是:(大家可以根据自己喜好进行如下步骤)1.选取3个不同类别的文本,每类500篇,共1500篇。2.使用TF-IDF或词频等方式,从每个类型的文本中选出100个特征词,3个类别,共300个特征词。将300个特征词存入一个list中。3.使用300个特征词的列表去遍历每一篇文本,如果第x个特征词在该文本中出现次数为n,则对应该文本的...原创 2019-05-31 20:41:37 · 1647 阅读 · 1 评论 -
tensorflow RNN实现文本分类(LSTM)
1.数据准备:这里的实验数据是本人自己提取的,具体方式是:(大家可以根据自己喜好进行如下步骤)1.选取3个不同类别的文本,每类500篇,共1500篇。2.使用TF-IDF或词频等方式,从每个类型的文本中选出100个特征词,3个类别,共300个特征词。将300个特征词存入一个list中。3.使用300个特征词的列表去遍历每一篇文本,如果第x个特征词在该文本中出现次数为n,则对应该文本的特征...原创 2019-07-10 17:52:27 · 2732 阅读 · 1 评论