
文本分析
小白自留地
小白初来乍到,有不正确的地方,还请各位朋友批评指正!如果需要,注明出处哦。
展开
-
文本分析4-词频统计与词云展示
笔记来自课程:玩转文本挖掘(51ct0学院),总结整理为个人学习、复习使用,供参考。对小说第一章进行分词首先重复之前的操作,读文本数据–章节标识–选取第一章–分词读取并选取第一章import pandas as pdimport jiebaimport os#os.chdir(r'')import warningswarnings.filterwarnings('ignore')#读取文章时是一小段一小段读取的raw=pd.read_table('金庸-射雕英雄传txt精校版.t原创 2020-08-16 23:02:09 · 4203 阅读 · 1 评论 -
文本分析3-jieba分词
笔记来自课程:玩转文本挖掘(51ct0学院),总结整理为个人学习、复习使用,供参考。分词思想和工具也有很多,这里先只学习jeiba分词。jieba分词三种分词模式精确模式:试图将句子最精确分开,适合做文本分析(默认精确模式)全模式:把句子中所有可以成词的词语扫描出来,速度快,但不能解决歧义搜索引擎模式:在精确模式基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词(考虑了搜索引擎的需求,主要是为了提高搜索引擎的命中率)另外,也支持繁体分词和自定义词典基本使用import jie原创 2020-08-16 22:52:28 · 2466 阅读 · 0 评论 -
文本分析2-python文本数据导入操作
笔记来自课程:玩转文本挖掘(51ct0学院),总结整理为个人学习、复习使用,供参考。英文文本天生带有空格,而中文文本没有间隔,且中文同一个词在不同语境下的含义不同,中文的智能分词及分析相对难度要高。语料库在文本分词中发挥重要作用,不同的语料库有着不同设计目的,如古腾堡语料库(图书),布朗语料库(综合),路透社语料库(新闻)…(但布朗语料库支持英文,中文不适用)可以自己加工语料库,常见的语料库格式:常见语料库格式外部文件listlist of listDataFrame使用词袋模型进原创 2020-08-16 22:38:49 · 1294 阅读 · 3 评论 -
文本分析1--文本分析概述
笔记来自一门网课:玩转文本挖掘(51ct0学院),总结整理为个人做学习、复习使用,供参考。原创 2020-08-16 22:14:18 · 583 阅读 · 0 评论