
文本挖掘分析
文章平均质量分 74
笔记
卖山楂啦prss
数据分析师——唯有知识,让我们免于平庸
展开
-
文本分类(朴素贝叶斯分类)介绍
什么是文本分类文本分类是现代机器学习应用中的一大模块,更是自然语言处理的基础之一。我们可以通过将文字数据处理成数字数据,然后使用贝叶斯来帮助我们判断一段话,或者一篇文章中的主题分类,感情倾向,甚至文章体裁。现在,绝大多数社交媒体数据的自动化采集,都是依靠首先将文本编码成数字,然后按分类结果采集需要的信息。虽然现在自然语言处理领域大部分由深度学习所控制,贝叶斯分类器依然是文本分类中的一颗明珠。现在,我们就来学习一下,贝叶斯分类器是怎样实现文本分类的。文本分类的基本步骤文本有效信息的提取文本预处理原创 2021-02-04 10:52:05 · 6519 阅读 · 0 评论 -
词云图生成器使用帮助
词云图生成器假设你手上有一份类似这样的数据(大江大河弹幕.xlsx)想要绘制词云图,步骤如下练习数据:弹幕1 把 停用词.txt 放置在桌面下载地址:停用词2 打开文本文件打开你要绘制词云图的数据,这里是 大江大河弹幕.xlsx打开后的界面3 输入要绘制词云图数据的列名(必填)这里只有一列,列名是 弹幕如果没有填列名,会有提示如果列名填错了,也会有提示其他可以暂时不填,也能绘制词云图4 点击绘制词云图词云图生成成功5 如果上面绘制的图里面有想要剔除的词,原创 2021-01-31 17:23:07 · 663 阅读 · 0 评论 -
Python之GUI编程 实现界面化的词云图生成器.exe
from tkinter import filedialogimport xlrdimport tkinter as tkfrom tkinter import ttkimport osimport stylecloudimport numpy as npfrom PIL import Imageimport jiebaimport jieba.analyseimport pandas as pdos.chdir(r'C:\Users\Administrator\Desktop')原创 2021-01-28 17:39:33 · 403 阅读 · 0 评论 -
stylecloud 自定义蒙版
目前,我用的比较多的词云图库主要是WordCloud与stylecloud ,这两个库我觉得整体都挺好的,但我还是觉得 WordCloud 库虽然可以自定义蒙版,但每次画出来的图我都不是很喜欢,可能是我没掌握怎么更好的绘制吧。其次呢,stylecloud 绘制的图挺好看的,但蒙版只能用它指定的那些图标,有时候想自定义蒙版却没有很好的解决,比如,我想用下面这种蒙版,就只能用 WordCloud 绘制最近,看到才哥公众号的词云图绘图思路,我才明白,原来可以通过修改源代码的方式实现 stylecloud原创 2021-01-28 10:29:08 · 701 阅读 · 0 评论 -
Python 调用腾讯云自然语言处理接口之情感分析、关键词提取等
1 开通NLP服务自然语言处理需要进行个人认证拥有腾讯云的实名账号,开通后每天有50万次免费调用,超过次数后才会收费。下面有一个快速使用,也有详细的说明怎么调用接口快速使用打开工具这里也可以快速使用,这里我暂时不这么做2 获取安全凭证进入腾讯自然语言处理平台进入右上角的控制台选择Python这里面有很详细的教程安全凭证包含 SecretId 及 SecretKey 两部分。SecretId 用于标识 API 调用者的身份,SecretKey 用于加密签名字符串和服原创 2021-01-27 22:47:48 · 4247 阅读 · 3 评论 -
ROST_CM6软件之词频分析、社会网络和语义网络分析、情感分析
简介ROST CM 6是武汉大学沈阳教授研发编码的国内目前唯一的以辅助人文社会科学研究的大型免费社会计算平台。该软件可以实现微博分析、聊天分析、全网分析、网站分析、浏览分析、分词、词频统计、英文词频统计、流量分析、聚类分析等一系列文本分析。社会网络和语义网络分析(S)数据注意,保存时编码要为ANSI所以这里需要转换一下准备自定义表与停词表例如同时,点击快速分析后,将会弹出网络图对网络图进行设置对布局进行设置对节点、边进行设置最终效果图修改情感分析原创 2021-01-24 17:26:23 · 83819 阅读 · 22 评论 -
文本相似度 介绍
文章目录1 基本概念1.2 基于词袋模型的基本思路2 词条相似度:word2vec2.1 目前主要使用gensim实现相应的算法3 文档相似度3.1 基于词袋模型计算文档相似度3.2 doc2vec4 文档聚类1 基本概念文本相似度主要用于各种搜索引擎的类似文章的推荐,或者购物网站的类似商品推荐,点评网站/微博微信平台上的类似内容推荐1.2 基于词袋模型的基本思路如果两个文档/两句话的用词越相似,它们的内容就应该越相似。因此,可以从词频入手,计算它们的相似程度文档向量化之后,相似度的考察就可以原创 2021-01-24 15:23:05 · 5149 阅读 · 1 评论 -
Python 实现文本共现网络分析
前言前两天简单地做了一个文本挖掘实战分析,里面提到了共现分析,但是并没有完成,有些遗憾经过查阅资料,最终还是粗糙地完成了这个分析对于共现分析共词网络方法在知识网络研究中应用普遍,最为常见的就是利用论文关键词及其共现关系构建共词矩阵,进而映射为共词网络并可视化,从而来揭示某一学科某一领域某一主题的研究热点与趋势、知识结构与演化等。引自:共词网络的结构与演化-概念与理论进展其基本含义:在大规模语料中,若两个词经常共同出现(共现)在截取的同一单元(如一定词语间隔/一句话/一篇文档等)中,则认为这两原创 2021-01-23 19:13:30 · 30099 阅读 · 22 评论 -
关键词提取 TF-IDF算法与TextRank算法
文章目录1 无监督方式的分析思路--基于词频1.1 TF-IDF 算法1.2 TF-IDF的具体实现1.2.1 TD-IDF的Jieba包实现1.2.2 TD-IDF的sklearn实现1.2.3 TD-IDF的gensim实现2 无监督方式的分析思路--基于图形2.1 TextRank算法2.2 TextRank算法的Jieba实现自动提取关键词用途:用核心信息代表原始文档在文本聚类、分类、自动摘要等领域中有着重要的作用关键词提取:根据某种准则,从文档中抽取最重要的词作为关键词有监督:抽原创 2021-01-23 12:36:16 · 3230 阅读 · 1 评论 -
文本向量化 介绍
学习笔记来源:Python文本挖掘视频教程补充文献:从离散到分布,盘点常见的文本表示方法文本向量化(理论篇)文章目录1 文档信息的向量化1.1 文档信息的离散表示1.1.1 One-Hot独热编码表示法1.1.2 词袋模型Bag of Words(BOW)1.1.3 生成 文档词条矩阵1.1.3.1 用sklearn库实现1.1.4 从词袋模型到N-gram(离散表示)1.2 文档信息的分布式表示(连续表示)1.2.1 什么是分布式表示1.2.2 共现矩阵1.2.3 NNLM模型1.2.4 Wor原创 2021-01-22 12:24:09 · 13284 阅读 · 0 评论 -
使用Python完成简单的人物关系网络分析
接 基于共现发现人物关系的python实现 得到的结果,可使用python完成简单的关系图import networkx as nximport matplotlib.pyplot as pltfrom pylab import mplmpl.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体mpl.rcParams['axes.unicode_minus']a = []f = open('busan_edge.txt','r',encodi原创 2021-01-19 17:23:22 · 4491 阅读 · 0 评论 -
Python 正则表达式
正则表达式(一)元字符1、匹配边界 ^ ---行首 $ ---行尾2、表示重复次数 ? ---0次或者1次 等价于 {0,1} * ---->=0 次 等价于 {0,} + --- >=1 次 等价于 {1,} {n} --- n 次 {n,}--- 》n 次 {n,m}---n《,《m 最少匹配 n 次且最多匹配 m 次3、匹配文字 []----表示匹配单字符 [abc]--匹配a或者b或者c中的其中一原创 2020-12-18 22:08:22 · 417 阅读 · 1 评论 -
【转载】基于共现发现人物关系的python实现
转载自:基于共现发现人物关系的python实现作者:大邓【公众号:大邓和他的python】本篇文章是阅读实验楼Foerc的“python基于共现提取《釜山行》人物关系”的总结。如果大家对于绚丽的网络关系节点图感兴趣,可以去实验楼学习。 要画出上图的节点网络关系图,需要使用Gephi,下载地址gephi,如果大家想精进学习gephi可以去这里学习https://www.baidu.com/link?url=a4REdia6AuOIP5ITsK6tf8Rs4kS9qr5YGT-sYIfKK4gM转载 2021-01-19 15:18:54 · 1330 阅读 · 0 评论 -
【转载】Python之pandas中Series对象下的str方法汇总
转载自:Python之pandas中Series对象下的str方法汇总@孜然v文章目录Python之pandas中Series对象下的str方法汇总1. cat(和指定字符进行拼接)2. split(按照指定字符串分隔)3. rsplit(和split用法一致,只不过默认是从右往左分隔)4. partition(也是按照指定字符串分隔,和python内置的partition一样)5. rpartition(和partition类似,不过是默认是从右往左找到第一个分隔符)6. get(获取指定位置的字符,转载 2021-01-18 21:46:07 · 331 阅读 · 0 评论 -
词云图指定图片色系以及指定单词组颜色
文章目录1 指定图片色系2 指定单词组颜色1 指定图片色系默认颜色找到自己想要的颜色,这里选择彩虹色保存为图片用截图软件,截取大概 500x500 的样子import pandas as pdimport numpy as npimport wordcloudfrom wordcloud import WordCloudimport numpy as npfrom collections import Counterimport PILimport imageiofrom原创 2021-01-11 20:20:37 · 3680 阅读 · 1 评论 -
文本挖掘:LDA模型对公号文章主题分析
转载自:【大数据部落】文本挖掘:LDA模型对公号文章主题分析@tecdat拓端原文链接:http://tecdat.cn/?p=2175/1语义透镜顾客满意度和关注点我们对于评价数据进行LDA建模,就是从语料库中挖掘出不同主题并进行分析,换言之,LDA提供了一种较为方便地量化研究主题的机器学习方法。我们使用最大似然估计进行最优化主题个数的选取。当主题个数定为20的时候,似然估计数最大,即留言板数据分为20个主题的可能性比较大。将模型生成的20个主题中的高频词取出。根据各个主题的高频关键词,大概可转载 2021-01-09 08:48:25 · 2717 阅读 · 0 评论 -
python 腾讯视频弹幕爬取+词云
import timeimport requestsfrom lxml import etreefrom multiprocessing.dummy import Poolfrom requests.exceptions import RequestExceptionimport openpyxlimport jsonimport refrom urllib import parseimport osfrom fake_useragent import UserAgentimport原创 2020-12-20 10:56:28 · 855 阅读 · 1 评论 -
杂记——淘宝/京东 商品/评论爬取+词云图制作
productPageCommentsimport requests as re #导入requests模块import openpyxlimport timewb = openpyxl.Workbook() # 获取工作簿对象sheet = wb.active # 活动的工作表# 添加列名sheet.append(['评论']) # 请求头headers = {'User-Agent':'User-Agent: Mozilla/5.0 (Window原创 2020-12-19 17:31:02 · 1481 阅读 · 1 评论 -
分别用WordCloud、stylecloud、pyecharts绘制词云图
文本数据来源:用python爬取了某网站近5000条新闻标题,代码如下:这里只取标题import timeimport requestsfrom lxml import etreefrom multiprocessing.dummy import Poolfrom requests.exceptions import RequestExceptionimport openpyxldef get_one_page(url): try: res = requests.原创 2020-11-17 20:11:41 · 2431 阅读 · 2 评论 -
利用stylecloud制作更酷炫的词云图
stylecloud是wordcloud优化改良版。操作简单,直接调用。安装pip install -i https://pypi.tuna.tsinghua.edu.cn/simple stylecloudhttps://fontawesome.dashgame.com/# -*- coding: utf-8 -*-import jiebafrom stylecloud import gen_styleclouddef cloud(file_name): with open(f原创 2020-05-22 19:56:22 · 5292 阅读 · 4 评论 -
python制作词云图
将摘录一段文字,保存在word.txt文件中找到一个自己想要做的词云图片模板,放在指定的文件夹中,这里我放在C盘,并命名为pic.bmp运行下面的代码#-*- coding:utf-8 -*-import matplotlib.pyplot as pltfrom wordcloud import WordCloudimport jiebaimport numpy as npf...原创 2020-04-30 12:39:02 · 765 阅读 · 0 评论 -
jieba分词+collections 词频统计+WordCloud 词云
jieba分词“结巴”中文分词:做最好的 Python 中文分词组件请参见:https://github.com/fxsjy/jieba安装pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple特点支持四种分词模式:模式描述精确模式试图将句子最精确地切开,适合文本分析全模式把句子...转载 2020-04-30 12:27:19 · 2520 阅读 · 1 评论