结巴分词,文本聚类,情感分析,词云图可视化

本文探讨了中文文本处理的几个关键步骤,包括使用结巴分词进行文本预处理,接着进行文本聚类以发现隐藏的主题,再进行情感分析以理解文本情绪,最后通过词云图可视化来直观展示关键词分布。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

import re
import numpy
import jieba
import jieba.analyse                        # 提取关键内容
import jieba.posseg as pseg                 # 词性标注
from pymongo import MongoClient
from sklearn.feature_extraction.text import TfidfTransformer, CountVectorizer
from sklearn.cluster import KMeans, MiniBatchKMeans
from sklearn.metrics.pairwise import cosine_similarity
from snownlp import SnowNLP
from scipy.misc import imread
from wordcloud import WordCloud
import matplotlib.pyplot as plt

def load_file():
    '''
        加载外部词典,正则去除所有的标点符号,返回纯文本
    '''
    jieba.load_userdict("G:/anaconda/dict_lzf.txt")       # 加载外部自定义词典
    client = MongoClient('localhost', 27017)  # 链接数据库
    db = client['Taoguba']  # 匹配Taoguba表
    news = db.Taoguba.find()
    # db = client['Eastmoney']  # 匹配eastmoney表
    # news = db.Eastmoney.find()
    all_new = []
    N_new = []
    emo = []
    sum = []
    for i in news:
        new = (i["Content"])
        # new = (i["massage
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值