【笔记】结巴分词绘制词云图

最新推荐文章于 2024-11-09 11:21:00 发布

原创

最新推荐文章于 2024-11-09 11:21:00 发布 · 625 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#python #jieba #分词

本文探讨了结巴分词的精确、全模式和搜索引擎模式，展示了如何通过正则表达式提取数据并结合jieba分词剔除非关键信息。重点在于生成词频分布和可视化重要词云，揭示了信息技术领域的核心词汇。

一、结巴分词的三种模式

（1）精确模式：把最有可能组成词语的词切开，没有冗余单词。

（2）全模式：把所有可能组成词语的词切开，有冗余单词。

（3）搜索引擎模式：在精确模式的基础上，对长词再次切分，适合用于搜索引擎分词。

二、正则提取数据

import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

# 导数据
douyin = pd.read_csv('data/douyin.csv')

# 正则提取，并达到MySQL中group_concat的效果
temp = douyin['signature'].str.extractall(r'[^一-龥]*([一-龥]+)[^一-龥]*').copy(