一、结巴分词的三种模式
(1)精确模式:把最有可能组成词语的词切开,没有冗余单词。
(2)全模式:把所有可能组成词语的词切开,有冗余单词。
(3)搜索引擎模式:在精确模式的基础上,对长词再次切分,适合用于搜索引擎分词。
二、正则提取数据
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
# 导数据
douyin = pd.read_csv('data/douyin.csv')
# 正则提取,并达到MySQL中group_concat的效果
temp = douyin['signature'].str.extractall(r'[^一-龥]*([一-龥]+)[^一-龥]*').copy(
信息技术:分词艺术与重要词云探索

本文探讨了结巴分词的精确、全模式和搜索引擎模式,展示了如何通过正则表达式提取数据并结合jieba分词剔除非关键信息。重点在于生成词频分布和可视化重要词云,揭示了信息技术领域的核心词汇。
最低0.47元/天 解锁文章
1098

被折叠的 条评论
为什么被折叠?



