texthero的初次使用
一、下载
最简单的就是直接pip下载
pip install texthero
但是有许多依赖库,可能下载时间较长

同时在初次使用时还会对一些数据进行下载,
注意:对于这些数据的下载是需要挂上vpn的,否者下载不下来
二、初次使用
基本就是照搬texthero的示例,只是我用中文测试了一下
中文测试内容来源:《对话|“我是讽刺那些假大师”,当武术表演遭遇网红行为艺术》澎湃新闻记者 蒲垚磊2020-07-27 15:39 来源:澎湃新闻


选中的内容就是测试的内容
"""简单的文本清理管道"""
#显示所有的行列
pd.set_option('display.max_columns', None)
# 显示所有行
pd.set_option('display.max_rows', None)
# 设置value的显示长度为100,默认为50
pd.set_option('max_colwidth', 100)
text = "视频中的表演者何维越在接受澎湃新闻记者采访时表示,这段“武术表演”其实是为了讽刺那些招摇撞骗的假大师,他自己其实是传统武术爱好者。此前,他已经做过许多类似的反讽表演。(12306/)!"
#格式化为series格式
s = pd.Series(

本文介绍如何使用Python库texthero进行文本数据的清理与预处理,包括下载安装、依赖库处理及中文文本测试,展示了从去除数字、括号到停用词、词性标注等步骤。
最低0.47元/天 解锁文章
659





