texthero的初次使用

本文介绍如何使用Python库texthero进行文本数据的清理与预处理,包括下载安装、依赖库处理及中文文本测试,展示了从去除数字、括号到停用词、词性标注等步骤。

texthero的初次使用

一、下载

最简单的就是直接pip下载
pip install texthero

但是有许多依赖库,可能下载时间较长
在这里插入图片描述

同时在初次使用时还会对一些数据进行下载,

注意:对于这些数据的下载是需要挂上vpn的,否者下载不下来

二、初次使用

基本就是照搬texthero的示例,只是我用中文测试了一下

中文测试内容来源:《对话|“我是讽刺那些假大师”,当武术表演遭遇网红行为艺术》澎湃新闻记者 蒲垚磊2020-07-27 15:39 来源:澎湃新闻

在这里插入图片描述
在这里插入图片描述
选中的内容就是测试的内容

 """简单的文本清理管道"""
 #显示所有的行列
 pd.set_option('display.max_columns', None)
# 显示所有行
 pd.set_option('display.max_rows', None)
# 设置value的显示长度为100,默认为50
pd.set_option('max_colwidth', 100)
text = "视频中的表演者何维越在接受澎湃新闻记者采访时表示,这段“武术表演”其实是为了讽刺那些招摇撞骗的假大师,他自己其实是传统武术爱好者。此前,他已经做过许多类似的反讽表演。(12306/)!"
#格式化为series格式
s = pd.Series(
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值