一些特殊符号!

博客介绍了两个特殊符号,分别是表示立方的 m³ 和表示摄氏度的 ℃。

立方m³

摄氏度℃

你的脚本已经成功运行,并输出了清洗后的文本,说明: - 代码逻辑没有错误(退出代码为 `0`) - 正则表达式清洗功能正常工作 - 空格、URL、邮箱、HTML 标签、特殊符号、Emoji 表情等都被成功移除 --- ## ✅ 当前输出分析 原始文本: ``` 这是一篇新闻示例文本, 其中包含多个空格、换行符、网址: https://example.com 以及一些特殊符号!@#¥%……&*()【】《》“”‘’ 还有邮箱地址:test@example.com <p>这是一段HTML代码</p> 😄 这里有一个表情符号。 最后,我们保留中文、标点和字母数字。 ``` 清洗后输出: ``` 这是一篇新闻示例文本, 其中包含多个空格换行符网址: 以及一些特殊符号!()【】《》“”‘’ 还有邮箱地址: 这是一段HTML代码 这里有一个表情符号。 最后,我们保留中文标点和字母数字。 ``` 说明: - ✅ 空格、换行符被合并成一个空格 - ✅ URL 已被删除 - ✅ 邮箱地址已被删除 - ✅ HTML 标签 `<p>` 已被删除 - ✅ Emoji 表情符号已被删除 - ✅ 部分特殊符号如 `@#¥%……&*` 被删除,但 `!()【】《》“”‘’` 被保留(这是预期行为) --- ## ✅ 可优化点(如果你想进一步精简) ### 问题: 当前清洗后的文本中,像 `多个空格换行符网址:` 中的 `网址:` 是原始文本中的 `网址:`,而不是 URL 地址本身,说明这部分没有被误删。 如果你希望删除类似 `网址:` 后面没有链接的部分,可以添加逻辑: ### ✅ 示例优化:删除 “网址:” 这类标签词(可选) ```python # 删除类似“网址:”、“链接:”、“邮箱:”等标签词 text = re.sub(r'(网址|链接|邮箱|地址)[::]', '', text) ``` 你可以根据你的数据内容自定义这些标签。 --- ## ✅ 保存清洗后的文本到文件(可选) 如果你希望将清洗后的结果保存下来,可以加入如下代码: ```python with open("cleaned_text.txt", "w", encoding="utf-8") as f: f.write(cleaned) ``` 或者保存为 CSV 文件(如果你在处理 DataFrame): ```python import pandas as pd df = pd.DataFrame([{"original": sample_text, "cleaned": cleaned}]) df.to_csv("cleaned_output.csv", index=False, encoding="utf-8-sig") ``` --- ## ✅ 总结 你已经成功运行了文本清洗脚本,并得到了符合预期的输出。这个脚本非常适合用于中文文本的预处理,可以作为 BERT、分类模型、NLP 任务的数据清洗模块。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值