如何快速去掉爬虫结果中的标签

最新推荐文章于 2025-11-10 11:17:30 发布

原创最新推荐文章于 2025-11-10 11:17:30 发布 · 7.6k 阅读

3 ·

CC 4.0 BY-SA版权

Python 同时被 2 个专栏收录

171 篇文章

订阅专栏

学习总结

115 篇文章

订阅专栏

本文介绍了一种使用正则表达式和Python库w3lib进行文本清理的方法，包括去除HTML标签、汉字、特定字符以及空白字符。

部署运行你感兴趣的模型镜像

from w3lib.html import remove_tags

def go_remove_(value):
        # 移除标签
        # content = remove_tags(value)
        # 移除汉子
        # content=re.sub(r'[\u4e00-\u9fa5]{1,}', '', value)
        i = re.sub(r'<em>.*$', "", value)
        i = re.sub(r'[\u4e00-\u9fa5]+', "", i)
        i = re.sub(r'。.$', "", i)
        i = re.sub(r'。.*', "", i)
        # 移除空格 换行
        return re.sub(r'[\t\r\n\s]', '', i)



def go_remove_tag(value):
    # 移除标签
    content = remove_tags(value)
    # 移除空格 换行
    return re.sub(r'[\t\r\n\s]', '', content)

您可能感兴趣的与本文相关的镜像

Python3.9

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

会编程的漂亮小姐姐

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

爬虫在大模型微调中的作用（八）：智能爬虫与自动化微调

加入“Super Entity”，与全能开发团队共探AI智能体与数字人项目，开启前沿技术之旅。

05-05

1258

随着人工智能技术的快速发展，大语言模型（LLM）在自然语言处理（NLP）领域取得了显著的成就。然而，为了使这些模型更好地适应特定领域或任务，微调（Fine-tuning）是不可或缺的步骤。微调需要大量的标注数据，而爬虫技术可以高效地采集这些数据。在本文中，我们将探讨如何利用智能爬虫技术实现自动化的大模型微调，从而提高模型的性能和适应性。在本文中，我们详细探讨了如何利用智能爬虫技术实现自动化的大模型微调。

chatgpt赋能python：**Python爬虫去除特定的标签以及内容的SEO**

sc17332889342的博客

06-23

690

本文由chatgpt生成，文章没有在chatgpt生成的基础上进行任何的修改。以上只是chatgpt能力的冰山一角。作为通用的Aigc大模型，只是展现它原本的实力。对于颠覆工作方式的ChatGPT，应该选择拥抱而不是抗拒，未来属于“会用”AI的人。🧡AI职场汇报智能办公文案写作效率提升教程 🧡专注于AI+职场+办公方向。下图是课程的整体大纲下图是AI职场汇报智能办公文案写作效率提升教程中用到的ai工具。

3 条评论您还未登录，请先登录后发表或查看评论

3 条评论

狄洺 2020.11.05
这个库怎么安装，我在pycharm中没有找到这个库
- 布都~御魂回复狄洺 2021.05.18
  pip install re
- RE：0不会写代码的码农回复狄洺 2021.02.27
  这个库的名称叫re，你在pycharm中的python interpreter中添加就行了