Python爬虫（一）-数据清洗与提取

最新推荐文章于 2024-07-30 18:30:00 发布

原创

最新推荐文章于 2024-07-30 18:30:00 发布 · 2.1k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#python

本文介绍了Python爬虫中数据清洗与提取的关键技术。讲解了re模块的运用，包括findall()用于提取信息，match()进行匹配，以及sub()用于字符串替换。此外，还探讨了Xpath的基础语法和JsonPath的使用方法，如dumps()、loads()、dump()和load()等函数，用于在Python和JSON对象间的转换。

re模块的使用
提取，匹配，替换
提取：findall()
匹配：match()
替换 :sub()

例子：

#sub("正则表达式",'替换的字符','需要替换的字符')
    html=re.sub('\n','',html)
#findall("正则表达式","要替换的字符")
    ret=re.findall(pattern_1,html)
#match("正则表达式","匹配的字符")
	re.match(password_patter