- 博客(1)
- 收藏
- 关注
原创 常用爬虫技术
常用爬虫技术 一、常用爬虫技术 爬虫系统的核心部件之一就是HTML网页下载器,下载网页需要实现HTML请求,在python中实现HTML请求比较常用的库主要有两个:urllib库和requests库 urllib库:urllib库是python内置的HTML请求库 requests库:基于urllib库,基于Apache2开源协议的HTML库,比urllib更加方便 解析网页主要三种工具 正则表达式:使用预定义的模式去匹配一类具有相同特征的字符串,可以快速、准确的完成复杂的查找,替换等处理要求。 lxml库
2020-06-01 21:10:36
4684
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅