
python爬虫
文章平均质量分 73
python爬虫专栏,收录python爬虫相关的博客,有爬取技术,数据处理技术等
半斗烟草
这个作者很懒,什么都没留下…
展开
-
Python爬虫知识概述
前言经过一段时间摸索爬虫,现在对python 爬虫整个知识框架进行一个总结一、Python 爬虫知识架构图我将爬虫技术分为两个业务场景,一个是静态页面数据,另一个是有ajax、js动态加载之后的网页数据爬虫技术我将之分为两大类,一类为网页URL处理与下载技术(urlib、requests、selenium等),另一类为数据数据解析技术(re、lxml、bs4、selenium等)为了方便、快速开发网络爬虫,对底层url处理与数据处理进行高层次封装,引出scripy框架。基于框架开发,方便、省原创 2022-02-09 20:53:46 · 1052 阅读 · 0 评论 -
python处理文档对象【三方库—lxml】
前言最近在处理网络爬虫下载的网页,使用到lxml模块。对于这个模块一直比较好奇,标准库中已经有xml模块了,为啥还有写一个三方的lxml模块?平常使用中常用作对HTML文件的解析与操作,还能干啥?等等,一大堆问题。特意花费一个下午,了解下它神秘面纱下到底隐藏这个什么。提示:学习这个模块,建议大家先了解下W3C标准中的DOM对象,这对于大家去理解PAI比较有帮助。以下图片图,因为在学习中有一次让自己发散了,比较open,姑且记下来 ^V^-^V^:response=urlopen(url,data=None,[timeout,]*,cafile=None,capath=None,cadefault=False,context=None)url:网页地址data: {}, 默认为 data=None,表示get请求;若传递改参数,则表格post请求timeout:请求超时时间,秒为单位cafile 与capath :CA证书和路径,context:ssl.原创 2021-09-21 22:37:32 · 2875 阅读 · 0 评论