笔记-python爬虫概述

目录

常用第三方库
爬虫框架
动态页面渲染
    1. url请求分析
    2. selenium
    3. phantomjs
    4. splash
    5. spynner
爬虫防屏蔽策略
    1. 修改User-Agent
    2. 禁止cookies
    3. 设置请求时间间隔
    4. 代理IP池
    5. 使用Selenium
    6. 破解验证码

在这里插入图片描述

常用第三方库

对于爬虫初学者,建议在了解爬虫原理以后,在不使用任何爬虫框架的情况下,使用这些常用的第三方库自己实现一个简单的爬虫,这样会加深对爬虫的理解。

urllib和requests都是python的HTTP库,包括urllib2模块以巨大的复杂性代价获取综合性的功能。相比于urllib2,Requests模块更能简约的支持完整的简单用例。关于urllib和requests的优缺点和区别,大家可以去网上查一下。

BeautifulSoup和lxml都是python页面解析的库。BeautifulSoup 是基于 DOM 的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多。而lxml只会进行局部遍历,使用xpath能够很快定位标签。bs4 是用 python 写的,lxml 是 c 语言实现的,也决定了lxml比bs4要快。

该博客有比较全面的关于python爬虫常用第三方库的汇总,可做参考。
https://blog.youkuaiyun.com/woshisunchi/article/details/60877817
爬虫框架

python常用的爬虫框架就是scrapy和pyspider两个。
关于框架的使用方法及详细介绍,可参考官方文档。
动态页面渲染

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大白砌墙

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值