python爬虫思路及爬虫代理使用方案

最新推荐文章于 2025-02-23 07:13:08 发布

原创

最新推荐文章于 2025-02-23 07:13:08 发布 · 309 阅读

CC 4.0 BY-SA版权

爬虫是一个比较容易上手的技术，也许花5分钟看一篇文档就能爬取单个网页上的数据。但对于大规模爬虫，完全就是另一回事，并不简单，还会衍生出许多别的问题。
爬虫思路：
下载数据、解析数据、保存数据
今天先分享如何爬取数据和使用代理方案
爬取数据：
抓取大多数情况属于get请求，即直接从对方服务器上获取数据。
首先，Python中自带urllib及urllib2这两个模块，基本上能满足一般的页面抓取。另外，requests也是非常有用的包，与此类似的，还有httplib2等等。
import requests
url = http://current.ip.16yun.cn:802
response = requests.get(url)
content = requests.get(url).content
print(“response headers:”, response.headers)
print(“content:”, content)
此外，对于带有查询字段的url，get请求一般会将来请求的数据附在url之后，以?分割url和传输数据，多个参数用&连接。
import requests
data = {‘wd’:‘nike’, ‘ie’:‘utf-8’}
url=‘https://www.baidu.com’
response = requests.get(url=url, params=data)
大部分网站都有反爬措施，也就是说网站服务器会根据某个ip在特定时间内的访问频率来判断是否为爬虫，然后把你把你拉进“黑名单”，素质好的给你返回403或者出来个验证码，素质不好的会给你返回两句脏话。
解决方案：
①降低爬虫请求速率，但是会降低效率；
②添加代理ip，代理ip又分为付费的和不要钱的，前者比较稳定，后者经常断线。
添加爬虫代理代码：
import requests
import random
# 要访问的目标页面
targetUrl = “http://httpbin.org/ip”
# 要访问的目标HTTPS页面

最低0.47元/天解锁文章