爬虫小白第一篇西刺代理

最新推荐文章于 2024-11-21 10:31:42 发布

原创

最新推荐文章于 2024-11-21 10:31:42 发布 · 1w 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#爬虫 #urllib #bs4 #西刺代理 #有效性判断

这篇博客介绍了Python爬虫新手如何获取和验证西刺代理IP。通过urllib.request模块，设置代理header来解决503错误，使用chardet判断HTML编码，再用BeautifulSoup解析提取IP。接着介绍如何验证代理IP的有效性，通过urllib.request添加代理并请求特定网址，根据异常判断代理是否可用。最后，将有效代理IP保存到本地文件。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

爬取西刺代理流程图

这里写图片描述

背景

环境：python3.6
模块：
1. urllib.request(获取html)
2. chardet（判断html的编码）
3. bs4.Beautiful（提取代理IP）
github地址(https://github.com/tonyxinminghui/spider/blob/master/xici_spider.py)

获取html

难点

选择用什么模块获取html
西刺代理的网址不伪造header是无法获取正确的html的。一般会返回503
python3内存中字符串的编码是Unicode的形式，我们一般获取的html都是编码过的，我们需要解码。
3引出4，如何判断html的编码。

解决方案

由于自己异常稀少的知识储量，选择了urllib.request（PS：网上大家都说requests是为人类写的模块，很多方法名都很人性化，可惜我不是很熟悉，以后有机会可以，用request重写一下。）
有关伪造header，urllib.request中相关的接口是
class urllib.request.Request(url[, data][, headers][, origin_req_host][, unverifiable])
这里列一下header的形式，具体接口参数，详见参考
```
forged_header = {
'User-Agent': XXXX,
'Referer'   : XXXX,
'Host'      : spider_data['host'],
```

最低0.47元/天解锁文章

200万优质内容无限畅学

遥不可及梦

博客等级

码龄12年

160
原创

52
点赞

161
收藏

47
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: c++函数中的值传递以及引用传递

下一篇：: 西刺代理爬虫多进程改进验证有效代理IP

最新评论

codeblocks安装boost库
清欢儒: 你好请问cd是什么呀？
codeblocks安装boost库
富贵有话说: 你好，bootstrap.bat哪里没有.bat这个后缀，但是这个文件的图标和这个.bat一样的，双击这个bootstrap文件没什么反应黑框一闪而过，这个是什么原因呀，求指教
只用2GB的内存找出20亿个整数中找到出现次数最多的数
缝菜洋: 我认为16个小文件是因为hash表大小的个数，也就是一个hash函数均匀的将20亿个32位整数映射到16个小文件中，一般hash表的个数取2的整数幂
为什么表数据删除一半，表文件大小不变？读后总结
fj3704: alter table t engine = InnoDB 我执行这个空间还是没变化，我明明删除了一万多篇文章的，请问啥原因啊
Redis有哪些慢操作
Datrilla: 还没有详细看过源码这篇基于我们理解源码的方式介绍有助于源码了解学习有助于扩宽编程思路

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。