开发环境
- Python 3.8
- Pycharm
模块使用
- requests >>> pip install requests
- parsel >>> pip install parsel
代理ip结构
proxies_dict = {
"http": "http://" + ip:端口,
"https": "http://" + ip:端口,
}
代码实现步骤:
1. 导入模块
# 导入数据请求模块
import requests # 数据请求模块 第三方模块 pip install requests
# 导入 正则表达式模块
import re # 内置模块
# 导入数据解析模块
import parsel # 数据解析模块 第三方模块 pip install parsel >>> 这个是scrapy框架核心组件
2. 发送请求, 对于目标网址发送请求 https://www.kuaidaili.com/free/
url = f'https://www.kuaidaili.com/free/inha/{
page}/' # 确定请求url地址
# 用requests模块里面get 方法 对于url地址发送请求, 最后用response变量接收返回数据
response
Python爬虫:构建IP代理池并检测其可用性

本文介绍了使用Python 3.8和相关库如requests、parsel来从网站kuaidaili.com抓取免费代理IP,并通过正则表达式、CSS选择器、XPath进行数据提取。在抓取的150个IP中,经过质量检测,仅发现1个可用。
最低0.47元/天 解锁文章
267

被折叠的 条评论
为什么被折叠?



