一个简单爬虫爬取西刺免费代理网站的代理IP

最新推荐文章于 2020-12-09 02:56:13 发布

原创最新推荐文章于 2020-12-09 02:56:13 发布 · 2.6k 阅读

2 ·

CC 4.0 BY-SA版权

python爬虫专栏收录该内容

3 篇文章

订阅专栏

本文介绍了一种使用Python的requests和re模块从西刺代理网站抓取IP地址的方法。通过定义get_ip函数，设置请求头模拟浏览器行为，获取网页内容并用正则表达式解析出IP列表。

Python3.8

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

import requests
import re

def get_ip():
    url = "http://www.xicidaili.com/"
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'}

    response = requests.get(url, headers=headers)
    html = response.content.decode()

    ip_list = re.findall("""<td class="country"><img src="http://fs.xicidaili.com/images/flag/cn.png" alt="Cn" /></td>
    <td>(.*?)</td>""", html)
    print(ip_list)

if __name__ == '__main__':
    get_ip()

结果如下：