Python爬虫学习-Day6

本文详细介绍了IP地址的概念,包括其在网络中的作用、私网IP与公网IP的区别,以及特殊的回环测试IP。此外,文章深入探讨了网络爬虫在遇到IP封禁时的应对策略,如请求头伪装、时间间隔设定和代理IP使用,并提供了从快代理网站爬取免费代理IP的Python代码示例。

1、什么是IP

  • IP,互联网协议地址(英语:Internet Protocol Address,又译为网际协议地址),缩写为IP地址(英语:IPAddress),是分配给用户上网使用的网际协议(英语:Internet Protocol, IP)的设备的数字标签。
  • 用来在网络中标记一台电脑的一串数字,每个IP地址包括两部分,网络地址和主机地址。
  • 网络地址的最高位必须是0。
  • 国际规定有一部分IP地址是用于我们的局域网使用的,也就是属于私网IP,不在公网中使用,它们的范围是10.0.0.0~10.255.255.255/172.16.0.0~172.31.255.255/192.168.0.0~192.168.255.255。
  • IP地址127.0.0.0~127.255.255.255用于回路测试。
  • 子网掩码不能单独存在,必须与IP地址一起使用。
  • 子网掩码的作用是将IP地址划分成网络地址和主机地址两部分。
  • 主机号全为0,表示网络号。
  • 主机号全为1,表示网络广播。

2、为什么会出现IP被封

  • 出现IP被封现象的原因是网站采取了一些反爬的措施,比如,服务器会检测某个IP在单位时间内的请求次数,如果超过某个阀值,那么服务器会直接拒绝服务,返回一些错误信息。
  • 出现IP被封后,可以进行伪装请求头,即将网络爬虫的请求头模仿成浏览器的请求头,迷惑服务器以为是用户。
  • 方法二是进行间隔时间的设定,比如爬取的时候带个不定长时间作为缓冲。
  • 方法三是设置代理IP,爬取的过程中不断的换IP,达到反反爬虫的目的。

3、爬取网上的免费代理IP

爬取快代理https://www.kuaidaili.com/中的免费IP
首先分析出IP与port的网页位置
在这里插入图片描述
利用re库进行爬取
正则表达式为:(.?)[\s\S]?([\s\S]*?)
将抓取IP、port放进csv文件中。
代码如下:

import requests
import re
import json
import time
import random
from multiprocessing import Pool

MAXSLEEPTIME = 3
MINSLEEPTIME = 1
STAUS_OK = 200
MAX_PAGE_NUM = 10
SERVER_ERROR_MIN = 500
SERVER_ERROR_MAX = 600
CLIENT_ERROR_MIN = 400
CLIENT_ERROR_MAX = 500

def get_one_page(url):
    headers = {'User-Agent':'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 14_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50'
    }
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        return response.text
    return None

def parse_one_page(html):
    pattern = re.compile(
            '<td data-title="IP">(.*?)</td>[\s\S]*?<td data-title="PORT">([\s\S]*?)</td>'
            )
    items = re.findall(pattern, html)
    return items
     
def write_to_file(item):
    with open("ip.csv", 'a', encoding="utf-8") as f:
        f.write(json.dumps(item, ensure_ascii=False)+'\n')

def crawl_one_page(offset):
    url = 'https://www.kuaidaili.com/free/inha/'+str(offset)+'/'
    html = get_one_page(url)
    parse_one_page(html)
    write_to_file(parse_one_page(html)[0])
    time.sleep(random.randint(MINSLEEPTIME,MAXSLEEPTIME))
    
if __name__ == "__main__":
    pool = Pool(1)
    pool.map(crawl_one_page, [i for i in range(1,300)])
    pool.close()
    pool.join()
乐播投屏是一款简单好用、功能强大的专业投屏软件,支持手机投屏电视、手机投电脑、电脑投电视等多种投屏方式。 多端兼容与跨网投屏:支持手机、平板、电脑等多种设备之间的自由组合投屏,且无需连接 WiFi,通过跨屏技术打破网络限制,扫一扫即可投屏。 广泛的应用支持:支持 10000+APP 投屏,包括综合视频、网盘与浏览器、美韩剧、斗鱼、虎牙等直播平台,还能将央视、湖南卫视等各大卫视的直播内容一键投屏。 高清流畅投屏体验:腾讯独家智能音画调校技术,支持 4K 高清画质、240Hz 超高帧率,低延迟不卡顿,能为用户提供更高清、流畅的视觉享受。 会议办公功能强大:拥有全球唯一的 “超级投屏空间”,扫码即投,无需安装。支持多人共享投屏、远程协作批注,PPT、Excel、视频等文件都能流畅展示,还具备企业级安全加密,保障会议资料不泄露。 多人互动功能:支持多人投屏,邀请好友加入投屏互动,远程也可加入。同时具备一屏多显、语音互动功能,支持多人连麦,实时语音交流。 文件支持全面:支持 PPT、PDF、Word、Excel 等办公文件,以及视频、图片等多种类型文件的投屏,还支持网盘直投,无需下载和转格式。 特色功能丰富:投屏时可同步录制投屏画面,部分版本还支持通过触控屏或电视端外接鼠标反控电脑,以及在投屏过程中用画笔实时标注等功能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值