
爬虫
小胖_@
个人博客: https://zhangyh.fun/
展开
-
User-Agent
User-Agent系统浏览器User-Agent字符串MacChromeMozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36MacFirefoxMozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:65.0) Gecko/20100101原创 2021-12-03 18:18:57 · 3080 阅读 · 0 评论 -
Selenium 模块详解
文章目录Selenium 自动化流程下载,安装浏览器驱动网页资源下载百度网盘资源下载操作使用简单使用版本变化,语法改变find_element | find_elements 区别获取指定元素输入框操作xpath 选择器Selenium 自动化流程自动化程序调用 selenium 客户端库函数;客户端库会发送 selenium 命令给浏览器的驱动程序;浏览器驱动程序接收到命令后,驱动浏览器去执行命令;浏览器执行命令;浏览器驱动程序获取命令执行结果,返回给我们自动化程序;自动化程序对返回结果进原创 2021-11-30 10:39:32 · 1162 阅读 · 0 评论 -
aiohttp的使用
aiohttp介绍aiohttp 强调的是异步并发。提供了对asyncio/await的支持,可以实现单线程并发IO操作。安装pip install aiohttp使用方法1. 普通发请求import aiohttp import asyncio async def fetch(): async with aiohttp.C...原创 2020-05-08 13:57:58 · 3650 阅读 · 0 评论 -
python,检测代理ip是否有效
python,检测代理ip是否有效测试环境python3.6 、window10系统测试方法第一种使用requests模块。使用requests.get() 发请求,根据其返回的网页内容进行判断,代理ip是否有效。import requestsproxies = {'http': '120.236.128.201:8060', 'https': '1.........原创 2020-04-22 14:53:44 · 45654 阅读 · 5 评论 -
Gerapy分布式爬虫管理框架
文章目录Gerapy分布式爬虫管理框架一、介绍二、gerapy的初始化配置1. 安装gerapy2. 检测gerapy是否可用3. 初始化gerapy4. 进入scrapyd目录,执行gerapy数据化的初始化,建立相关的数据库表。5. 在gerapy目录下,启动gerapy服务,默认端口80006. 打开浏览器,输入:http://localhost:8000,可以看到 Gerapy 的主界面三...原创 2019-10-22 15:13:51 · 769 阅读 · 0 评论 -
网页源代码xpath解析
网页源代码解析xpath 解析//元素标签名例如: //div,查找网页内的所有div//元素标签名[@属性名=‘具体内容’]例如: //div[@class=‘div1’],查找class为div1的div//元素标签名[第几个]例如: //div[@class=‘box’][2],查找符合条件的第2个div//元素1/元素2/元素3…例如: //...原创 2019-10-18 11:06:25 · 2817 阅读 · 1 评论