基于Chrome_driver 的百度关键字检索工具

一、功能介绍

一个基于Chrome_driver的python爬虫脚本,爬取百度检索的关键词的link。

例如爬取inurl:login.php搜索之后的链接(标红所示)。

在这里插入图片描述

二、使用说明

用法:

python crawler_baidu_search_result2.py -p 2 -k inurl:login.php

-h, --help     dispaly this help and exit
-p, --pages    set the crawl pages, default set is 5
-k, --keyword  set the crawl keyword, default set is Hasaki-h1
-v, --version  dispaly the version and exit

注意使用之前设置chrome_driver的路径信息。设置代码中的
driver_path = “{Your computer path of chromedriver.exe}\chromedriver.exe”

chrome_driver下载地址(请根据chrome版本选择合适的驱动)
https://npm.taobao.org/mirrors/chromedriver/

在这里插入图片描述

爬完设置的页数后会验证每个链接是否可达。
在这里插入图片描述

缺点是速度比较慢,主要是有延时函数来绕过百度安全机制以及某些链接的请求超时。
百度安全验证机制很烦的。
在这里插入图片描述

下载地址

repo:https://github.com/SevenC-base/Gadgets/tree/master/CrawlerForBaiduSearch

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值