资产收集—爬取百度搜索URL脚本

本文介绍了一个利用Python爬取百度搜索结果中特定域名子域的脚本,并与AWVS API进行联动,实现自动化漏洞挖掘。通过设置搜索关键词和页数,脚本能生成包含目标URL的文件。代码中运用了XPATH解析网页,处理302重定向获取真实URL,并过滤掉非目标资产链接。最后,去除重复URL并保存到文件。这是一个适用于网络安全与自动化测试的实用技巧。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

谷歌语法在收集资产这方面挺有用的,于是手撸了爬取百度URL脚本,后续和AWVSapi脚本联动实现自动化挖洞

代码完整截图:
在这里插入图片描述在这里插入图片描述使用方法:
在这里插入图片描述
第一步输入爬取的页数,这里演示的是爬取5页
第二步输入百度搜索的字符串,这里爬取163.com的子域名
第三步输入保存文件名称,这里是www.txt

爬取的局部URL
在这里插入图片描述
代码解析:
该代码采用的是单线程,如果想爬取速度快一点可以自行改为多线程
百度搜索有爬虫检测机制,所以要定制header
在这里插入图片描述search为要搜索的字符串,因为百度搜索的字符串经过了URL编码,所以我们也编码一下,num是页码,因为百度的第一页为0,第二页为10,第三页为20,所以num要乘以10
在这里插入图片描述
完整的百度搜索URL
在这里插入图片描述使用XPATH来解析爬取到的百度页面
XPATH详解:https://www.runoob.com/xpath/xpath-syntax.html
在这里插入图片描述

因为百度搜索的每个标题对应的html格式如下
在这里插入图片描述所以提取属性为target="_blank"的a标签的herf的值

提取之后包含了一些脏URL,所以要去掉
在这里插入图片描述
在对上面提取的URL进行请求后,发生了302跳转,Location位置为真实链接,所以我们提取Location位置的URL就行了
在这里插入图片描述当我们用request时要用try来捕捉异常,有时请求太频繁会出现异常,这时睡眠1秒再请求。
这里我去掉了百度知道,百度百科等一些链接,但是就不能爬取百度资产了,如果你们想爬取百度资产,可以去掉或改为具体域名。
在这里插入图片描述
然后去掉重复URL
在这里插入图片描述
最后写到要保存的文件里面
在这里插入图片描述

安装Docker安装插件,可以按照以下步骤进行操作: 1. 首先,安装Docker。可以按照官方文档提供的步骤进行安装,或者使用适合您操作系统的包管理器进行安装。 2. 安装Docker Compose插件。可以使用以下方法安装: 2.1 下载指定版本的docker-compose文件: curl -L https://github.com/docker/compose/releases/download/1.21.2/docker-compose-`uname -s`-`uname -m` -o /usr/local/bin/docker-compose 2.2 赋予docker-compose文件执行权限: chmod +x /usr/local/bin/docker-compose 2.3 验证安装是否成功: docker-compose --version 3. 在安装插件之前,可以测试端口是否已被占用,以避免编排过程中出错。可以使用以下命令安装netstat并查看端口号是否被占用: yum -y install net-tools netstat -npl | grep 3306 现在,您已经安装Docker安装Docker Compose插件,可以继续进行其他操作,例如上传docker-compose.yml文件到服务器,并在服务器上安装MySQL容器。可以参考Docker的官方文档或其他资源来了解如何使用DockerDocker Compose进行容器的安装和配置。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [Docker安装docker-compose插件](https://blog.youkuaiyun.com/qq_50661854/article/details/124453329)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *3* [Docker安装MySQL docker安装mysql 完整详细教程](https://blog.youkuaiyun.com/qq_40739917/article/details/130891879)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值