SubCrawl:一款强大的开源目录发现与内容分析框架
SubCrawl 是由 HP Inc 的威胁研究团队开发的开源框架,主要使用 Python3 编程语言实现。该项目旨在帮助用户发现开放的目录,通过签名识别独特内容,并使用可选的输出模块对数据进行组织。
项目基础介绍
SubCrawl 是一个模块化的框架,包含四个主要组件:输入模块、处理模块、输出模块和核心爬虫引擎。它以 URL 作为主要输入值,通过解析 URL 并将生成的 URL 加入队列系统,然后进行爬取。这种解析过程可以确保更完整地扫描 Web 服务器,从而发现额外的内容。
核心功能
- 开放目录发现:SubCrawl 不使用暴力方法来发现 URL,所有扫描的内容都来自输入的 URL,通过解析 URL 和爬取过程中的发现来工作。
- 内容分析:当发现开放目录时,爬虫引擎会提取链接进行分析。如果是目录,则加入爬取队列;如果是文件,则由处理模块进行进一步分析。
- 结果存储:为每个扫描的 URL 生成并存储结果,如内容的 SHA256 和模糊哈希,以及是否发现开放目录,或与 YARA 规则匹配的结果。
- 模块化设计:用户可以轻松配置所需的输入、处理和输出模块,也可以轻松开发新的模块。
最近更新的功能
SubCrawl 最近更新的功能主要包含以下方面:
- 处理模块的增强:新增了几个处理模块,如 ClamAVProcessing、JARMProcessing、PayloadProcessing、TLSHProcessing 和 YARAProcessing,以提供更全面的内容分析能力。
- 存储模块的扩展:除了原有的控制台输出和 SQLite 数据库存储外,还增加了 MISP 存储模块,允许用户将扫描结果直接集成到 MISP 平台中。
- 服务模式的优化:在服务模式下,SubCrawl 现在可以通过 Docker 容器运行,提供了一个简单的 Web UI 用于查看和管理扫描的域名和 URL。
- 输入模块的更新:在服务模式中,新增了 URLhaus 输入模块,用于自动从 URLhaus 获取新的恶意 URL 并加入扫描队列。
SubCrawl 的模块化设计和丰富的功能使其成为开源安全社区中一个非常有价值的工具。无论是快速扫描还是长期监控,SubCrawl 都提供了灵活的解决方案。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考