自定义爬虫构建与Linux应用逆向工程
1. 自定义爬虫构建
在构建自定义爬虫时,有一系列关键步骤和代码操作。首先,代码会将唯一的表单保存到一个以当前项目名称命名的JSON文件中,之后可以使用简单的Python程序解析该文件,列出所爬取的Web应用中的各种表单和输入字段。代码末尾还有一段小代码,将所有发现/爬取的页面保存到一个文本文件中,方便后续参考,代码如下:
f = open("results/Pages_" + str(self.project.project_name))
for pg in page_list:
f.write(pg + "\n")
f.close()
代码的执行流程如下:
1. 数据库表创建 :将模型类转换为数据库表,可通过执行 syncdb() 命令完成。
2. 启动Django服务器 :创建好数据库表后,启动Django服务器。
3. 启动Apache服务器 :为了测试爬虫,需要启动Apache服务器并在本地提供DVWA应用服务,可通过运行 service Apache2 start 命令启动。
4. 配置爬虫参数 :浏览爬虫界面,提供扫描参数,然后点击“Start Crawling”按钮。
5. 查看结果 :浏览应用的结果文件夹(路径为 <Xtreme_
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



