用Python写网络爬虫——学习笔记(1)

本文介绍了一种通过检查robots.txt、Sitemap、使用工具builtwith和技术WHOIS来调研网站的方法。主要内容包括:估算网站规模、识别网站技术栈及确定网站所有者。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

【网站背景调研】

网站自身的robots.txt/Sitemap  Google/WHOIS

1.检查robots.txt

爬虫限制、与网站结构相关的显示

如何查看robots.txt?在网站后打/robots.txt即可


2.检查Sitemap


估算网站大小

        大小衡量?目标网站的URL的个数
1)检查Google爬虫的结果
○1Google很可能已经爬取过我们感兴趣的网站,可以通过Google所示的site关键词过滤域名结果,从而获得该信息。如site:example.webscraping.com
***在域名后添加URL路径,缩小查询范围,可以对结果过滤,如:site:example.webscraping.com/view

○2Google高级搜索www.google.com/advanced_search


识别网站所用技术

       构建网站所使用的技术类型对如何爬取有所影响
**有用的工具:builtwith模块 

安装方法:pip install bulitwith

调用:

import builtwith
builtwith.parse('网址')


查看返回结果

JavaScript——很有可能嵌入在HTML中,静态,易抓取
AngularJS——动态网页
ASP.NET——会话管理、表单


寻找网站的所有者

**使用WHOIS协议查询域名的注册者。
Python有个针对WHOIS协议的封装库,pip install python-whois

import whois
print whois.whois(‘网址’)



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值