python爬虫之盗亦有道

最新推荐文章于 2023-01-31 22:41:47 发布

原创最新推荐文章于 2023-01-31 22:41:47 发布 · 209 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

python爬虫专栏收录该内容

2 篇文章

订阅专栏

本文探讨了网络爬虫在不同规模下的应用，从简单的Requests到复杂的Scrapy和定制开发。爬虫可能对服务器造成负担，触及法律风险，如侵犯产权和隐私。Robots协议作为非强制性规范，提醒爬虫开发者尊重网站规则。同时，遵守法律和道德规范在网络爬虫的使用中至关重要。

2.网络爬虫的“盗亦有道”

网络爬虫的尺寸：

小规模，数据量小；爬取速度不敏感；Requests库	中规模，数据规模较大；爬取速度敏感；Scrapy库	大规模，搜索引擎；爬取速度关键；定制开发
爬取网页玩转网页	爬取网站爬取系列网站	爬取全网

网络爬虫的“骚扰”：受限于编写水平和目的，网络爬虫将会为Web服务器带来巨大的资源开销。

网络爬虫的法律风险：服务器上的数据有产权归属；网络爬虫获取数据后牟利将带来法律风险。

网络爬虫泄露隐私：网络爬虫可能具备突破简单访问控制的能力，获得被保护数据从而泄露个人隐私。

网络爬虫的限制：

1.来源审查：判断User-Agent进行限制

检查来访HTTP协议头的User-Agent域，只响应浏览器或友好爬虫的访问。

2.发布公告：Robots协议

告知所有爬虫网站的爬取策略，要求爬虫遵守。

Robots协议：Robots Exclusion Standard 网络爬虫排除标准

作用：网站告知网络爬虫哪些页面可以抓取，哪些不行。

形式：在网站根目录下的robots.txt文件。

Robots协议的使用：

网络爬虫：自动或人工识别robots.txt，再进行内容爬取

约束性：Robots协议是建议但非约束性，网络爬虫可以不遵守，但是存在法律风险

类人行为可不参考Robots协议，但不能用于商业用途。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。