网络爬虫入门指南
1. 网络爬虫简介
欢迎来到广阔的网络爬虫世界!网络爬虫被许多领域用于收集以其他格式不易获取的数据。无论你是正在撰写新报道的记者,还是正在提取新数据集的数据科学家,甚至只是一个普通程序员,比如需要在大学页面上查看最新作业并将其发送到自己邮箱,网络爬虫都是一个有用的工具。
网络爬虫在很多场景下都非常实用。例如,如果你经营一家鞋店,想要跟踪竞争对手的价格。手动每天访问竞争对手的网站,逐一比较每双鞋子的价格会非常耗时,而且如果你的店铺有数千种鞋子,或者需要频繁检查价格变化,这种方式就很难扩展。又或者你想在鞋子打折时购买,每天回来检查鞋类网站直到幸运地遇到打折,但你想要的鞋子可能几个月都不会打折。而本书中介绍的网络爬虫技术可以用自动化解决方案来取代这些重复的手动操作。
在理想情况下,网络爬虫可能并非必要,因为每个网站都会提供 API 以结构化格式共享数据。实际上,确实有一些网站提供了 API,但它们通常会限制可用数据以及访问频率。此外,网站开发者可能会更改、移除或限制后端 API。因此,我们需要学习网络爬虫技术来获取所需的在线数据。
2. 网络爬虫的合法性
尽管在过去二十年中有众多裁决,但网络爬虫以及在进行网络爬虫时哪些行为在法律上是允许的,仍在不断明确中。
如果爬取的数据用于个人和私人用途,并且在版权法的合理使用范围内,通常不会有问题。然而,如果数据将被重新发布,爬取行为过于激进导致网站崩溃,或者内容受版权保护且爬虫违反了服务条款,就需要注意一些法律先例。
以下是一些相关案例:
- Feist Publications, Inc. v. Rural Tele
超级会员免费看
订阅专栏 解锁全文
1611

被折叠的 条评论
为什么被折叠?



