Python 爬虫是什么?
我们在网络上收集资料的过程其实就称之为爬虫(web scraping)。复制粘贴歌词、摘抄文本或数据都可以算作爬虫的一部分,但网络编程背景下的爬虫,更强调自动化,通过 Python 编程实现自动爬取资源,从而减少人力资源与精力消耗,提高效率。
注:在动手爬虫之前,程序员们还是需要考虑一些法律相关的问题。一般而言,开源或教育相关用途的爬虫并不会触及法律问题,但若用作其他商业用途或涉及一些敏感事物,爬虫也可能涉及违反服务条款甚至其他法律纠纷。同样地,有些网站也会避免爬虫而通过其他手段提高安全门槛。
在法律允许的范围内,学习使用 Python 实现自动化爬虫能让大家在资讯纷杂的网络世界中,快速地收集自己所需的资料。这篇文章将通过虚构的求职网站 Fake Python 以及使用 Lightly 展示完整的项目代码,引导大家在无需安装第三方软件的情况下,动手在浏览器中编写代码,