
自留用
文章平均质量分 63
KaLiNiTE0819
这个作者很懒,什么都没留下…
展开
-
初学使用Python编写网络爬虫-Day3(自留用)
本系列内容均参考于教程:网络爬虫是什么 (biancheng.net) 为自留用,用于在将来的学习中温故而知新 今日内容:构建User-Agent代理池 在编写爬虫程序时,一般都会构建一个 User-Agent (用户代理)池,就是把多个浏览器的 UA 信息放进列表中,然后再从中随机选择。构建用户代理池,能够避免总是使用一个 UA 来访问网站,因为短时间内总使用一个 UA 高频率访问的网站,可能会引起网站的警觉,从而封杀掉 IP。 构建代理池的方法也非常简单,在工作目录中定义一个 .py 文件,并将原创 2021-12-28 22:56:44 · 568 阅读 · 0 评论 -
初学使用Python编写网络爬虫-Day2(自留用)
本系列内容均参考于教程:网络爬虫是什么 (biancheng.net) 为自留用,用于在将来的学习中温故而知新 今日内容:什么是用户代理和重构爬虫UA信息 1.用户代理是什么 User-Agent 即用户代理,简称“UA”,它是一个特殊字符串头。网站服务器通过识别 “UA”来确定用户所使用的操作系统版本、CPU 类型、浏览器版本等信息。而网站服务器则通过判断 UA 来给客户端发送不同的页面。 我们知道,网络爬虫使用程序代码来访问网站,而非人类亲自点击访问,因此爬虫程序也被称为“网络机器人”。绝大多数原创 2021-12-23 08:30:00 · 653 阅读 · 0 评论 -
初学使用Python编写网络爬虫-Day1(自留用)
本系列内容均参考于教程:网络爬虫是什么 (biancheng.net) 为自留用,用于在将来的学习中温故而知新 1.什么是爬虫程序 网络爬虫又称网络蜘蛛、网络机器人,它是一种按照一定的规则自动浏览、检索网页信息的程序或者脚本。网络爬虫能够自动请求网页,并将所需要的数据抓取下来。通过对抓取的数据进行处理,从而提取出有价值的信息。 2.编写爬虫的流程 爬虫程序与其他程序不同,它的的思维逻辑一般都是相似的, 所以无需我们在逻辑方面花费大量的时间。下面对 Python 编写爬虫程序的流程做简单地说明:原创 2021-12-22 20:10:54 · 735 阅读 · 0 评论