
爬虫
文章平均质量分 64
爬虫基础
光头小白
这个作者很懒,什么都没留下…
展开
-
8.User-Agnet代理池
构建代理池的方法也非常简单,在Pycharm 工作目录中定义一个 ua_info.py 文件,并将以下 UA 信息以列表的形式粘贴到该文件中MSIE 7.0;U;MSIE 7.0;U;MSIE 9.0;MSIE 7.0;MSIE 6.0;原创 2025-01-15 11:15:20 · 313 阅读 · 0 评论 -
7.User-Agent(用户代理)
User-Agent 即用户代理,简称“UA”,它是一个特殊字符串头。网站服务器通过识别 “UA”来确定用户所使用的操作系统版本、CPU 类型、浏览器版本等信息。而网站服务器则通过判断 UA 来给客户端发送不同的页面网络爬虫使用程序代码来访问网站,而非人类亲自点击访问,因此爬虫程序也被称为“网络机器人”。绝大多数网站都具备一定的反爬能力,禁止网爬虫大量地访问网站,以免给网站服务器带来压力网站通过识别请求头中 User-Agent 信息来判断是否是爬虫访问网站。原创 2025-01-15 11:12:41 · 1896 阅读 · 0 评论 -
6.第一个Python爬虫程序
使用 Python 内置的 urllib 库获取网页的 html 信息。注意,urllib 库属于 Python 的标准库模块,无须单独安装,它是 Python 爬虫的常用模块。原创 2024-01-23 16:32:08 · 770 阅读 · 0 评论 -
5.Python爬虫前的准备工作
Python 爬虫作为 Python 编程的进阶知识,要求具备较好的 Python 编程基础了解 Python 语言的多进程与多线程,并熟悉正则表达式语法,也有助于编写爬虫程序。原创 2024-01-22 19:34:05 · 1037 阅读 · 1 评论 -
4.审查网页元素
在动手编写爬虫程序前,必须要对网页元素进行审查浏览器都自带检查元素的功能,不同的浏览器对该功能的叫法不同, 谷歌(Chrome)浏览器称为“检查”,而 Firefox 则称“查看元素”原创 2024-01-19 16:47:34 · 1058 阅读 · 0 评论 -
3.静态网页和动态网页
静态网页是标准的 HTML 文件,通过 GET 请求方法可以直接获取,文件的扩展名是.html.htm等,网面中可以包含文本、图像、声音、FLASH 动画、客户端脚本和其他插件程序等。静态网页是网站建设的基础,早期的网站一般都是由静态网页制作的。静态并非静止不动,它也包含一些动画效果,这一点不要误解当网站信息量较大的时,网页的生成速度会降低,由于静态网页的内容相对固定,且不需要连接后台数据库,因此响应速度非常快。但静态网页更新比较麻烦,每次更新都需要重新加载整个网页。原创 2024-01-18 11:11:28 · 426 阅读 · 0 评论 -
2.网页构成
爬虫程序之所以可以抓取数据,是因为爬虫能够对网页进行分析,并在网页中提取出想要的数据网页一般由三部分组成,分别是 HTML(超文本标记语言)、CSS(层叠样式表)和 JavaScript(简称“JS”动态脚本语言)原创 2024-01-18 10:32:54 · 428 阅读 · 0 评论 -
1.网络爬虫
网络爬虫又称网络蜘蛛、网络机器人,它是一种按照一定的规则自动浏览、检索网页信息的程序或者脚本网络爬虫能够自动请求网页,并将所需要的数据抓取下来。通过对抓取的数据进行处理,从而提取出有价值的信息。原创 2024-01-18 10:05:40 · 1836 阅读 · 0 评论