#
#
#1.什么是爬虫
#
#
#网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者)
#是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。
#
#另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。
#
#其实通俗的讲就是通过程序去获取web页面上自己想要的数据,也就是自动抓取数据。
#
#
#
#2.爬虫可以做什么?
#
#
#你可以爬取想要的图片,爬取自己感兴趣的视频,或者其他任何你想要的东西,
#前提是你想要的资源必须可以通过浏览器访问的到。
#
#
#3.爬虫的本质是什么?
#
#
#上面关于爬虫可以做什么,定义了一个前提,是浏览器可以访问到的任何资源,
#特别是对于知晓web请求生命周期的学者来说,爬虫的本质就更简单了。
#爬虫的本质就是模拟浏览器打开网页,获取网页中我们想要的那部分数据。
#
#浏览器打开网页的过程:
#
#1.在浏览器的输入地址栏,输入想要访问的网址。
#2.经过DNS服务器找到服务器主页,向服务器发送一个请求。
#3.服务器经过解析处理后返回给用户结果(包括html,js,css文件等等内容)
#4.浏览器接收到结果,进行解释通过浏览器屏幕呈现给用户结果。
#
#上面我们说了爬虫的本质就是模拟浏览器自动向服务器发送请求,获取,
#处理并解析结果的自动化程序。
#爬虫的关键点:模拟请求,解析处理,自动化。
#
#
#
#爬虫的基本流程
#
#
#发起请求:通过http库向目标站点发起请求(request),
#请求可以包含额外的header等信息,等待服务器响应
# #
# #
# #####
# ###
# #
#获取响应内容:如果服务器能正常响应,
#会得到一个Response,Response的内容便是所要获取的页面内容,类型可能是HTML,Josn
#字符串,二进制数据(图片或者视频)等类型
# #
# #
# #####
# ###
# #
#解析内容:得到的内容可能是HTML,可以用正则表达式,页面解析库进行解析,可能
#是Json,可能是二进制数据,可以做保存或者进一步的处理
# #
# #
# #####
# ###
# #
#保存数据:保存形式多样,可以存为文本,也可以保存到数据库,
#或者保存特定格式的文件
#
python静态爬虫概念
最新推荐文章于 2024-05-19 17:03:26 发布