初识python爬虫

本文介绍了使用Python2进行基础爬虫的步骤,通过编写代码模拟浏览器请求百度首页,获取并展示网页源代码。强调了请求头在防止被识别为爬虫并可能被屏蔽的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1,爬虫的定义:
模拟客户端发送请求,并获取响应,理论上来说,客户端能做的事情,一般爬虫都能做。

2,爬虫的分类:
分为通用爬虫和聚焦爬虫
通用爬虫:搜索引擎的爬虫,一般爬取多个网站,例如百度,新浪新闻等
聚焦爬虫:针对某个特定的网站,爬取需要的数据

3,爬虫的工作流程:

4,第一个爬虫(爬取百度首页源代码)


解释:首先必须对python基础有一定的了解,并安装pycharm等编辑器,并且我们这里运用的python2。如图,就是在pycharm中编辑的代码。如下是对代码的解释:


其中,请求头部分可以模拟浏览器发送请求,如果不写,也可以爬取。但只针对百度这种搜索引擎,如果需要爬取其他网站,不写的话,会被一眼看出是个爬虫,这样网站就会对你的程序作出反应,或者屏蔽,从而达不到爬取的效果。我们运行一下代码,就会得到百度首页的源代码。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值