Python爬虫十天入门计划(纯手写)

文章介绍了爬虫学习的关键点,强调理解网络协议和Scrapy框架的重要性,而非单纯记忆函数。讨论了请求与响应的交互,数据解析和存储,以及如何处理登录、验证码和加密数据的挑战。文中还提到将通过实例项目深化对爬虫的理解。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

更新一点爬虫的基本知识(scrapy框架,计算机协议以及一个入门案例)
p1.网络协议
p3.scrapy框架
p5.程序案例及解析

个人观点:学习爬虫,不要像学习pandas,matplotlib这些库一样,事无巨细的记忆每一个函数。爬虫需要我们像浏览器一样思考,也就是需要回答以下的问题:

基本问题:

1.对于浏览器来说,我们的request是什么(url还是?)

2.浏览器对于我们的request怎样从服务器中获得response(xml,二进制数,json)

3.怎么样把response转换成我们可以读懂的文字(lxml,beautiful Soup),又以什么样的方式呈现(数据库,txt,excel等)

4.怎么样按照我们的心意爬取合适的数据(设计合适的下载中间体)

5.为什么爬虫程序要这样设计?(基于网络协议)

更高一级的问题:

1.怎么样给我们的爬虫做装饰,防止被网站察觉我们不是“正常人”?(虚拟身份的合理性)

2.如果必须要登录才可以爬取,怎么样给自己设置一个虚拟身份?(测试法)

3.如果需要目标网站需要图片/计算/短信验证码才能看到数据,我们应该怎么办?(简单算法)

4.网站的数据被以某种可解的方式进行加密,我们怎么样进行破解?(数据加密技术与反破解)

5.如果数据仅VIP可见,我们怎么样绕过它获得数据?(逆向工程)

等等......不一而足,但是仍然有途径可以解决。

 

 

这里回答了我们的问题之一,为什么在爬取https/http协议下的网页时,需要进行请求头设计,在该协议下,响应端的报文决定了必须这样做 ,,

 

 # 这是第一天,接下来的几天会逐步由浅入深,结合实例去做一些有趣的爬虫项目,让大家真正了解爬虫(没准会拿学校的官网开刀)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

秋柴

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值