scrapy框架的一些问题

本文分享了Python爬虫开发的实用技巧,包括编码处理、使用代理IP、合理设置请求间隔时间、XPath路径选择等,并强调了从requests和beautifulsoup入手的重要性。

1.一定要注意编码,因为不少Unicode字符并不能在json文件中显示出来,所以在写程序的时候要考虑这一情况。


2.爬取网站内容的时候要注意伪装浏览器,伪造IP,写一个IP地址池,这些网上有不少资料可以参考,至于代理IP网上也有不少免费的,拿来就可以用


3.还有下载的延时时间也要设置,当然如果你做到上面一条,往往就不用担心自己的IP被ban,毕竟用的是代理IP。但是,作为一个良心的爬虫者,如果任务不是很紧急,还是设置一下吧,别给人家网站带来那么大的负担。延时3秒左右?反正尽量别不设置。


4.因为我用的是xpath来读取需要的内容,所以你得要考虑可能都是类似内容的网页,xpath的路径可能会略有差别,这点也要考虑。


5.初学Python爬虫,建议还是从requests和beautifulsoup开始,不要从框架开始。


6.爬虫就两个主要步骤:一个是提取网站URL,另一个就是从URL提取需要的内容,当然可能会碰到动态页面,这时会有点麻烦。


7.基础要打好,数据结构和算法要好好看,当然程序也要坚持每天改,每天写。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值