scrapy框架的一些问题

最新推荐文章于 2025-03-23 13:18:33 发布

hot-horse

最新推荐文章于 2025-03-23 13:18:33 发布

阅读量529

点赞数 1

CC 4.0 BY-SA版权

分类专栏： python 文章标签： xpath python scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/w952470866/article/details/52953224

python 专栏收录该内容

9 篇文章

订阅专栏

本文分享了Python爬虫开发的实用技巧，包括编码处理、使用代理IP、合理设置请求间隔时间、XPath路径选择等，并强调了从requests和beautifulsoup入手的重要性。

1.一定要注意编码，因为不少Unicode字符并不能在json文件中显示出来，所以在写程序的时候要考虑这一情况。

2.爬取网站内容的时候要注意伪装浏览器，伪造IP，写一个IP地址池，这些网上有不少资料可以参考，至于代理IP网上也有不少免费的，拿来就可以用

3.还有下载的延时时间也要设置，当然如果你做到上面一条，往往就不用担心自己的IP被ban，毕竟用的是代理IP。但是，作为一个良心的爬虫者，如果任务不是很紧急，还是设置一下吧，别给人家网站带来那么大的负担。延时3秒左右？反正尽量别不设置。

4.因为我用的是xpath来读取需要的内容，所以你得要考虑可能都是类似内容的网页，xpath的路径可能会略有差别，这点也要考虑。

5.初学Python爬虫，建议还是从requests和beautifulsoup开始，不要从框架开始。

6.爬虫就两个主要步骤：一个是提取网站URL，另一个就是从URL提取需要的内容，当然可能会碰到动态页面，这时会有点麻烦。

7.基础要打好，数据结构和算法要好好看，当然程序也要坚持每天改，每天写。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。