1.一定要注意编码,因为不少Unicode字符并不能在json文件中显示出来,所以在写程序的时候要考虑这一情况。
2.爬取网站内容的时候要注意伪装浏览器,伪造IP,写一个IP地址池,这些网上有不少资料可以参考,至于代理IP网上也有不少免费的,拿来就可以用
3.还有下载的延时时间也要设置,当然如果你做到上面一条,往往就不用担心自己的IP被ban,毕竟用的是代理IP。但是,作为一个良心的爬虫者,如果任务不是很紧急,还是设置一下吧,别给人家网站带来那么大的负担。延时3秒左右?反正尽量别不设置。
4.因为我用的是xpath来读取需要的内容,所以你得要考虑可能都是类似内容的网页,xpath的路径可能会略有差别,这点也要考虑。
5.初学Python爬虫,建议还是从requests和beautifulsoup开始,不要从框架开始。
6.爬虫就两个主要步骤:一个是提取网站URL,另一个就是从URL提取需要的内容,当然可能会碰到动态页面,这时会有点麻烦。
7.基础要打好,数据结构和算法要好好看,当然程序也要坚持每天改,每天写。