第一次写爬虫,真的踩了不少的坑
坑1:
看了爬虫视频后,首先尝试用request库和beautifulsoup来爬取Google Play
然后总是报错连接超时 ,应该是谷歌的反爬虫机制导致的
然后我的解决方法是用代理ip,于是成功解决了连接超时的问题
(我用了是翻墙的软件,补充:千万别用全局代理模式,详见坑3)
第一个坑就这么解决了,花了我几天的时间
坑2:
解决了连接的问题之后,我兴高采烈的把要爬取的内容写出来
结果一运行,发现什么都显示不出来
我第一反应是我写的代码有问题,然后检查了好久发现完全正确
于是我尝试爬取别的数据,结果正确爬取出来了 这就让我很懵
后来上网查了很多,发现很多人都说可能是因为js渲染的缘故
网页源代码和开发者工具中所看到的代码其实是不一样的 所以爬取不到内容
于是我尝试了一下禁用js 果然用户评论就加载不出来了
这时我才明白问题出在哪里
上网查了之后发现有两个方法解决:
1.查看开发者工具中network里面xhr内容,找到真正的源代码
2.利用selenium和phantomjs解析网页
我一开始是打算采用第一种方法的,但是看网上各种教程之后
发现谷歌的network里面的信息好像和大家的不大一样
很难找到用户评论源代码的url地址 尝试许久之后放弃
然后开始尝试第二种方法
首先打开命令行 pip install selenium==2.48.0
注意一定要是2