爬取Google Play中app的用户评论(1)

本文记录了作者初次尝试爬取Google Play应用评论时遇到的三大难题:连接超时、JS渲染导致内容无法爬取、以及selenium与phantomjs配置中的502错误。通过使用代理IP、理解网页动态加载和调整selenium版本及环境,最终成功解决爬虫问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第一次写爬虫,真的踩了不少的坑

坑1:

看了爬虫视频后,首先尝试用request库和beautifulsoup来爬取Google Play

然后总是报错连接超时 ,应该是谷歌的反爬虫机制导致的

然后我的解决方法是用代理ip,于是成功解决了连接超时的问题

(我用了是翻墙的软件,补充:千万别用全局代理模式,详见坑3

第一个坑就这么解决了,花了我几天的时间

 

坑2:

解决了连接的问题之后,我兴高采烈的把要爬取的内容写出来

结果一运行,发现什么都显示不出来

我第一反应是我写的代码有问题,然后检查了好久发现完全正确

于是我尝试爬取别的数据,结果正确爬取出来了 这就让我很懵

后来上网查了很多,发现很多人都说可能是因为js渲染的缘故 

网页源代码和开发者工具中所看到的代码其实是不一样的  所以爬取不到内容

于是我尝试了一下禁用js  果然用户评论就加载不出来了 

这时我才明白问题出在哪里

上网查了之后发现有两个方法解决:

1.查看开发者工具中network里面xhr内容,找到真正的源代码

2.利用selenium和phantomjs解析网页

我一开始是打算采用第一种方法的,但是看网上各种教程之后

发现谷歌的network里面的信息好像和大家的不大一样

很难找到用户评论源代码的url地址  尝试许久之后放弃

然后开始尝试第二种方法

首先打开命令行 pip install selenium==2.48.0

注意一定要是2

评论 16
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值