这不是我的第一个爬虫,但大多数都是像这样简单粗暴的,因为一开始对于定义函数,然后再相应
相应的操作,是比较困难的,这能直接写for循环语句。
首先,我们要明确我们的目标:从京东上爬取产品的评论。一般评论都是进行情感分析,但我还没进行到那一步,只能先进行相关数据爬取下来。
其次,找到数据源的京东官网首页,然后点击搜索框填入苹果笔记本,假设我们就只爬取第一个搜索结果。
由于可以看到我们的评论是动态的,且可能不断更新,我们便在谷歌网页右键,点击检查,或者审查元素(电脑不一样,说法不一样),就是以下这种界面
点击右上角的network,发现下面是空的,我们刷新页面,network下面就有东西了,但是我们需要评论,直接下拉到评论,网址不会改变,我们可以点击下一页,网址就会变成https://item.jd.com/5225346.html#comment,多了