记第一次写出自己的简单python爬虫:GCZW3

最新推荐文章于 2022-08-18 17:12:02 发布

原创

最新推荐文章于 2022-08-18 17:12:02 发布 · 648 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #爬虫 #动态页面爬虫

经过一周的学习与实践，作者成功编写了自己的第一个Python爬虫，用于抓取观察者网的文章评论。关键在于通过BeautifulSoup解析HTML，找出class为'gc-comment'的div标签中的"data-id"。在解决数据类型问题上遇到挑战，最终确定使用bs4的方法提取"data-id"属性。这次经历不仅是Python学习的里程碑，也暴露了基础知识的不足，为后续学习指明方向。

经过差不多一个星期的折腾，当然这其中也有做很多其他事情。周四写出来直接通过浏览器Network找到观察者网评论链接进行的爬虫，今天下午有折腾了差不多一下午，终于通过BeautifulSoup解析出的html中找到了data-id，也就是构造评论链接的关键。

找到了data-id之后，这样就可以把每篇文章和其评论建立联系。这样接下来的通过文章链接，直接爬评论的想法就可以水到渠成了。<

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。