知乎问题下用户评论的爬取

最新推荐文章于 2025-02-14 20:37:18 发布

北岸花不开

最新推荐文章于 2025-02-14 20:37:18 发布

阅读量4.1k

点赞数 2

CC 4.0 BY-SA版权

文章标签： python pycharm 爬虫知乎网 js

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/sbitla/article/details/119883319

需要完整代码的可以直接拉到最后

1.前期准备

本次所用到的模块如下

import json  #本次需要爬取json文件，故用此模块
import socket    
import urllib.error
import requests
import urllib.request
import urllib.parse
from bs4 import BeautifulSoup
import datetime
import time
from icecream import ic  #测试模块，类似print输出
##########因为这两天进行了n场试验，所以到最后我都不知道自己加了多少模块，大家在具体使用中发现用不到的模块删除就是

模块安装本文就不做赘述，有兴趣的小伙伴可以查看其他博主的文章。

2.分析网页

按照我以往的经验，网页的小秘密都藏在html原文件中，于是我兴高采烈的爬取了网页html文件，结果发现文章都在，但是本次目标评论区却找不出来，在仔细查看原网页后我发现了一个神奇的东西：

没错，评论区是要点开的。（以往用的太顺就下意识的忽略的这个问题）

那么我们有了一个猜想，评论区是我们点击这个链接之后又动态加载出来的，在检查页面的network中，我们点击评论区，然后等待评论区加载出来之后点击小红点，再选择HXR，于是，我们便得到了它：

打开这个文件，出来了一页天书，这个时候不要紧，我们将其复制之后，找到一个叫做 BEJSON的网站，粘贴在文本框中让它帮助我们排版，如下：

最低0.47元/天解锁文章

200万优质内容无限畅学

北岸花不开

博客等级

码龄6年

2
原创

2
点赞

23
收藏

1
粉丝

关注

私信

热门文章

上一篇：: python对excel表进行读取写入操作

最新评论

知乎问题下用户评论的爬取
好好爱程序: 调试的时候显示为ini文件，是用ini文件读取json文件吗？还有楼主是怎么知道这是json文件的呢？
知乎问题下用户评论的爬取
m0_69654336: 啊啊啊我也是出现这种情况改了headers里面的东西也没用怎么解决啊
知乎问题下用户评论的爬取
uva:: 你好为什么我按照你的改了之后还是出现跟你一样的问题呀呜呜
知乎问题下用户评论的爬取
tologone: 楼主，爬很多评论的时候，用这个代码只能显示第一页的评论，后面评论一直无法爬出来，但程序一直在跑，而且一直重复输出第一页的评论怎么办呜呜呜呜
知乎问题下用户评论的爬取
tologone: 解决啦！！！！大家把headers里的部分改成以下内容即可： 'referer': 'https://zhuanlan.zhihu.com/p/166649856', #注意这个部分，自己爬的什么问题就写什么网址。 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.106 Safari/537.36'

大家在看

最新文章

python对excel表进行读取写入操作

目录

展开全部

收起

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。