知乎问题下用户评论的爬取

 需要完整代码的可以直接拉到最后

1.前期准备

        本次所用到的模块如下

import json  #本次需要爬取json文件,故用此模块
import socket    
import urllib.error
import requests
import urllib.request
import urllib.parse
from bs4 import BeautifulSoup
import datetime
import time
from icecream import ic  #测试模块,类似print输出
##########因为这两天进行了n场试验,所以到最后我都不知道自己加了多少模块,大家在具体使用中发现用不到的模块删除就是

        模块安装本文就不做赘述,有兴趣的小伙伴可以查看其他博主的文章。

2.分析网页

        按照我以往的经验,网页的小秘密都藏在html原文件中,于是我兴高采烈的爬取了网页html文件,结果发现文章都在,但是本次目标评论区却找不出来,在仔细查看原网页后我发现了一个神奇的东西:

        没错,评论区是要点开的。(以往用的太顺就下意识的忽略的这个问题)

        那么我们有了一个猜想,评论区是我们点击这个链接之后又动态加载出来的,在检查页面的network中,我们点击评论区,然后等待评论区加载出来之后点击小红点,再选择HXR,于是,我们便得到了它:

 

        打开这个文件,出来了一页天书,这个时候不要紧,我们将其复制之后,找到一个叫做 BEJSON的网站,粘贴在文本框中让它帮助我们排版,如下:

        

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值