需要完整代码的可以直接拉到最后
1.前期准备
本次所用到的模块如下
import json #本次需要爬取json文件,故用此模块
import socket
import urllib.error
import requests
import urllib.request
import urllib.parse
from bs4 import BeautifulSoup
import datetime
import time
from icecream import ic #测试模块,类似print输出
##########因为这两天进行了n场试验,所以到最后我都不知道自己加了多少模块,大家在具体使用中发现用不到的模块删除就是
模块安装本文就不做赘述,有兴趣的小伙伴可以查看其他博主的文章。
2.分析网页
按照我以往的经验,网页的小秘密都藏在html原文件中,于是我兴高采烈的爬取了网页html文件,结果发现文章都在,但是本次目标评论区却找不出来,在仔细查看原网页后我发现了一个神奇的东西:
没错,评论区是要点开的。(以往用的太顺就下意识的忽略的这个问题)
那么我们有了一个猜想,评论区是我们点击这个链接之后又动态加载出来的,在检查页面的network中,我们点击评论区,然后等待评论区加载出来之后点击小红点,再选择HXR,于是,我们便得到了它:
打开这个文件,出来了一页天书,这个时候不要紧,我们将其复制之后,找到一个叫做 BEJSON的网站,粘贴在文本框中让它帮助我们排版,如下: