007-我要爬知网!关于耗了我很长时间的搜索结果列表! 【第三次】

本文分享了在知网上爬取博硕士论文的详细过程,包括如何定位目标链接、解析请求URL以及组合链接的方法,为读者提供了一套实用的爬虫技巧。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

作为一个合格的萌新,这个步骤卡了我很久!

我要爬取的页面长这个样子:

但是这个网页的连接是这样:

【没有任何特点】

知网先把搜索要求发给【不知道哪里】,再从【不知道哪里】把结果发送到这个defaul_result.aspx页面上。所以网页地址里没有任何信息。这肯定代表了什么机制……不过没那么现在不去摸索这个,要绕过他

 

第一步:直接F12,在elements里康康内容

找到了链接,链接对应的是我说要爬取的内容,但是,这个链接并不能直接通过简单爬虫直接获得,也不能直接copy出来作为网络链接

那咋办呢?百度呗……

第二步:网页加载了什么?康康Network

首先,我需要的是博硕士论文,然后需要相关度降序。所以需要一点操作。

点击"博硕士",;打开"F12";点击"Network";点击"相关度"。会得到下面的界面:

显示了一堆东西, 最关键的是:第一条

联系下第一步里获得的src,是不是一模一样

打开它,里面是:

Request URL就是我需要的东西了!

关键不只是这条链接,还有链接的组合方式。

其中 "id" 和 "queryid" 似乎是登录使用网页是专门分配的,我不知道怎么获取,但,可以从上面那个页面里复制出来用,链接别的东西就完全不需要变,每次爬的时候都复制一次这两个东西就好了。

总之,找到这个界面,把URL拿到手,就可以爬了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值