网络爬虫如何获取重定向链

本文介绍如何使用Selenium与ChromeDriver通过performance log分析网页重定向链,包括获取重定向URL、原因及状态码,适用于解决依赖JS重定向的问题。

我们知道网页重定向有3种方式

1.http重定向
2.mata tag重定向
3.js重定向

如果用http client,可以搞定1和2,但是对于3是无能为力的。

要做到js重定向必须依赖浏览器。但是selenium chromedriver并没有直接提供获取重定向链的功能,可以通过performance log来获取。不幸的是chrome最新版已经对应w3c,但是selenium chromedriver的安定版还没有对应。这个功能要4.0版才有,目前只有4.0alpha04的版本,因为很着急,暂时用这个版本,目前还没有发现问题。

取到了log后,该如何分析,网上没有找到资料,经过艰苦的分析,得到下面代码片段,与大家分享

这段代码可以分析重定向链的url,重定向原因,状态码

            var redirectChain = new List<RedirectPage>();

            var logs = driver.Manage().Logs.GetLog("performance"); //all your logs with redirects will be here


            var redirectPage = new RedirectPage();

            RedirectPage redirectPage=null;
            string frameId = null;
            string requestId = null;
            foreach (LogEntry log in logs)
            {
                JObject msg = JObject.Parse(log.Message);
                switch ((string)msg["message"]["method"])
                {
                    case "Networ
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值