抓取防盗链图片显示

本文介绍了一种日志聚合功能中图片抓取的方法,包括伪装Referer和WebRequest等方式,对比了不同方法的优缺点及实现效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

我们网站有一个“日志聚合”的功能,可以导入用户自己其他博客的文章,文字可以保存到数据库,图片没有存储而是直接引用原图片地址,而大部分图片都做了防盗链处理,为了能保证用户正常浏览,对抓取后的图片地址做了引用处理。

办法很多,参考鲜果和GoogleReader的方式,实际上就是通过伪装Referer信息来实现,这种方式的代码量以及图片下载响应速度的效果是最好的,还有用WebRequest和Iframe的方式也都可以达到我们的目的。

 

效果对比

图(1)采用“伪装Referer”的方式

 

图(2)采用"WebRequest"的方式

 

核心代码

1.伪装Referer方式

 

01MSXML2.XMLHTTPClass oxmlHttp = new MSXML2.XMLHTTPClass();
02  
03oxmlHttp.open("Get", url, false, null, null);
04oxmlHttp.setRequestHeader("Referer", url);
05oxmlHttp.send("0");
06  
07if (oxmlHttp.readyState == 4 && oxmlHttp.status == 200)
08{
09    return (Byte[])oxmlHttp.responseBody;
10}
2.WebRequest方式

 

 

1WebRequest request = WebRequest.Create(url);
2WebResponse response = request.GetResponse();
3Stream reader = response.GetResponseStream();
3.Iframe方式

 

 

1<script>var im = "<img src="图片URL" />";</script>
2  
3<iframe id="im" style="border: 0px; overflow: hidden;" scrolling="no" frameborder="0" src="javascript:parent.im;" onload="javascript:var x=document.getElementById('im').contentWindow.document.images[0];this.width=x.width+10;this.height=x.height+10;"></iframe>

 

 

 

总结

一开始使用的是WebRequest的方式,将获取到的内容写入到MemoryStream中,再输出到页面,但是速度从上面图(2)可见,而且对于BlogBus会返回505的错误。如果有空会再次研究一下这种方式为什么这么慢,瓶颈在哪儿。

使用XMLHTTPClass的方式,注意要返回的属性是responseBody,常见的抓取文本返回的属性是responseText,因为没有注意这个细节,导致始终无法输出图片,关于该类的说明,参考了博客园“一个呆子”同学的文章。网上有一些ASP和PHP的版本,差不多都是用的这种方式。当然这两种方式的代码不仅仅可以做这些,还可以做更多事情。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值