前言

表情包是大家聊天的时候的必备,之前在知乎上爬取了一些表情包,但是已经用的久了该换新的了,所以我们再通过爬虫技术去微博爬一波表情包吧。
本来这个爬虫是想作为讲python异步爬虫的一个例子的,昨天代码写完测试了一下,结果是我微博账号和ip都直接被封了,然后我去搜了一下别人写的异步爬虫教程,测试用的都是些没啥反爬措施的小网站。于是今天改了下代码,就先整个普普通通的微博小爬虫算了。鉴于之前IP被封,所以这次在在访问微博的时候我加上了代理。关于选择代理也是让人很烦恼的事,网上的代理太多了,靠谱的太少。这里给有代理烦恼的同学推荐亿牛云代理,经过一番测试对比选的最靠谱的代理商。具体的爬虫代码就不一一展示了,这里重点跟大家分享下在使动态转发类型的代理示例。
// 要访问的目标页面
string targetUrl = “http://httpbin.org/ip”;
// 代理服务器(产品官网 www.16yun.cn)
string proxyHost = “http://t.16yun.cn”;
string proxyPort = “31111”;
// 代理验证信息
string proxyUser = “username”;
string proxyPass = “password”;
// 设置代理服务器
WebProxy proxy = new WebProxy(string.Format(“{0}:{1}”, proxyHost, proxyPort), true);
ServicePointManager.Expect100Continue = false;
var request = WebRequest.Create(targetUrl) as HttpWebRequest;
req

本文介绍了使用Python进行微博表情包爬取的经验,作者分享了在爬取过程中遇到的账号和IP被封问题,以及如何采用代理(如亿牛云代理)来解决反爬策略。代码示例中展示了如何设置动态转发类型的代理,同时提到了访问微博时需要注意的反爬机制。
最低0.47元/天 解锁文章
568

被折叠的 条评论
为什么被折叠?



