Python爬虫实战--优快云博客爬虫(内有玄机)

前言:
哈哈,继续高兴一下,通过自己的小手段,让博客访问量过万啦~怎么做到的呢?
大家想一想我们近来所学的爬虫知识,养兵千日用兵一时,在前面的学习,我们已经可以很轻松的爬去一些中小型和大型网站了,现在我们一起来思考一下,我们该怎么去爬虫优快云网站,并顺便提高一下我们博客的浏览量呢?
问题分析:
我们主要的目标是爬去优快云博客,也顺带提升一下我们的浏览量,那我们应该爬去优快云全站呢?还是只需要爬去我们的个人博客呢?
答案很显然,在这里我们只需要爬去我们的个人博客,就可以达到相应的目的啦!
目标站点分析
目标URL:https://blog.youkuaiyun.com/m0_37903789(以我的个人主页为例)
明确内容:提升浏览量
在这里插入图片描述
显然,我们的访问量是与我们博客文章的浏览量相关联的,我们只需要提升我们的博客浏览量,访问量也就随之上涨了。
**Question:**怎么提升博客文章的浏览量呢?
知道答案的小童鞋,欢迎在下面写出你们的方法~
好了,我们的目标清楚了,就该大刀阔斧的做事情啦!

 def parse_index(self, html):
        article_urls = []
        soup = BeautifulSoup(html, 'lxml')
        divs = soup.select("div.article-item-box")
        for div in divs[1:]:
            temp_read_num = div.select("div > p:nth-of-type(2) > span")[0].get_text()
            read_num = int(temp_read_num.split(":")[-1])
            if read_num <= READ_NUM:
                article_url = div.select("h4 > a")[0].attrs['href']
                print(article_url, "加入请求队列", read_num)
                article_urls.append(article_url)
        print("本次总任务数:", TASK_NUM)
        while self.task_num <= TASK_NUM:
            # 任务编号
            print("Task ", self.task_num)
            # 更新代理
            self.proxy = self.get_proxy()
            # 更新User-Agent
            self.headers["User-Agent"] = self.ua.random
            # 设置异步IO接口,并分配相应的任务
            loop = asyncio.get_event_loop()
            tasks = [self.request_page(article_url) for article_url in article_urls]
            loop.run_until_complete(asyncio.wait(tasks))
            self.task_num += 1
            print("Task {0} is completed! There are {1} tasks left".format(self.task_num, TASK_NUM-self.task_num))

在这里,为了提高效率,采用异步IO的方式。
代码优化:为提升效率,大家都还可有用什么办法呢?欢迎大家一起讨论
源码地址:https://github.com/NO1117/csdn_browser
Python交流群:942913325 欢迎大家一起交流学习

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值