csdn 访问刷榜

本文介绍了一个基于Scrapy框架的优快云博客爬虫项目,通过爬取指定用户的博客文章链接,实现对特定文章的访问量提升,进而增加作者的积分和排名。项目在Ubuntu18.04环境下搭建,利用Tor网络代理确保每次请求使用不同IP,避免被封禁。文章还分享了爬虫的具体实现步骤,包括创建爬虫、编辑中间件、设置代理等,并提供了运行和调度建议。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

原理: 通过访问文章的次数,提高访问次数,从而提高积分和排名
环境: ubuntu 18.04,  scrapy 框架
目的: 纯属好奇

1. 创建爬虫:csdnblog_spider.py

# coding: utf8
import scrapy

class CsdnblogSpider(scrapy.Spider):
    name = 'csdn'

    def start_requests(self):
        # 3 pages
        urls = ['https://blog.youkuaiyun.com/eiffel_0311/article/list/1?',
                'https://blog.youkuaiyun.com/eiffel_0311/article/list/2?',
                'https://blog.youkuaiyun.com/eiffel_0311/article/list/3?']
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        for url in response.css('div.article-item-box p.content a::attr(href)').extract():
           if url.find('yoyo_liyy') == -1:
               yield {'url' : url}
               yield scrapy.Request(url=url, callback=self.parse)

2. 编辑 middlewares.py, 添加:

class ProxyMiddleware(object):
    def process_request(self, request, spider):
        request.meta['proxy'] = 'http://127.0.0.1:8123'

注意 127.0.0.1:8123 是本地的http 代理, 本地http 代理连接了tor 匿名网络, 保证爬去文章连接的时候使用不同的ip。同一ip段时间高频访问文章链接是没有用的

3. 编辑settrings.py, 添加:

DOWNLOADER_MIDDLEWARES = {
    'tutorial.middlewares.ProxyMiddleware': 100
}

4. 试运运行: scrapy crawl csdn

5. 可添加定时任务(利用crontab, 注意不要太频繁)
weixin: eiffel0311

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值