第一章 Scrapy入门

本文详细介绍Scrapy爬虫的基础知识,包括如何在Windows环境下使用Python3.7和Pycharm创建Scrapy项目,编写并运行第一个Spider,以及如何从优快云网站抓取文章标题。

转载请注明作者和出处:https://blog.youkuaiyun.com/lettmefly

运行平台:Windows

Python版本:Python 3.7

IDE:Pycharm

目录

1. 引言

2. 创建项目

3. 编写Spider

4. How to run our Spider

5. 下一步


1. 引言

本章仅介绍Scrapy的基础,学习目标是:掌握创建Scrapy项目的方法,把一个已经准备好的Spider玩转起来。

2. 创建项目

在开始爬取之前,必须创建一个新的Scrapy项目。在命令行模式下(cmd),进入打算存储和运行爬虫代码的目录中,运行下列命令:

cd /D E:\scrapy
scrapy startproject tutorial

在E:\scrapy目录中多了一个tutorial文件夹,其中包含下列内容:

tutorial/
    scrapy.cfg            # 项目的配置文件        
    tutorial/            # 项目的Python模块,之后你将在次加入代码
        _init_.py
        items.py          # 项目的items文件 
        middlewares.py    # 项目的middleswares文件
        pipelines.py      # 项目的pipelines文件 
        settings.py       # 项目的settings文件 
        spiders/          # 放置spider的目录  
            _init_.py

3. 编写Spider

以下为我的第一个Spider代码,保存在tutorial/spiders目录下的csdn_spider.py文件:

import scrapy

class CsdnSpider(scrapy.Spider):
    name = "csdn"

    def start_requests(self):
        url = 'https://www.youkuaiyun.com'
        yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        titles = response.xpath('//ul[@id="feedlist_id"]/li/div/div[1]/h2/a/text()').extract()
        for title in titles:
            print(title.strip())

4. How to run our Spider

在命令行模式下,进入项目的根目录,运行下列命令:

cd tutorial
scrapy crawl csdn

这个命令会启动我们刚添加的名为“csdn”的spider。命令行中得到以下输出:

从中可以看到打印出来优快云首页的文章标题。

5. 下一步

内容概要:本文是一份针对2025年中国企业品牌传播环境撰写的《全网媒体发稿白皮书》,聚焦企业媒体发稿的策略制定、渠道选择与效果评估难题。通过分析当前企业面临的资源分散、内容同质、效果难量化等核心痛点,系统性地介绍了新闻媒体、央媒、地方官媒和自媒体四大渠道的特点与适用场景,并深度融合“传声港”AI驱动的新媒体平台能力,提出“策略+工具+落地”的一体化解决方案。白皮书详细阐述了传声港在资源整合、AI智能匹配、舆情监测、合规审核及全链路效果追踪方面的技术优势,构建了涵盖曝光、互动、转化与品牌影响力的多维评估体系,并通过快消、科技、零售等行业的实战案例验证其有效性。最后,提出了按企业发展阶段和营销节点定制的媒体组合策略,强调本土化传播与政府关系协同的重要性,助力企业实现品牌声量与实际转化的双重增长。; 适合人群:企业市场部负责人、品牌方管理者、公关传播从业者及从事数字营销的相关人员,尤其适用于初创期至成熟期不同发展阶段的企业决策者。; 使用场景及目标:①帮助企业科学制定媒体发稿策略,优化预算分配;②解决渠道对接繁琐、投放不精准、效果不可衡量等问题;③指导企业在重大营销节点(如春节、双11)开展高效传播;④提升品牌权威性、区域渗透力与危机应对能力; 阅读建议:建议结合自身企业所处阶段和发展目标,参考文中提供的“传声港服务组合”与“预算分配建议”进行策略匹配,同时重视AI工具在投放、监测与优化中的实际应用,定期复盘数据以实现持续迭代。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值