Python爬虫基础教程（67）Python Scrapy爬虫框架实战：获取音悦台榜单之代码分析：Scrapy爬虫秘籍：一键收割音悦台MV榜单，让你的歌单不再低调！-优快云博客

那个曾经让追星族疯狂的音悦台，如今成了爬虫学习的最佳练习场。只需几行代码，你就能把最新最热的MV榜单全部搬回家。

一、前期准备：装备你的爬虫工具箱

1.1 环境搭建

首先，我们需要安装Scrapy框架。打开终端（命令提示符），输入以下命令：

pip install scrapy

如果你是Windows用户，可能还需要安装额外的支持库：

pip install pypiwin32

验证安装是否成功，可以输入scrapy version，如果显示版本号，恭喜你，环境配置成功了！

1.2 创建Scrapy项目

使用Scrapy的第一步是创建项目。就像盖房子需要先打地基一样，我们在目标目录下执行：

scrapy startproject yinyuetai
cd yinyuetai
scrapy genspider mvchart vchart.yinyuetai.com

这几行代码创建了一个名为"yinyuetai"的项目，并在其中生成了一个爬虫文件，命名为"mvchart"。

看到终端输出一堆文件路径，别慌，这是Scrapy为我们创建的项目结构。我们来了解一下关键部分：

items.py：定义我们要爬取的数据模型
middlewares.py：存放各种中间件文件
pipelines.py：数据处理管道，用于存储数据
settings.py：爬虫的配置信息
spiders目录：存放爬虫文件的地方

1.3 基础配置

在开始编写爬虫前，我们需要调整一下设置，让爬虫能顺利工作。修改settings.py文件：

# 遵守robots.txt规则？暂时先关闭
ROBOTSTXT_OBEY = False

# 设置日志级别，只显示错误信息
LOG_LEVEL = 'ERROR'

# 添加请求头，伪装成浏览器
DEFAULT_REQUEST_HEADERS = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Language': 'en',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.116 Safari/537.36',
}

这些设置能帮助我们降低被网站反爬机制拦截的风险。