【代码】第13章 Scrapy框架的使用

最新推荐文章于 2025-05-13 15:16:02 发布

azach64

最新推荐文章于 2025-05-13 15:16:02 发布

阅读量277

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/C_Python_/article/details/85603189

本文详细记录了在Ubuntu14.04环境下安装Scrapy框架的过程，包括解决版本冲突和依赖问题的方法。同时分享了一个简单的网易音乐评论爬虫示例，展示了如何使用Scrapy抓取网页数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

win10 64下安装，运行捉急，略，改用ubuntu14.04
sudo apt-fast install build-essential python3-dev libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev
sudo pip3 install Scrapy
发现RuntimeError: cryptography requires setuptools 18.5 or newer, please upgrade to a newer version of setuptools
于是pip install -U setuptools pip install --upgrade setuptools然并卵
于是sudo apt-get install python-scrapy安装成功，然而看到官方文档不推荐ubuntu这种安装方式
然后pip install Scrapy
版本太久，升级一下sudo pip install scrapy --upgrade
总之，这个框架安装太JB乱了，各种乱七八糟的版本，乱七八糟的依赖，但是我注意到，总之还是要加上sudo跟不加完全不一样，最终似乎成功了。。。
这里的代码运行起来还可以scrapy1.5中文文档
然后，就写了个初步的。。

# get_comment.py
import scrapy

class getcomment(scrapy.Spider):
	name = 'getcomment'
	def start_requests(self):
		urls=[
			'http://music.163.com/api/v1/resource/comments/R_SO_4_186016?limit=20&offset=0'
		]
		for url in urls:
			yield scrapy.Request(url=url, callback=self.parse, cookies={'_ntes_nnid': 'f9a02ab7f60af3afce131d7cf294dddc,1536875553716', ' _ntes_nuid': 'f9a02ab7f6}
)
	def parse(self, response):
		file = 'comment.txt'
		with open(file, 'wb') as f:
			f.write(response.body)

感觉还是太笨重，先放着。。