Scrapy 是一个为了爬取网站数据、提取结构性数据而编写的应用框架。它可以应用在数据挖掘、信息处理或存储历史数据等一系列的程序中。
import scrapy class DouyinSpider(scrapy.Spider): name = "douyin" start_urls = ['https://www.douyin.com/video/7444572344439541042'] def parse(self, response): # 这里需要根据实际页面结构修改选择器 title = response.css('span.video-title::text').get() like_count = response.css('span.like-count::text').get() comment_count = response.css('span.comment-count::text').get() yield { '标题': title, '点赞数': like_count, '评论数': comment_count }
在命令行中运行以下命令启动爬虫:
scrapy runspider douyin_spider.py -o douyin_data.json