小爬虫

最新推荐文章于 2023-08-19 15:33:34 发布

吃素小仙姑

最新推荐文章于 2023-08-19 15:33:34 发布

阅读量392

点赞数

CC 4.0 BY-SA版权

分类专栏：后端

本文链接：https://blog.youkuaiyun.com/wwt1996/article/details/80223424

后端专栏收录该内容

2 篇文章

订阅专栏

本文介绍如何安装Scrapy爬虫工具，并通过一个实际案例——爬取新片场网站的视频信息，详细展示了从环境搭建到具体实现的全过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.爬虫工具scrapy安装(安装WHL包)

（1）安装whl格式包需要安装wheel库,同样使用whl格式的包进行安装
进入http://www.lfd.uci.edu/~gohlke/pythonlibs/，在网页中搜索wheel找到其对应的whl包并下载

（2）scrapy依赖twiste，同样使用whl格式的包进行安装

进入http://www.lfd.uci.edu/~gohlke/pythonlibs/，在网页中搜索twisted找到其对应的whl包并下载

（3）可以直接使用pip install scrapy 命令行安装

直接使用pip install scrapy安装不成功可以安装whl格式的包

首先下载scrapy的whl包，同上面的安装方法

下载地址：http://www.lfd.uci.edu/~gohlke/pythonlibs/

根据你的Python的版本选择合适的包，依次安装

下载完成后使用cmd打开windows的命令行窗口，进入whl包所在的文件夹执行如下安装命令

确保在python安装目录例如我在D:\python\install\Scripts下安装的，验证scrapy安装成功

2.使用谷歌浏览器

下载完成显示效果

步骤：需安装扩展程序chromehttps://chrome.google.com/webstore/search/chrome%20%20developer%20%20tools?hl=zh-CN

a.先下载翻墙插件SetupVPN，点击download按钮下载拆件

b.浏览器地址栏输入：chrome://extensions/，将下载好的crx文件拖动至当前页，按照操作完成安装翻墙插件或点击选择更多工具中的扩展程序,将下载好的crx文件拖动至当前页，按照操作完成安装翻墙插件

c.然后点击获取更多程序或点击打开应用商店

d.在应用商店搜索：XPath-Helper、React Developer Tools

e.点击：添加至CHROME

f.弹出确认框，确认之后就会自动下载

g.当看到浏览器右上角出现则说明安装成功

h.重启浏览器

3.在桌面创建一个爬虫

1.首先创建爬虫

(1)爬虫创建成功后在桌面显示，查看目录

(2)创建vedio来爬取 www.xinpianchang.com，就会在文件夹多出一个vedio.py在spider中

2.爬取新片场的视频信息

（1）可以在python编辑器IDLE中编辑vedio.py或Notepad++

IDLE：File--->OPEN--->打开vedio.py编辑(F5运行成功证明没有BUG)

如果有关于Tab和空格格式上的错误：

Python增加缩进快捷键：Ctrl+Alt+] 或tab键或shift+tab键 Python减少缩进快捷键：Ctrl+Alt+[

Notepad++：如果有关于Tab和空格格式上的错误：我使用的文本编辑器Notepad++，有个设置，可以显示所有的字符的TAB和空格情况。视图 -> 显示符号 -> 显示空格与制表符

浏览器搜索新片场---》点击发现----》点击作品

# -*- coding: utf-8 -*-
import scrapy
class VedioSpider(scrapy.Spider):
    name = 'vedio'
    allowed_domains = ['www.xinpianchang.com']
    start_urls = ['http://www.xinpianchang.com/channel/index/sort-like']#主页地址

    def parse(self, response):
        post_url="http://www.xinpianchang.com/a%s?from=ArticleList"#点击任一作品对应地址栏,%s匹配全部
        posts=response.xpath('//ul[@class="video-list"]/li')#将匹配标签类下的全部
        for    post    in    posts:
                           post_id = post.xpath('./@data-articleid').extract_first()#./表示在前路径，即

                                  # 在//ul[@class="video-list"]/li/@data-articleid下。如上截图，获取所有的%s
                         thumbnail = post.xpath('./a/img/@_src').extract_first()
                         #print('post_id:%s,thumbnail:%s'%(post_id,thumbnail))
                         request=scrapy.Request(post_url%post_id,callback=self.parse_post)
                         yield  request

def parse_post(self, response): title=response.xpath('//div[@class="title-wrap"]/h3/text()').extract_first() print(title)

（2）运行爬虫