小爬虫

本文介绍如何安装Scrapy爬虫工具,并通过一个实际案例——爬取新片场网站的视频信息,详细展示了从环境搭建到具体实现的全过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.爬虫工具scrapy安装(安装WHL包)

(2)scrapy依赖twiste,同样使用whl格式的包进行安装

进入http://www.lfd.uci.edu/~gohlke/pythonlibs/,在网页中搜索twisted找到其对应的whl包并下载

(3)可以直接使用pip install scrapy  命令行安装

直接使用pip install scrapy安装不成功可以安装whl格式的包

首先下载scrapy的whl包,同上面的安装方法

下载地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/

根据你的Python的版本选择合适的包,依次安装

下载完成后使用cmd打开windows的命令行窗口,进入whl包所在的文件夹执行如下安装命令



确保在python安装目录例如我在D:\python\install\Scripts下安装的,验证scrapy安装成功

2.使用谷歌浏览器

下载完成显示效果


步骤:需安装扩展程序chromehttps://chrome.google.com/webstore/search/chrome%20%20developer%20%20tools?hl=zh-CN

a.先下载翻墙插件SetupVPN,点击download按钮下载拆件

b.浏览器地址栏输入:chrome://extensions/,将下载好的crx文件拖动至当前页,按照操作完成安装翻墙插件                          或点击选择更多工具中的扩展程序,将下载好的crx文件拖动至当前页,按照操作完成安装翻墙插件

c.然后点击获取更多程序 或点击打开应用商店

d.在应用商店搜索:XPath-Helper、React Developer Tools

e.点击:添加至CHROME

f.弹出确认框,确认之后就会自动下载


g.当看到浏览器右上角出现则说明安装成功

h.重启浏览器

3.在桌面创建一个爬虫

1.首先创建爬虫


(1)爬虫创建成功后在桌面显示,查看目录


(2)创建vedio来爬取 www.xinpianchang.com,就会在文件夹多出一个vedio.py在spider中


2.爬取新片场的视频信息

(1)可以在python编辑器IDLE中编辑vedio.py或Notepad++

       IDLE:File--->OPEN--->打开vedio.py编辑(F5运行成功证明没有BUG)

如果有关于Tab和空格格式上的错误:

            Python增加缩进快捷键:Ctrl+Alt+] 或tab键或shift+tab键                                                                                                      Python减少缩进快捷键:Ctrl+Alt+[

       Notepad++:如果有关于Tab和空格格式上的错误:我使用的文本编辑器Notepad++,有个设置,可以显示所有的字符的TAB和空格情况。 视图 -> 显示符号 -> 显示空格与制表符


浏览器搜索新片场---》点击发现----》点击作品

# -*- coding: utf-8 -*-
import scrapy
class VedioSpider(scrapy.Spider):
    name = 'vedio'
    allowed_domains = ['www.xinpianchang.com']
    start_urls = ['http://www.xinpianchang.com/channel/index/sort-like']#主页地址

    def parse(self, response):
        post_url="http://www.xinpianchang.com/a%s?from=ArticleList"#点击任一作品对应地址栏,%s匹配全部
        posts=response.xpath('//ul[@class="video-list"]/li')#将匹配标签类下的全部
        for    post    in    posts:
                           post_id = post.xpath('./@data-articleid').extract_first()#./表示在前路径,即
                                  # 在//ul[@class="video-list"]/li/@data-articleid下。如上截图,获取所有的%s
                         thumbnail = post.xpath('./a/img/@_src').extract_first()
                         #print('post_id:%s,thumbnail:%s'%(post_id,thumbnail))
                         request=scrapy.Request(post_url%post_id,callback=self.parse_post)
                         yield  request
def parse_post(self, response): title=response.xpath('//div[@class="title-wrap"]/h3/text()').extract_first() print(title)

(2)运行爬虫


.....................................................................................................


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值