- (1)安装whl格式包需要安装wheel库,同样使用whl格式的包进行安装
- 进入http://www.lfd.uci.edu/~gohlke/pythonlibs/,在网页中搜索wheel找到其对应的whl包并下载
(2)scrapy依赖twiste,同样使用whl格式的包进行安装
进入http://www.lfd.uci.edu/~gohlke/pythonlibs/,在网页中搜索twisted找到其对应的whl包并下载
(3)可以直接使用pip install scrapy 命令行安装
直接使用pip install scrapy安装不成功可以安装whl格式的包
首先下载scrapy的whl包,同上面的安装方法
下载地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/
根据你的Python的版本选择合适的包,依次安装
下载完成后使用cmd打开windows的命令行窗口,进入whl包所在的文件夹执行如下安装命令
确保在python安装目录例如我在D:\python\install\Scripts下安装的,验证scrapy安装成功
2.使用谷歌浏览器
下载完成显示效果
步骤:需安装扩展程序chromehttps://chrome.google.com/webstore/search/chrome%20%20developer%20%20tools?hl=zh-CN
a.先下载翻墙插件SetupVPN,点击download按钮下载拆件
b.浏览器地址栏输入:chrome://extensions/,将下载好的crx文件拖动至当前页,按照操作完成安装翻墙插件 或点击选择更多工具中的扩展程序,将下载好的crx文件拖动至当前页,按照操作完成安装翻墙插件
d.在应用商店搜索:XPath-Helper、React Developer Tools
e.点击:添加至CHROME
f.弹出确认框,确认之后就会自动下载

g.当看到浏览器右上角出现则说明安装成功
h.重启浏览器
3.在桌面创建一个爬虫
1.首先创建爬虫
(1)爬虫创建成功后在桌面显示,查看目录
(2)创建vedio来爬取 www.xinpianchang.com,就会在文件夹多出一个vedio.py在spider中
2.爬取新片场的视频信息
(1)可以在python编辑器IDLE中编辑vedio.py或Notepad++
IDLE:File--->OPEN--->打开vedio.py编辑(F5运行成功证明没有BUG)
如果有关于Tab和空格格式上的错误:
Python增加缩进快捷键:Ctrl+Alt+] 或tab键或shift+tab键 Python减少缩进快捷键:Ctrl+Alt+[
Notepad++:如果有关于Tab和空格格式上的错误:我使用的文本编辑器Notepad++,有个设置,可以显示所有的字符的TAB和空格情况。 视图 -> 显示符号 -> 显示空格与制表符
浏览器搜索新片场---》点击发现----》点击作品
# -*- coding: utf-8 -*-
import scrapy
class VedioSpider(scrapy.Spider):
name = 'vedio'
allowed_domains = ['www.xinpianchang.com']
start_urls = ['http://www.xinpianchang.com/channel/index/sort-like']#主页地址
def parse(self, response):
post_url="http://www.xinpianchang.com/a%s?from=ArticleList"#点击任一作品对应地址栏,%s匹配全部
posts=response.xpath('//ul[@class="video-list"]/li')#将匹配标签类下的全部
for post in posts:
post_id = post.xpath('./@data-articleid').extract_first()#./表示在前路径,即
# 在//ul[@class="video-list"]/li/@data-articleid下。如上截图,获取所有的%s
thumbnail = post.xpath('./a/img/@_src').extract_first()
#print('post_id:%s,thumbnail:%s'%(post_id,thumbnail))
request=scrapy.Request(post_url%post_id,callback=self.parse_post)
yield request
def parse_post(self, response): title=response.xpath('//div[@class="title-wrap"]/h3/text()').extract_first() print(title)
(2)运行爬虫
.....................................................................................................