不用担心看不懂代码,跟着做就能让数据手到擒来
一、前期准备:装好你的爬虫利器
1.1 为什么选择Pyspider?
Pyspider是由国内大神binux开发的一款强大网络爬虫框架。它有一个直观的WebUI界面——你可以在浏览器里直接编写、调试和监控爬虫脚本,非常适合初学者。
这么说吧,如果用传统的爬虫方法像是用徒手挖矿,那么Pyspider就相当于给你了一台自动化采矿机——图形化操作,一键启动!
1.2 安装Pyspider
打开你的命令行(Windows用户找CMD或PowerShell,Mac用户找终端),输入以下命令:
pip3 install pyspider
如果你同时安装了Python2和Python3,记得确保使用的是pip3而不是pip。
常见坑点:Windows用户可能会遇到PyCurl安装错误。别慌!这是因为缺少PyCurl库。只需从http://www.lfd.uci.edu/~gohlke/pythonlibs/#pycurl 下载对应你Python版本的Wheel文件,然后用pip安装即可。
例如,Windows 64位+Python3.6就下载pycurl‑7.43.0‑cp36‑cp36m‑win_amd64.whl,然后运行:
pip3 install pycurl‑7.43.0‑cp36‑cp36m‑win_amd64.whl
注意:Pyspider与Python 3.7+可能存在兼容性问题,推荐使用Python 3.6。如果非得用更高版本,需要手动修改源码中的async为mark_async。
1.3 验证安装
安装成功后,在命令行输入:
pyspider all
如果看到类似图1-74的输出,说明启动成功。
这时,Pyspider的Web服务已经在本地5000端口运行。打开浏览器,访问http://localhost:5000,就能看到Pyspider的WebUI管理页面。
至此,你的"爬虫采矿机"已经启动完毕!
二、创建第一个Youku影视排行爬虫项目
2.1 新建项目
在Pyspider的WebUI界面,点击右侧的Create按钮,创建一个新项目。
- Project Name:你可以起个响亮的名字,比如"youku_ranking"
- Start URL(s):这里我们填入Youku影视排行页面的URL
2.2 理解Pyspider的项目结构
创建项目后,你会看到自动生成的代码模板:
#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# Created on 2021-03-28 09:14:23
# Project: youku_ranking
from pyspider.libs.base_handler import *
class Handler(BaseHandler):
crawl_config = {
}
@every(minutes=24 * 60)
def on_start(self):
self.crawl('http://www.reeoo.com', callback=self.index_page)
@config(age=10 * 24 * 60 * 60)
def index_page(self, response):
for each in response.doc('a[href^="http"]').items():
self.crawl(each.attr.href, callback=self.detail_page)
@config(priority=2)
def detail_page(self, response):
return {
"url": response.url,

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



