Celery是一个专注于实时处理和任务调度的分布式任务队列。所谓任务就是消息,消息中的有效载荷中包含要执行任务需要的全部数据。
使用Celery的常见场景如下:
- Web应用。当用户触发的一个操作需要较长时间才能执行完成时,可以把它作为任务交给Celery去异步执行,执行完再返回给用户。这段时间用户不需要等待,提高了网站的整体吞吐量和响应时间。
- 定时任务。生产环境经常会跑一些定时任务。假如你有上千台的服务器、上千种任务,定时任务的管理很困难,Celery可以帮助我们快速在不同的机器设定不同种任务。
- 其他可以异步执行的任务。为了充分提高网站性能,对于请求和响应之外的那些不要求必须完成的附加工作都可以异步完成。比如发送短信/邮件、推送消息、清理/设置缓存等。
Celery还提供了如下的特性:
- 方便地查看定时任务的执行情况,比如执行是否成功、当前状态、执行任务话费的时间等。
- 可以使用功能齐备的管理后台或者命令行添加、更新、删除任务。
- 方便把任务和配置管理相关联
- 可选多进程、Eventlet和Gevent三种模式并发执行
- 提供错误处理机制。
- 提供多种任务原语,方便实现任务分组、拆分和调用链。
- 支持多种消息代理和存储后端。
Celery架构
Celery包含如下组件:
- Celery Beat:任务调度器,Beat进程会读取配置文件的内容,周期性地将配置中到期需要执行的任务发送给任务队列。
- Celery Worker:执行任务的消费者,通常会在多台服务器运行多个消费者来提高执行效率。
- Broker:消息代理,或者叫做消息中间件,接收任务生产者发送过来的任务消息,存进队列再按序分发给任务消费方(通常是消息队列或者数据库)
- Producer:调用了Celery提供的API、函数或者装饰器而产生任务并交给任务队列处理的都是任务生产者。
- Result Backend:任务处理完后保存状态信息和结果,以供查询。Celery 默认已支持Redis、RabbitMQ、MongoDB、Django ORM、SQLAlchemy等方式
Celery的架构图如下所示:
选择消息代理
Celery 目前支持RabbitMQ、Redis、MongoDB、Beanstalk、SQLAlchemy、Zookeeper等作为消息代理,但适用于生产环境的只有RabbitMQ和Redis,至于其他的方式,一是支持有限,二是可能得不到更好的技术支持。
Celery官方推荐的是RabbitMQ,Celery的作者Ask Solem Hoel最初在VMware就是为RabbitMQ工作的,Celery最初的设计就是基于RabbitMQ,所以使用RabbitMQ会非常稳定,成功案例很多。如果使用Redis,则需要能接收发生突然断电之类的问题造成Redis突然中止后的数据丢失等后果。
Celery序列化
在客户端和消费者之间传输数据需要序列化和反序列化,Celery支持如下所示的序列化方案:
方案 | 说明 |
---|---|
pickle | pickle是Python标准库中的一个模块,支持Python内置的数据结构,但是它是Python的专有协议。从Celery 3.2开始,由于安全性等原因Celery将拒绝pickle这个方案 |
json | json支持多种语言,可用于跨语言方案 |
yaml | yaml的表达能力更强,支持的数据类型比json多,但是Python客户端的性能不能JSON |
msgpack | msgpack是一个二进制的类json的序列化方案,但是比json的数据结构更小、更快 |
从一个简单的项目开始
举个栗子,有这样一个项目结构:
首先我们先看一下主程序文件manager.py
,具体代码如下:
from flask import Flask
from celery import Celery
from app.config import config
app = Flask(__name__)
celery_server = Celery(__name__,include=['app.tasks.tasks'])
celery_server.config_from_object(config)
if __name__ == '__main__':
app.run()
celery_server是Celery类的实例,创建的时候添加了app.tasks.tasks这个模块,也就是包含了app.tasks.tasks这个文件。config_from_object这个方法相信对flask有过相关了解的都知道,这是加载配置文件
接下来,再来看一下存放任务函数的文件tasks.py
,具体代码如下:
from manager import celery_server
@celery_server.task
def add(x,y):
return x+y
任务函数的标识就是,有着这样的一个装饰器:@Celery类实例.task
。
接下来,我们来看一下我们的配置文件config.py
,具体配置如下:
BROKER_URL = 'redis://192.168.10.10:6379/1'
CELERY_RESULT_BACKEND = 'redis://192.168.10.10:6379/1'
CELERY_TASK_SERIALIZER = 'json'
CELERY_RESULT_SERIALIZER = 'json'
CELERY_TASK_RESULT_EXPIRES = 24 * 60 * 60
CELERY_ACCEPT_CONTENT = ['json']
- BROKER_URL:消息代理地址
- CELERY_RESULT_BACKEND:任务结果存放地址
- CELERY_TASK_SERIALIZER:任务序列化与反序列化方案
- CELERY_RESULT_SERIALIZER:读取任务结果
- CELERY_TASK_RESULT_EXPIRES:任务过期时间
- CELERY_ACCEPT_CONTENT:指定接受的内容类型
启动消费者:
celery -A manager.celery_server worker -l info
如果看到以下信息,就表明启动成功了:
现在我们可以开启另外一个终端,调用一下tasks.py
中的异步任务add
:
可以在worker终端上显示执行了任务:
任务的结果都需要根据上面提到的task_id获得,我们还可以用如下两种方式随时找到这个结果:
from app.tasks.tasks import add
add.AsyncResult(task_id).get()
又或者:
from celery.result import AsyncResult
AsyncResult(task_id).get()