使用Celery

本文详细介绍了Celery的架构、选择消息代理、序列化、任务调度等核心概念。通过实例展示了如何配置Celery使用RabbitMQ作为消息代理,以及如何在Flask应用中集成Celery实现异步任务。Celery支持多进程和多种消息中间件,适合作为Web应用的后台任务处理框架。

Celery是一个专注于实时处理和任务调度的分布式任务队列。所谓任务就是消息,消息中的有效载荷中包含要执行任务需要的全部数据。


使用Celery的常见场景如下:


1. Web应用。当用户触发的一个操作需要较长时间才能执行完成时,可以把它作为任务交给Celery去异步执行,执行完再返回给用户。这段时间用户不需要等待,提高了网站的整体吞吐量和响应时间。


2. 定时任务。生产环境经常会跑一些定时任务。假如你有上千台的服务器、上千种任务,定时任务的管理很困难,Celery可以帮助我们快速在不同的机器设定不同种任务。


3. 同步完成的附加工作都可以异步完成。比如发送短信/邮件、推送消息、清理/设置缓存等。


Celery还提供了如下的特性:


1. 方便地查看定时任务的执行情况,比如执行是否成功、当前状态、执行任务花费的时间等。


2. 可以使用功能齐备的管理后台或者命令行添加、更新、删除任务。


3. 方便把任务和配置管理相关联。


4. 可选多进程、Eventlet和Gevent三种模式并发执行。


5. 提供错误处理机制。


- 提供多种任务原语,方便实现任务分组、拆分和调用链。


- 支持多种消息代理和存储后端。


Celery的架构

Celery包含如下组件:


1. Celery Beat:任务调度器,Beat进程会读取配置文件的内容,周期性地将配置中到期需要执行的任务发送给任务队列。


2. Celery Worker:执行任务的消费者,通常会在多台服务器运行多个消费者来提高执行效率。


3. Broker:消息代理,或者叫作消息中间件,接受任务生产者发送过来的任务消息,存进队列再按序分发给任务消费方(通常是消息队列或者数据库)。


4. Producer:调用了Celery提供的API、函数或者装饰器而产生任务并交给任务队列处理的都是任务生产者。


5. Result Backend:任务处理完后保存状态信息和结果,以供查询。Celery默认已支持Redis、RabbitMQ、MongoDB、Django ORM、SQLAlchemy等方式。


Celery的架构图如图所示:


选择消息代理

Celery目前支持RabbitMQ、Redis、MongoDB、Beanstalk、SQLAlchemy、Zookeeper等作为消息代理,但适用于生产环境的只有RabbitMQ和Redis,至于其他的方式,一是支持有限,二是可能得不到更好的技术支持。


Celery官方推荐的是RabbitMQ,Celery的作者Ask Solem Hoel最初在VMware就是为RabbitMQ工作的,Celery最初的设计就是基于RabbitMQ,所以使用RabbitMQ会非常稳定,成功案例很多。如果使用Redis,则需要能接受发生突然断电之类的问题造成Redis突然终止后的数据丢失等后果。


Celery序列化

在客户端和消费者之间传输数据需要序列化和反序列化,Celery支持如表9.2所示的序列化方案:

为了提供更高的性能,我们选择如下方案:

1. 选择RabbitMQ作为消息代理。


2. RabbitMQ的Python客户端选择librabbitmq这个C库。


3. 选择Msgpack做序列化。


4. 选择Redis做结果存储。


下面先安装它们。Celery提供bundles的方式,也就是安装Celery的同时可以一起安装多种依赖:


❯ pip install "celery[librabbitmq,redis,msgpack]"

注:bundles的原理是在setup.py的setup函数中添加extras_require。


从一个简单的例子开始

先演示一个简单的项目让Celery运行起来。项目的目录结构如下:


❯ tree chapter9/section3/proj

├── celeryconfig.py

├── celery.py

├── __init__.py

└── tasks.py

先看一下主程序celery.py:


from __future__ import absolute_import

from celery import Celery

app = Celery('proj', include=['proj.tasks'])

app.config_from_object('proj.celeryconfig')


if __name__ == '__main__':

    app.start()

解析一下这个程序:

1. "from __future__ import absolute_import"是拒绝隐式引入,因为celery.py的名字和celery的包名冲突,需要使用这条语句让程序正确地运行。


2. app是Celery类的实例,创建的时候添加了proj.tasks这个模块,也就是包含了proj/tasks.py这个文件。


3. 把Celery配置存放进proj/celeryconfig.py文件,使用app.config_from_object加载配置。


看一下存放任务函数的文件tasks.py:


from __future__ import absolute_import

from proj.celery import app


@app.task

def add(x, y):

    return x + y

tasks.py只有一个任务函数add,让它生效的最直接的方法就是添加app.task这个装饰器。


看一下我们的配置文件celeryconfig.py:

BROKER_URL = 'amqp://dongwm:123456@localhost:5672/web_develop' # 使用RabbitMQ作为消息代理

CELERY_RESULT_BACKEND = 'redis://localhost:6379/0' # 把任务结果存在了Redis

CELERY_TASK_SERIALIZER = 'msgpack' # 任务序列化和反序列化使用msgpack方案

CELERY_RESULT_SERIALIZER = 'json' # 读取任务结果一般性能要求不高,所以使用了可读性更好的JSON

CELERY_TASK_RESULT_EXPIRES = 60 * 60 * 24 # 任务过期时间,不建议直接写86400,应该让这样的magic数字表述更明显

CELERY_ACCEPT_CONTENT = ['json', 'msgpack'] # 指定接受的内容类型

这个例子中没有任务调度相关的内容, 所以只需要启动消费者:


cd ~/web_develop/chapter9/section3

❯ celery -A proj worker -l info

-A参数默认会寻找proj.celery这个模块,其实使用celery作为模块文件名字不怎么合理。可以使用其他名字。举个例子,假如是proj/app.py,可以使用如下命令启动:


❯ celery -A proj.app worker -l info

如果看到l如下的启动信息,就说明worker服务运行起来了:


--- * *** * -- Linux-4.4.0-22-generic-x86_64-with-Ubuntu-16.04-xenial

-- * - **** ---

- ** ---------- [config]

- ** ---------- .> app: proj:0x7f444c1b01d0

- ** ---------- .> transport: amqp://dongwm:**@localhost:5672/web_develop

- ** ---------- .> results: redis://localhost:6379/0

- *** --- * --- .> concurrency: 1 (prefork)

-- ******* ----

--- ***** ----- [queues]

-------------- .> celery exchange=celery(direct) key=celery

[tasks]

. proj.tasks.add

[2016-06-03 13:22:50,368: INFO/MainProcess] Connected to amqp://dongwm:**@localhost:5672/web_develop

[2016-06-03 13:22:50,381: INFO/MainProcess] mingle: searching for neighbors

[2016-06-03 13:22:51,392: INFO/MainProcess] mingle: all alone

[2016-06-03 13:22:51,629: WARNING/MainProcess] celery@WEB ready.

上述信息提供了一些有帮助的内容,如消息代理和存储结果的地址、并发数量、任务列表、交换类型等。在对Celery不熟悉的时候可以通过如上信息判断设置和修改是否已生效。


现在开启另外一个终端,用IPython调用add函数:


In : from proj.tasks import add

In : r = add.delay(1, 3)

In : r

Out: <AsyncResult: 93288a00-94ee-4727-b815-53dc3474cf3f>

In : r.result

Out: 4

In : r.status

Out: u'SUCCESS'
In : r.successful()

Out: True

In : r.backend

Out: <celery.backends.redis.RedisBackend at 0x7fb2529500d0> # 保存在Redis中

可以看到worker的终端上显示执行了任务:


[2016-06-03 13:34:40,749: INFO/MainProcess] Received task: proj.tasks.add[93288a00-94ee-4727-b815-53dc3474cf3f]

[2016-06-03 13:34:40,755: INFO/MainProcess] Task proj.tasks.add[93288a00-94ee-4727-b815-53dc3474cf3f] succeeded in 0.00511166098295s: 4

通过IPython触发的任务就完成了。任务的结果都需要根据上面提到的task_id获得,我们还可以用如下两种方式随时找到这个结果:


task_id = '93288a00-94ee-4727-b815-53dc3474cf3f'

In : add.AsyncResult(task_id).get()

Out: 4

或者:


In : from celery.result import AsyncResult

In : AsyncResult(task_id).get()

Out: 4

指定队列

Celery非常容易设置和运行,通常它会使用默认的名为celery的队列(可以通过CELERY_DEFAULT_QUEUE修改)用来存放任务。我们可以使用优先级不同的队列来确保高优先级的任务不需要等待就得到响应。

基于proj目录下的源码,我们创建一个projq目录,并对projq/celeryconfig.py添加如下配置:


from kombu import Queue

CELERY_QUEUES = ( # 定义任务队列

Queue('default', routing_key='task.#'), # 路由键以“task.”开头的消息都进default队列

Queue('web_tasks', routing_key='web.#'), # 路由键以“web.”开头的消息都进web_tasks队列

)

CELERY_DEFAULT_EXCHANGE = 'tasks' # 默认的交换机名字为tasks

CELERY_DEFAULT_EXCHANGE_TYPE = 'topic' # 默认的交换类型是topic

CELERY_DEFAULT_ROUTING_KEY = 'task.default' # 默认的路由键是task.default,这个路由键符合上面的default队列

CELERY_ROUTES = {

    'projq.tasks.add': { # tasks.add的消息会进入web_tasks队列

    'queue': 'web_tasks',

    'routing_key': 'web.add',

    }

}

现在用指定队列的方式启动消费者进程:


❯ celery -A projq worker -Q web_tasks -l info

上述worker只会执行web\_tasks中的任务,我们可以合理安排消费者数量,让web_tasks中任务的优先级更高。


使用任务调度

之前的例子都是由发布者触发的,本节展示一下使用Celery的Beat进程自动生成任务。基于proj目录下的源码,创建一个projb目录,对projb/celeryconfig.py添加如下配置:


CELERYBEAT_SCHEDULE = {

    'add': {

        'task': 'projb.tasks.add',

       'schedule': timedelta(seconds=10),

       'args': (16, 16)

    }
}

CELERYBEAT_SCHEDULE中指定了tasks.add这个任务每10秒跑一次,执行的时候的参数是16和16。


启动Beat程序:


 ❯ celery beat -A projb

然后启动Worker进程:


❯ celery -A projb worker -l info

之后可以看到每10秒都会自动执行一次tasks.add。


注:Beat和Worker进程可以一并启动:


❯ celery -B -A projb worker -l info

使用Django可以通过django-celery实现在管理后台创建、删除、更新任务,是因为它使用了自定义的调度类djcelery.schedulers.DatabaseScheduler,我们可以参考它实现Flask或者其他Web框架的管理后台来完成同样的功能。使用自定义调度类还可以实现动态添加任务。


任务绑定、记录日志和重试

任务绑定、记录日志和重试是Celery常用的3个高级属性。现在修改proj/tasks.py文件,添加div函数用于演示:


from celery.utils.log import get_task_logger                                                     
                                                                                                 
logger = get_task_logger(__name__)                                                               
                                                                                                 
                                                                                                 
@app.task(bind=True)                                                                             
def div(self, x, y):                                                                             
    logger.info(('Executing task id {0.id}, args: {0.args!r} '                                   
                 'kwargs: {0.kwargs!r}').format(self.request))                                   
    try:                                                                                         
        result = x / y                                                                           
    except ZeroDivisionError as e:                                                               
        raise self.retry(exc=e, countdown=5, max_retries=3)                                      
    return result                    

当使用bind = True后,函数的参数发生变化,多出了参数self(第一个参数),相当于把div变成了一个已绑定的方法,通过self可以获得任务的上下文。


在IPython中调用div:


In : from proj.tasks import div

In : r = div.delay(2, 1)

可以看到如下执行信息:


[2016-06-03 15:50:31,853: INFO/Worker-1] proj.tasks.div[1da82fb8-20de-4d5a-9b48-045da6db0cda]: Executing task id 1da82fb8-20de-4d5a-9b48-045da6db0cda, args: [2, 1] kwargs: {}

换成能造成异常的参数:


In : r = div.delay(2, 0)

可以发现每5秒就会重试一次,一共重试3次(默认重复3次),然后抛出异常。


在Flask应用中使用Celery

在Web应用中,用户请求页面发布任务,交由Celery后端处理。一种是把任务发布然后请求继续进行,响应不需要获知任务的执行情况;另外一种是需要实时把任务的执行过程反馈到用户的浏览器上。本节将演示这两种任务的处理方式。


Socket.IO是一个支持WebSocket协议,面向实时Web应用的JavaScript库。实现了浏览器与服务器之间的双向通信。它有两个部分:


1. 在浏览器中运行的客户端库。这个库由Socket.IO官方提供。


2. Python实现的服务端库。


为了简化代码,我们使用Flask-SocketIO这个扩展,首先安装它:


❯ pip install Flask-SocketIO

Celery默认使用多进程的方式运行Worker进程,这个例子将使用eventlet的方法运行Worker以及SocketIO。首先需要引入依赖包和设置(celery_socketio.py):


from flask import Flask, render_template                                                         
from flask_socketio import SocketIO                                                              
from celery import Celery                                                                        
import eventlet                                                                                  
eventlet.monkey_patch()                                                                          
                                                                                                 
app = Flask(__name__)                                                                            
here = os.path.abspath(os.path.dirname(__file__))  # 获取文件的绝对目录路径                      
app.config.from_pyfile(os.path.join(here, 'proj/celeryconfig.py'))                               
                                                                                                 
SOCKETIO_REDIS_URL = app.config['CELERY_RESULT_BACKEND']                                         
socketio = SocketIO(                                                                             
    app, async_mode='eventlet',                                                                  
    message_queue=SOCKETIO_REDIS_URL)   # 使用Redis存储SocketIO的消息队列                        
                                                                                                 
celery = Celery(app.name)                                                                        
celery.conf.update(app.config)  

接下来编写Celery任务:


@celery.task                                                                                     
def background_task():                                                                           
    socketio.emit(  # emit可以理解为向浏览器发送数据                                             
        'my response', {'data': 'Task starting ...'},                                            
        namespace='/task')                                                                       
    time.sleep(10)                                                                               
    socketio.emit(                                                                               
        'my response', {'data': 'Task complete!'},                                               
        namespace='/task')                                                                       
                                                                                                 
                                                                                                 
@celery.task                                                                                     
def async_task():                                                                                
    print 'Async!'                                                                               
    time.sleep(5)       

然后编写视图函数:

@app.route('/')                                                                                  
def index():                                                                                     
    return render_template('chapter9/section3/index.html')                                       
                                                                                                 
                                                                                                 
@app.route('/async')                                                                             
def async():                                                                                     
    async_task.delay()  # 访问/async会异步地发布一个async_task任务, 然后马上返回'Task complete!'                                                                                                
    return 'Task complete!'                                                                      
                                                                                                 
                                                                                                 
@app.route('/task')                                                                              
def start_background_task():                                                                     
    background_task.delay()                                                                      
    return 'Started'               

最后,我们设置启动应用的方式,和之前的Flask用法略有不同:


if __name__ == '__main__':
    socketio.run(app, host='0.0.0.0', port=9000, debug=True)

创建一个简单的模板index.html,它带有很少的样式,用jQuery操作DOM。为了减少依赖,socket.io.js引用了外部CDN的地址:


<script type="text/javascript" src="//cdn.socket.io/socket.io-1.4.5.js"></script>

先看一下模板的主体:


<body>                                                                                           
    <h3>Logging</h3>                                                                             
    <p id="log"></p>                                                                             
    <button id="background">Execute</button>                                                     
</body> 

再看一下JavaScript事件部分:


<script type="text/javascript">                                                                  
   $(document).ready(function(){                                                                 
       namespace = '/task';                                                                      
       socket = io.connect('http://' + document.domain + ':' + location.port + namespace);       
       socket.on('my response', function(msg) {                                                  
           console.log('Received: ' + msg.data);                                                 
           $('#log').append('Received: ' + msg.data + '<br>');                                   
       });                                                                                       
       $('#background').on('click', function() {                                                 
           $.get("{{ url_for('start_background_task') }}");                                      
       });                                                                                       
   });                                                                                           
</script>          

上面这段代码表示当页面加载完成之后,我们会创建Websocket链接,并且给id为background的DOM添加一个只要点击就会访问视图函数名为start_background_task(也就是访问/task)的事件。


现在运行Flask应用和Celery:


❯ cd ~/web_develop/chapter9/section3

❯ python celery_socketio.py

❯ celery -A celery_socketio.celery -P eventlet worker -l info

访问localhost:9000/async可以感受到这个请求是直接返回的,sleep 5秒的操作并没有影响到页面响应时间。


访问首页localhost:9000/,单击「Execute」按钮,可以看到红色框里面的内容会更新,执行完毕后如图9.4所示。


本节是《Python Web开发实战》书中的第9章第三节的内容。但由于专栏不支持Markdown,格式和书中的不完全一样。


<think>嗯,用户想在Python中用Celery实现批量接口测试任务调度。根据用户之前的提问和提供的引用,我需要综合这些信息来给出一个全面的解决方案。首先,用户之前已经有一个Django Admin的批量执行接口测试的代码,现在想用Celery异步执行这些任务,以提高效率和可扩展性。 首先,我需要回忆Celery的基本结构,如broker、worker、result backend。用户提供的引用里提到Celery使用Redis或RabbitMQ作为消息中间件,所以这里可能需要配置Redis作为broker和backend。接下来,用户现有的代码是同步执行的,现在需要将其改造成异步任务。 然后,用户可能希望批量执行多个接口测试,每个接口测试作为一个独立的Celery任务。或者,可能需要一个任务来处理多个接口测试。根据引用中的示例,用户可能需要创建Celery任务函数,然后在Admin的批量操作中调用这些任务。 接下来,需要考虑如何将现有的Django模型与Celery集成。例如,用户可能需要将APIConfig模型的数据传递给Celery任务,让任务执行测试并更新模型的状态。这涉及到Django和Celery的协同工作,可能需要配置Celery的实例,确保其能够正确加载Django的模型。 另外,用户可能关心任务的状态跟踪和结果存储。根据之前的代码,测试结果保存在模型的test_status和test_result字段中,所以Celery任务执行完成后需要更新这些字段。同时,可能需要使用Celery的结果后端来存储任务结果,但用户可能更倾向于直接更新数据,而不是依赖结果后端。 还需要考虑安全性,比如权限验证和任务限制,如用户提到的安全增强措施中的权限检查和最大数量限制。在异步任务中,这些检查可能需要在触发任务前进行,或者在任务执行时进行二次验证。 另外,用户可能需要任务调度,比如定时执行批量测试,这需要用到Celery的定时任务功能(beat)。引用中提到周期任务和定时任务,所以可能需要配置Celery beat来定期触发测试任务。 可能还需要处理错误情况,比如任务执行失败时的重试机制,或者异常处理,确保任务失败时能正确记录错误信息到模型。 最后,用户可能需要优化Admin界面,比如显示任务状态、执行时间等,可能需要扩展模型字段或使用Celery的任务状态来更新界面。 总结步骤应该是:安装Celery和Redis,配置Celery实例,定义异步任务函数,修改Admin的批量操作以调用Celery任务,处理任务执行并更新模型,可能添加定时任务支持,以及Admin界面的优化。</think>根据你的需求和参考内容,以下是使用Celery实现批量接口测试任务调度的完整方案: --- ### 一、环境配置 ```python # 安装依赖 pip install celery redis django-celery-results ``` ```bash # 启动Redis服务(Celery的broker和backend) redis-server ``` --- ### 二、Celery配置 ```python # proj/celery.py from __future__ import absolute_import from celery import Celery import os os.environ.setdefault('DJANGO_SETTINGS_MODULE', 'your_project.settings') app = Celery('proj', broker='redis://localhost:6379/0', backend='redis://localhost:6379/1', include=['api.tasks']) app.conf.update( task_serializer='json', accept_content=['json'], result_serializer='json', timezone='Asia/Shanghai', enable_utc=True, ) # 添加定时任务配置 app.conf.beat_schedule = { 'batch-test-daily': { 'task': 'api.tasks.batch_api_test', 'schedule': 86400, # 每天执行 'args': (), }, } ``` --- ### 三、Django集成配置 ```python # settings.py CELERY_RESULT_BACKEND = 'django-db' CELERY_CACHE_BACKEND = 'django-cache' INSTALLED_APPS += ('django_celery_results',) ``` --- ### 四、任务逻辑实现 ```python # api/tasks.py from celery import shared_task from .models import APIConfig import requests from django.utils import timezone @shared_task def single_api_test(api_id): """单个接口测试任务""" try: api = APIConfig.objects.get(id=api_id) api.last_test_time = timezone.now() # 执行测试(示例带参数) response = requests.request( method=api.method, url=api.url, headers=api.get_parsed_headers(), # 模型需添加headers字段 data=api.get_parsed_body(), timeout=10 ) # 更新测试结果 api.test_status = 'Success' if response.ok else 'Failed' api.test_result = f"状态码: {response.status_code}\n响应体: {response.text[:200]}" api.save() return f"API {api_id} 测试完成" except Exception as e: api.test_status = 'Error' api.test_result = str(e) api.save() raise e @shared_task def batch_api_test(api_ids=None): """批量测试任务""" queryset = APIConfig.objects.filter(id__in=api_ids) if api_ids else APIConfig.objects.all() # 创建任务链 tasks = [single_api_test.s(api.id) for api in queryset] # 使用chunk并行执行 chunk = celery.group(tasks)() return chunk.get() ``` --- ### 五、Admin界面改造 ```python # admin.py from django.contrib import admin from .models import APIConfig from .tasks import batch_api_test class APIConfigAdmin(admin.ModelAdmin): actions = ['async_batch_test'] def async_batch_test(self, request, queryset): api_ids = list(queryset.values_list('id', flat=True)) # 触发异步任务 task = batch_api_test.delay(api_ids) self.message_user(request, f"已提交{len(api_ids)}个测试任务,任务ID: {task.id}") async_batch_test.short_description = "🚀 异步批量测试" ``` --- ### 六、启动服务 ```bash # 启动Celery worker(处理任务) celery -A proj worker -l info -P gevent # 启动Celery beat(定时任务) celery -A proj beat -l info # 启动Django服务 python manage.py runserver ``` --- ### 七、执行验证 1. **手动触发**:Admin界面勾选接口→执行"异步批量测试" 2. **定时任务**:自动执行每日批量测试 3. **任务监控**:通过`django_celery_results`模块查看任务结果 --- ### 关键特性说明 1. **异步并行**:使用Celery的`group`实现并行测试[^2] 2. **结果跟踪**:通过`django_celery_results`存储任务结果 3. **失败重试**:可添加`@task(retry=True, retry_backoff=30)`实现自动重试 4. **资源控制**:通过`task_acks_late=True`+`worker_prefetch_multiplier=1`防止内存溢出[^4] ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值