任务调度

介绍

在本方案中，使用celery作为任务分发平台。对于存入celery的大量任务，能达到以下的要求：

任务逻辑相互独立
横向扩展任务处理能力
抽象（抽象的意义在于，化繁为简）除业务逻辑以外的处理过程，将后续代码编写的关注点主要放在业务逻辑的实现上
链式任务触发

结构

flow.png

设计方案

任务逻辑封装

我们将任务逻辑按照约定的格式封装，并以设置name属性的方式为任务打上标记，而后通过current_node/default_node确定app 发送的节点。这些准备工作完成后，将任务名称和任务数据交由celery app进行发送。如此能够保持发送端的轻量级，使任务更快、更稳定、更无压力的发送到执行端。

以下是任务的封装功能伪代码。


class BaseLogic(object):

    logic_name = None
    nodes = []

    def __init__(self):
        if not self.logic_name or not self.nodes:
            raise attributeError

    def next_node(current_node=None): # 逻辑具有了修改下一个执行节点的能力。

    def send_other(self,  other_logic_name):

    def send_others(self, other_logic_names):

    def set(self,  key,  value):

    def get(self,  key,  default=None):

    def die(self):

    def __repr__(self):  

class SpiderLogic(BaseLogic):

    def crawl(self):

    def publish(self):

    def store(self):

发送器封装

class App():

    def __init__(self, app->celery.app):
        self.app = app

    def send(self, node_name, data=None): # 发送初始任务。发送任务名称和传递的数据(LogicClass.name, data)

任务处理流程简述

不同节点的worker会收到属于本节点的任务。worker提供任务的执行流程。

worker是无状态的，worker的每次运行会传入此次运行所需的数据，多次任务运行之间相互不会产生影响。对于无状态的系统，可以避免考虑数据同步等额外的交互问题。同时根据任务数量级和任务执行所需要的资源的不同，可以对worker进行横向扩展。

基础task处理逻辑的封装功能伪代码：

class ProcessTask(celery.Task):
    """
    worker中实际运行的任务流程封装
    """
    name = None

    def __init__(self):

    def run(self, data):
        logic_ins = logic_factory(data)
        self._run(logic_ins)
        self.send_next(logic_ins)
        self.send_others(logic_ins)

    def _run(self, logic_ins):
        raise NotImplementedError

    def send_next(self, logic_ins):
        node_name = logic_ins.next_nodes.pop()
        self.send_to_node(node_name)

    def send_others(self, logic_ins):

        for node_name in logic_ins.other_nodes:
            self.send_to_node(node_name)

    def send_to_node(self, node_name):

class CrawlProcessTask(ProcessTask):

    name = 'crawl'

    def _run(self, logic_ins):
        logic_ins.crawl()

收到任务的名称以后，worker会通过工厂方法根据任务名称实例化对应的类，并且按照worker既定的执行流程，执行对应的业务逻辑。

执行完成后，按照logic class 既定的顺序，自动触发下一个流程。当然如果需要将数据进行链式处理，那么在逻辑类中，通过定义other_logics，数据也会发送到对应节点开始新的流程。

总结

任务逻辑相互独立的意义在于，当一个任务需要调整逻辑时，会自然而然的将修改锁定在独立的代码块中，也就是最小化此次修改的影响范围。所以我们将任务相互独立的抽象成不同的逻辑类。而当任务相互独立以后，我们需要一个统一的任务运行机制，并且此机制希望对于任务毫无干预，也就是机制不关注运行任务的内容是什么，而是关注运行任务的流程。所以我们对于任务运行设计了一套流程。

在流程中，我们将任务封装成为一个个的类，在类中定义好业务逻辑以及处理节点的顺序。类通过一个统一的入口进入流程处理。同时，通过这个顺序，被封装后的celery app 可以找到首个接收的worker 节点，然后通过celery的分布式任务分发能力，进行任务的分发。

同时在类中设置链式处理逻辑，解除单个任务之间的壁垒，将任务链条串起来，解决任务之间数据交互的问题。

故此，我们将业务代码抽离出任务分发流程，任务相互独立，同时提供数据传递的方案，保证任务流程的正常执行。同时通过worker节点的无状态，以及celery节点的扩容能力，使得当有大量任务产生的时候，能够对任意任务节点数量进行横向扩展。

介绍

结构

设计方案

任务逻辑封装

发送器封装

任务处理流程简述

总结

推荐阅读更多精彩内容