DyNet自动批处理技术详解：告别手动批处理时代-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00771/article/details/148577660

DyNet自动批处理技术详解：告别手动批处理时代

dynet DyNet: The Dynamic Neural Network Toolkit 项目地址: https://gitcode.com/gh_mirrors/dy/dynet

引言：批处理的重要性与痛点

现代硬件处理器（CPU和GPU）能够充分利用并行计算能力，因此批处理（batching）对提升计算速度至关重要。然而，为RNN或更复杂架构编写批处理代码一直是个令人头疼的问题——开发者需要处理填充（padding）、掩码（masking）、索引（indexing）等一系列繁琐操作。

DyNet项目引入的自动批处理（Autobatching）功能彻底改变了这一局面。其核心思想是：开发者只需构建足够大的计算图，DyNet会自动完成剩余的批处理工作。

动态计算图基础（非批处理模式）

我们先看几个非批处理的DyNet代码示例，了解其简洁性。

示例1：LSTM接收器

class LstmAcceptor(object):
    def __init__(self, in_dim, lstm_dim, out_dim, model):
        self.builder = dy.VanillaLSTMBuilder(1, in_dim, lstm_dim, model)
        self.W = model.add_parameters((out_dim, lstm_dim))
    
    def __call__(self, sequence):
        lstm = self.builder.initial_state()
        W = self.W.expr()
        outputs = lstm.transduce(sequence)
        return W*outputs[-1]

这个LSTM接收器读取向量序列，通过线性层和softmax输出结果。注意每个序列可以有不同长度，LstmAcceptor能自动处理。

示例2：树状RNN

class TreeRNN(object):
    def __init__(self, model, word_vocab, hdim):
        self.W = model.add_parameters((hdim, 2*hdim))
        self.E = model.add_lookup_parameters((len(word_vocab),hdim))
        self.w2i = word_vocab

    def expr_for_tree(self, tree):
        if tree.isleaf():
            return self.E[self.w2i.get(tree.label,0)]
        if len(tree.children) == 1:
            return self.expr_for_tree(tree.children[0])
        e1 = self.expr_for_tree(tree.children[0])
        e2 = self.expr_for_tree(tree.children[1])
        W = dy.parameter(self.W)
        return dy.tanh(W*dy.concatenate([e1,e2]))

这个树状RNN接收树结构输入并编码为向量，展示了DyNet处理复杂结构的能力。

自动批处理实现

自动批处理的实现非常简单：开发者只需构建包含足够计算量的计算图，DyNet会自动完成批处理。

批处理训练代码

for epoch in range(10):
    dy.renew_cg()
    losses = []
    for sequence,label in [((1,4,5,1),1), ((42,1),2), ((56,2,17),1)]:
        vecs = [embeds[i] for i in sequence]
        preds = acceptor(vecs)
        losses.append(dy.pickneglogsoftmax(preds, label))
    batch_loss = dy.esum(losses)/3
    print(batch_loss.npvalue())
    batch_loss.backward()
    trainer.update()

关键变化：

每个epoch创建一个计算图，而非每个样本
累积所有样本的损失
最后统一计算和反向传播

批处理预测代码

dy.renew_cg()
batch_preds = []
for sequence in [(1,4,12,1), (42,2), (56,2,17)]:
    vecs = [embeds[i] for i in sequence]
    batch_preds.append(dy.softmax(acceptor(vecs)))

dy.forward(batch_preds)
for preds in batch_preds:
    print(np.argmax(preds.npvalue()), preds.npvalue())

性能对比

我们在多个NLP任务上测试了自动批处理的性能提升：

| 任务 | 无批处理(CPU) | 自动批处理(CPU) | 无批处理(GPU) | 自动批处理(GPU) | |------|--------------|----------------|--------------|----------------| | BiLSTM | 16.8 | 156 | 56.2 | 367 | | 带字符的BiLSTM | 15.7 | 132 | 43.2 | 275 | | 树状NN | 50.2 | 357 | 76.5 | 661 | | 转移解析器 | 16.8 | 61.2 | 33.0 | 90.1 |

结果显示自动批处理带来了3-9倍的性能提升。