读 ncnn 源码（XXV）：`fuse_deconvolution_add`——合并反卷积层的偏置链

在本系列的前几篇中，我们已经系统性地分析了 ncnnoptimize 如何融合 Convolution, ConvolutionDepthWise 后续的 BatchNorm, Mul, Add 等线性操作。为了确保优化策略的完整性，ncnn 也为反卷积层 (Deconvolution) 提供了类似的融合能力。继上一篇分析 fuse_deconvolution_mul 之后，本篇我们将聚焦于 fuse_deconvolution_add，探讨其如何合并反卷积层后的逐通道加法操作。

TL;DR

目标: 将 Deconvolution 层后接一个执行逐通道加法 (Per-Channel Bias Addition，由 BinaryOp(Add) + MemoryData 实现) 的操作进行融合。
模式匹配: 查找 Deconvolution -> BinaryOp 结构，附加条件与 fuse_convolution_add 完全一致：BinaryOp 必须是 Add (op_type == 0)，非标量 (!with_scalar)，且第二输入来自形状匹配通道数的 MemoryData 向量（支持 [channels] 或 [1, 1, channels] 等广播形式）。
数学原理: 与 fuse_convolution_add 完全一致。融合公式为：
- 新权重 $W'_{deconv} = W_{deconv}$ (权重不变)。
- 新偏置 $b'_{deconv} = b_{deconv} + B$ (将 MemoryData 的偏置向量 $B$ 加到 Deconvolution 的原有偏置 $b_{deconv}$ 上)。
代码实现: 几乎与 fuse_convolution_add 完全相同。
- 从 memorydata->data 提取偏置向量 B。
- 如果 Deconvolution 没有偏置 (bias_term == 0)，则将 B 设为其新偏置。
- 如果已有偏置 $b_{deconv}$ ，则将 B 逐元素地加到 deconvolution->bias_data 上。
图结构修改: 将 Deconvolution 层的 top 指向原 BinaryOp 的 top，更新 blob 的 producer，并将 BinaryOp 标记为 "ncnnfused"。
效果: 消除了 BinaryOp 层引入的冗余加法计算和内存访问，将偏置合并到 Deconvolution 层中，进一步优化计算图。

1. 融合动机：简化连续偏置操作的普遍性

Deconvolution 作为一种线性变换 $y = W_{deconv} * x + b_{deconv}$ ，其输出可能包含偏置项 $b_{deconv}$ 。如果后续 BinaryOp 层仅执行逐通道加法 $z_o = y_o + B_o$ （其中 $B_o$ 来自 MemoryData），则这两个加法可以合并为 $b'_{deconv} = b_{deconv} + B$ 。将合并后的偏置存入 Deconvolution 层，即可在推理时跳过 BinaryOp，实现优化。

2. 代码实现：复用偏置合并逻辑

fuse_deconvolution_add 的代码实现与 fuse_convolution_add 高度一致，仅层类型匹配不同，再次验证了该融合逻辑的通用性。

int NetOptimize::fuse_deconvolution_add()
{
    const size_t layer_count = layers.size();
    for (size_t i = 0; i < layer_count; i++) // 遍历查找 Deconvolution
    {
        if (layers[i]->type != "Deconvolution") continue;
        int top_blob_index = layers[i]->tops[0];

        // 查找后续的 BinaryOp (Add, 非标量, 第二输入来自 MemoryData)
        // ... (模式匹配代码与 fuse_convolution_add 完全一致) ...
        size_t j = i + 1;
        // ... (find BinaryOp j) ...
        if (j == layer_count) continue;

        ncnn::Deconvolution* deconvolution = (ncnn::Deconvolution*)layers[i];
        ncnn::BinaryOp* binaryop = (ncnn::BinaryOp*)layers[j];

        if (binaryop->op_type != 0 || binaryop->with_scalar) continue; // 必须是 Add, 非标量

        size_t k = 0;
        // ... (find MemoryData k as the second input of j) ...
        if (k == j) continue;

        ncnn::MemoryData* memorydata = (ncnn::MemoryData*)layers[k];

        int channels = deconvolution->num_output; // Deconvolution 输出通道数

        // 校验 MemoryData 形状是否符合逐通道加偏置
        bool broadcasting_type_ok = false;
        if (memorydata->w == channels && memorydata->h == 0 && memorydata->c == 0) // [channels]
            broadcasting_type_ok = true;
        if (memorydata->w == 1 && memorydata->h == 1 && memorydata->c == channels) // [1, 1, channels]
            broadcasting_type_ok = true;
        if (!broadcasting_type_ok) continue;

        fprintf(stderr, "fuse_deconvolution_add %s %s\n", deconvolution->name.c_str(), binaryop->name.c_str());

        // --- 参数变换核心 ---
        // 1. 将 MemoryData 数据 reshape 成一维偏置向量 B
        ncnn::Mat bias_data = memorydata->data.reshape(channels);
        {
            // 2. 检查 Deconvolution 是否已有偏置
            if (deconvolution->bias_term == 0)
            {
                // 如果没有，直接将 B 作为新的偏置
                deconvolution->bias_term = 1;
                deconvolution->bias_data = bias_data; // 赋值
            }
            else
            {
                // 如果已有偏置 b_deconv，则执行逐元素加法 b_deconv = b_deconv + B
                float* bias = deconvolution->bias_data; // 获取指向 b_deconv 的指针
                for (int ch = 0; ch < channels; ch++)
                {
                    bias[ch] = bias[ch] + bias_data[ch]; // b'_deconv = b_deconv + B
                }
            }
        } // --- 参数变换结束 ---

        // --- 图结构修改 (标准融合操作) ---
        int top_blob_index_final = binaryop->tops[0];
        deconvolution->tops[0] = top_blob_index_final;
        blobs[top_blob_index_final].producer = i;
        binaryop->type = "ncnnfused";
        // --- 图结构修改结束 ---
    }
    return 0;
}

关键点:

模式匹配: 查找 Deconvolution -> BinaryOp(Add) 结构，且第二个输入来自符合广播条件的 MemoryData。
参数更新: 将 MemoryData 中的偏置数据 bias_data (向量 B) 加到 deconvolution->bias_data (向量 $b_{deconv}$ ) 上。如果 $b_{deconv}$ 不存在，则直接用 B 初始化。反卷积核权重不发生改变。
图修改: 标准的重定向连接 + 标记融合操作。

3. 意义：补全反卷积优化链

fuse_deconvolution_add Pass 的加入，补全了 ncnn 对反卷积层后接常见线性操作（BN, Mul, Add）的融合优化链条。这确保了无论网络结构如何设计或转换而来，只要存在可合并的线性计算，ncnnoptimize 都能尽可能地将其简化，从而提升最终的推理性能。

4. 结语

fuse_deconvolution_add 是 ncnn 图优化工具箱中，针对反卷积线性链优化的又一具体实现。它通过简单的偏置项合并，有效消除了冗余的逐通道加法运算。这一系列针对不同卷积变体（标准、深度、反卷积）及其后接线性操作（BN, Scale, Mul, Add）的精细化融合 Pass，共同构成了 ncnnoptimize 强大的模型“精炼”能力的核心，是 ncnn 实现端侧高性能推理的重要保障。

该封面图片由Kadernik在Pixabay上发布