读 ncnn 源码（XXII）：`fuse_convolutiondepthwise_add`——合并深度卷积的偏置链

在第十九篇中，我们分析了标准 Convolution 如何融合后续的逐通道加法 (fuse_convolution_add)。与乘法融合类似，深度可分离卷积 (ConvolutionDepthWise) 后也可能跟随一个执行逐通道加法的 BinaryOp 层。fuse_convolutiondepthwise_add 正是 ncnn 针对这一模式提供的专属优化 Pass。

本篇，我们将剖析该函数的源码，理解其如何将偏置合并的逻辑应用于 ConvolutionDepthWise 场景。

TL;DR

目标: 将 ConvolutionDepthWise 层后接一个执行逐通道加法 (Per-Channel Bias Addition，由 BinaryOp(Add) + MemoryData 实现) 的操作进行融合。
模式匹配: 查找 ConvolutionDepthWise -> BinaryOp 结构，附加条件与 fuse_convolution_add 完全一致：BinaryOp 必须是 Add (op_type == 0)，非标量 (!with_scalar)，且第二输入来自形状匹配通道数的 MemoryData 向量（支持 [channels] 或 [1, 1, channels] 等广播形式）。
数学原理: 与 fuse_convolution_add 完全一致。融合公式为：
- 新权重 $W'_{dw} = W_{dw}$ (权重不变)。
- 新偏置 $b'_{dw} = b_{dw} + B$ (将 MemoryData 的偏置向量 $B$ 加到 ConvDW 的原有偏置 $b_{dw}$ 上)。
代码实现: 几乎与 fuse_convolution_add 完全相同。
- 从 memorydata->data 提取偏置向量 B。
- 如果 ConvolutionDepthWise 没有偏置 (bias_term == 0)，则将 B 设为其新偏置。
- 如果已有偏置 $b_{dw}$ ，则将 B 逐元素地加到 convolutiondepthwise->bias_data 上。
图结构修改: 将 ConvolutionDepthWise 的 top 指向原 BinaryOp 的 top，更新 blob 的 producer，并将 BinaryOp 标记为 "ncnnfused"。
效果: 消除了 BinaryOp 引入的冗余加法计算和内存访问，将偏置合并到 ConvDW 层中，进一步优化计算图。

1. 融合动机：简化连续偏置操作

ConvolutionDepthWise 的计算 $y_o = W_{dw, o} * x_o + b_{dw, o}$ 可能包含一个偏置项 $b_{dw, o}$ 。如果后续 BinaryOp 层只是对每个通道加上一个固定的偏置值 $B_o$ （来自 MemoryData），即 $z_o = y_o + B_o$ ，那么这两个加法操作可以被合并为一次加法 $(b_{dw, o} + B_o)$ 。

将这个合并后的偏置存入 ConvolutionDepthWise 层的 bias_data 中，就可以在推理时跳过 BinaryOp 层，实现优化。

2. 代码实现：复用偏置合并逻辑

fuse_convolutiondepthwise_add 的代码实现与 fuse_convolution_add 高度一致，再次体现了融合逻辑的通用性。

int NetOptimize::fuse_convolutiondepthwise_add()
{
    const size_t layer_count = layers.size();
    for (size_t i = 0; i < layer_count; i++) // 遍历查找 ConvolutionDepthWise
    {
        if (layers[i]->type != "ConvolutionDepthWise") continue;
        int top_blob_index = layers[i]->tops[0];

        // 查找后续的 BinaryOp (Add, 非标量, 第二输入来自 MemoryData)
        // ... (模式匹配代码与 fuse_convolution_add 完全一致) ...
        size_t j = i + 1;
        // ... (find BinaryOp j) ...
        if (j == layer_count) continue;

        ncnn::ConvolutionDepthWise* convolutiondepthwise = (ncnn::ConvolutionDepthWise*)layers[i];
        ncnn::BinaryOp* binaryop = (ncnn::BinaryOp*)layers[j];

        if (binaryop->op_type != 0 || binaryop->with_scalar) continue; // 必须是 Add, 非标量

        size_t k = 0;
        // ... (find MemoryData k as the second input of j) ...
        if (k == j) continue;

        ncnn::MemoryData* memorydata = (ncnn::MemoryData*)layers[k];

        int channels = convolutiondepthwise->num_output;

        // 校验 MemoryData 形状是否符合逐通道加偏置
        bool broadcasting_type_ok = false;
        if (memorydata->w == channels && memorydata->h == 0 && memorydata->c == 0)
            broadcasting_type_ok = true;
        if (memorydata->w == 1 && memorydata->h == 1 && memorydata->c == channels)
            broadcasting_type_ok = true;
        if (!broadcasting_type_ok) continue;

        fprintf(stderr, "fuse_convolutiondepthwise_add %s %s\n", convolutiondepthwise->name.c_str(), binaryop->name.c_str());

        // --- 参数变换核心 ---
        // 1. 将 MemoryData 数据 reshape 成一维偏置向量 B
        ncnn::Mat bias_data = memorydata->data.reshape(channels);
        {
            // 2. 检查 ConvolutionDepthWise 是否已有偏置
            if (convolutiondepthwise->bias_term == 0)
            {
                // 如果没有，直接将 B 作为新的偏置
                convolutiondepthwise->bias_term = 1;
                convolutiondepthwise->bias_data = bias_data; // 赋值
            }
            else
            {
                // 如果已有偏置 b_dw，则执行逐元素加法 b_dw = b_dw + B
                float* bias = convolutiondepthwise->bias_data; // 获取指向 b_dw 的指针
                for (int ch = 0; ch < channels; ch++)
                {
                    bias[ch] = bias[ch] + bias_data[ch]; // b'_dw = b_dw + B
                }
            }
        } // --- 参数变换结束 ---

        // --- 图结构修改 (标准融合操作) ---
        int top_blob_index_final = binaryop->tops[0];
        convolutiondepthwise->tops[0] = top_blob_index_final;
        blobs[top_blob_index_final].producer = i;
        binaryop->type = "ncnnfused";
        // --- 图结构修改结束 ---
    }
    return 0;
}

关键点:

模式匹配: 与 fuse_convolution_add 逻辑一致，仅层类型改为 "ConvolutionDepthWise"。
参数更新: 将 MemoryData 中的偏置数据 bias_data (向量 B) 加到 convolutiondepthwise->bias_data (向量 $b_{dw}$ ) 上。如果 $b_{dw}$ 不存在，则直接用 B 初始化。卷积核权重不发生改变。
图修改: 标准的重定向连接 + 标记融合操作。

3. 意义与应用场景

ConvDW -> Add(per-channel) 模式虽然不如 ConvDW -> BN 常见，但 fuse_convolutiondepthwise_add Pass 的存在，确保了 ncnn 优化工具箱的完备性。它可以处理一些特定情况，例如：

模型转换过程中产生的冗余加偏置操作。
网络设计中手动添加的逐通道偏置层。

通过与其他针对 Depthwise Convolution 的融合 Pass（如 _batchnorm, _mul, _activation）协同工作，ncnn 能够最大程度地简化计算图中的线性计算链。

4. 结语

fuse_convolutiondepthwise_add 是 ncnn 图优化中针对深度可分离卷积线性链优化的又一个具体体现。它遵循与其他融合 Pass 相同的模式匹配、参数变换和图修改逻辑，专注于合并 ConvolutionDepthWise 层后的逐通道加法操作。虽然应用场景可能不如 BN 融合广泛，但它的存在展现了 ncnnoptimize 追求计算图极致简化的决心。这一系列细致入微的优化 Pass 共同确保了 ncnn 模型在部署时的最佳性能表现。

该封面图片由Anja在Pixabay上发布