读 ncnn 源码（XXVIII）：`fuse_innerproduct_add`——合并全连接层的偏置链

在本系列的图优化篇章中，我们已经见证了 ncnnoptimize 如何系统性地融合各种卷积变体以及全连接层 (InnerProduct) 后续的 BatchNorm 和逐通道乘法 (Mul)。为了进一步简化计算图中的线性计算链，ncnn 还提供了针对全连接层后接逐通道加法 (Add) 的融合优化：fuse_innerproduct_add。

本篇，我们将剖析该函数的源码，理解其如何将偏置合并的通用逻辑应用于 InnerProduct 这一关键层类型。

TL;DR

目标: 将 InnerProduct (全连接) 层后接一个执行逐通道/单元加法 (Per-Output Bias Addition，由 BinaryOp(Add) + MemoryData 实现) 的操作进行融合。
模式匹配: 查找 InnerProduct -> BinaryOp 结构，附加条件与 fuse_convolution_add 完全一致：BinaryOp 必须是 Add (op_type == 0)，非标量 (!with_scalar)，且第二输入来自形状匹配输出单元数的 MemoryData 向量（支持 [channels] 或 [1, 1, channels] 等广播形式，其中 channels 等于 InnerProduct 的 num_output）。
数学原理: 与 fuse_convolution_add 完全一致。融合公式为：
- 新权重 $W'_{fc} = W_{fc}$ (权重不变)。
- 新偏置 $b'_{fc} = b_{fc} + B$ (将 MemoryData 的偏置向量 $B$ 加到 InnerProduct 的原有偏置 $b_{fc}$ 上)。
代码实现: 几乎与 fuse_convolution_add 完全相同。
- 从 memorydata->data 提取偏置向量 B。
- 如果 InnerProduct 没有偏置 (bias_term == 0)，则将 B 设为其新偏置。
- 如果已有偏置 $b_{fc}$ ，则将 B 逐元素地加到 innerproduct->bias_data 上。
图结构修改: 将 InnerProduct 层的 top 指向原 BinaryOp 的 top，更新 blob 的 producer，并将 BinaryOp 标记为 "ncnnfused"。
效果: 消除了 BinaryOp 层引入的冗余加法计算和内存访问，将偏置合并到 InnerProduct 层中，优化了包含连续偏置添加的网络结构。

1. 融合动机：简化连续偏置操作的普遍性

InnerProduct 层的计算 $y = Wx + b_{fc}$ 可能包含一个偏置项 $b_{fc}$ 。如果后续 BinaryOp 层仅对每个输出单元加上一个固定的偏置值 $B_o$ （来自 MemoryData），即 $z_o = y_o + B_o$ ，那么这两个加法可以合并为 $b'_{fc, o} = b_{fc, o} + B_o$ 。将合并后的偏置存入 InnerProduct 层，即可在推理时跳过 BinaryOp，实现优化。

2. 代码实现：复用偏置合并逻辑

fuse_innerproduct_add 的代码实现与 fuse_convolution_add 高度一致，仅层类型匹配不同，再次体现了该融合逻辑的通用性。

int NetOptimize::fuse_innerproduct_add()
{
    const size_t layer_count = layers.size();
    for (size_t i = 0; i < layer_count; i++) // 遍历查找 InnerProduct
    {
        if (layers[i]->type != "InnerProduct") continue;
        int top_blob_index = layers[i]->tops[0];

        // 查找后续的 BinaryOp (Add, 非标量, 第二输入来自 MemoryData)
        // ... (模式匹配代码与 fuse_convolution_add 完全一致) ...
        size_t j = i + 1;
        // ... (find BinaryOp j) ...
        if (j == layer_count) continue;

        ncnn::InnerProduct* innerproduct = (ncnn::InnerProduct*)layers[i];
        ncnn::BinaryOp* binaryop = (ncnn::BinaryOp*)layers[j];

        if (binaryop->op_type != 0 || binaryop->with_scalar) continue; // 必须是 Add, 非标量

        size_t k = 0;
        // ... (find MemoryData k as the second input of j) ...
        if (k == j) continue;

        ncnn::MemoryData* memorydata = (ncnn::MemoryData*)layers[k];

        // channels 在这里等于 InnerProduct 的输出单元数
        int channels = innerproduct->num_output;

        // 校验 MemoryData 形状是否符合逐输出单元加偏置
        bool broadcasting_type_ok = false;
        if (memorydata->w == channels && memorydata->h == 0 && memorydata->c == 0) // [channels]
            broadcasting_type_ok = true;
        if (memorydata->w == 1 && memorydata->h == 1 && memorydata->c == channels) // [1, 1, channels]
            broadcasting_type_ok = true;
        if (!broadcasting_type_ok) continue;

        fprintf(stderr, "fuse_innerproduct_add %s %s\n", innerproduct->name.c_str(), binaryop->name.c_str());

        // --- 参数变换核心 ---
        // 1. 将 MemoryData 数据 reshape 成一维偏置向量 B
        ncnn::Mat bias_data = memorydata->data.reshape(channels);
        {
            // 2. 检查 InnerProduct 是否已有偏置
            if (innerproduct->bias_term == 0)
            {
                // 如果没有，直接将 B 作为新的偏置
                innerproduct->bias_term = 1;
                innerproduct->bias_data = bias_data; // 赋值
            }
            else
            {
                // 如果已有偏置 b_fc，则执行逐元素加法 b_fc = b_fc + B
                float* bias = innerproduct->bias_data; // 获取指向 b_fc 的指针
                for (int ch = 0; ch < channels; ch++)
                {
                    bias[ch] = bias[ch] + bias_data[ch]; // b'_fc = b_fc + B
                }
            }
        } // --- 参数变换结束 ---

        // --- 图结构修改 (标准融合操作) ---
        int top_blob_index_final = binaryop->tops[0];
        innerproduct->tops[0] = top_blob_index_final;
        blobs[top_blob_index_final].producer = i;
        binaryop->type = "ncnnfused";
        // --- 图结构修改结束 ---
    }
    return 0;
}

关键点:

模式匹配: 查找 InnerProduct -> BinaryOp(Add) 结构，且第二个输入来自符合广播条件的 MemoryData。
参数更新: 将 MemoryData 中的偏置数据 bias_data (向量 B) 加到 innerproduct->bias_data (向量 $b_{fc}$ ) 上。如果 $b_{fc}$ 不存在，则直接用 B 初始化。InnerProduct 的权重矩阵不发生改变。
图修改: 标准的重定向连接 + 标记融合操作。

3. 意义：优化全连接部分的线性链

InnerProduct -> Add(per-channel) 模式虽然可能不如 InnerProduct -> BN 常见，但在某些模型转换或特定设计中仍可能出现。fuse_innerproduct_add Pass 的存在，确保了 ncnn 对全连接层后接的常见线性操作（BN, Add）都具备融合优化的能力。

4. 结语

fuse_innerproduct_add 是 ncnn 图优化工具箱中，针对全连接层 (InnerProduct) 线性链优化的补充。它复用了与其他层融合加法相同的逻辑，将逐输出单元的偏置添加操作合并到 InnerProduct 层自身。这进一步体现了 ncnn 图优化策略的系统性和一致性——尽可能地识别并消除计算图中可合并的连续线性变换。通过对各种层类型及其后续线性操作进行细致的融合优化，ncnnoptimize 能够有效地简化网络结构，为模型在端侧设备上的高效部署提供坚实保障。

该封面图片由Abed Abedaljalil在Pixabay上发布