读 ncnn 源码(XXVIII):fuse_innerproduct_add——合并全连接层的偏置链

在本系列的图优化篇章中,我们已经见证了 ncnnoptimize 如何系统性地融合各种卷积变体以及全连接层 (InnerProduct) 后续的 BatchNorm 和逐通道乘法 (Mul)。为了进一步简化计算图中的线性计算链,ncnn 还提供了针对全连接层后接逐通道加法 (Add) 的融合优化:fuse_innerproduct_add

本篇,我们将剖析该函数的源码,理解其如何将偏置合并的通用逻辑应用于 InnerProduct 这一关键层类型。

TL;DR

  1. 目标: 将 InnerProduct (全连接) 层后接一个执行逐通道/单元加法 (Per-Output Bias Addition,由 BinaryOp(Add) + MemoryData 实现) 的操作进行融合。
  2. 模式匹配: 查找 InnerProduct -> BinaryOp 结构,附加条件与 fuse_convolution_add 完全一致:BinaryOp 必须是 Add (op_type == 0),非标量 (!with_scalar),且第二输入来自形状匹配输出单元数的 MemoryData 向量(支持 [channels][1, 1, channels] 等广播形式,其中 channels 等于 InnerProductnum_output)。
  3. 数学原理: fuse_convolution_add 完全一致。融合公式为:
    • 新权重 Wfc=WfcW'_{fc} = W_{fc} (权重不变)。
    • 新偏置 bfc=bfc+Bb'_{fc} = b_{fc} + B (将 MemoryData 的偏置向量 BB 加到 InnerProduct 的原有偏置 bfcb_{fc} 上)。
  4. 代码实现: 几乎与 fuse_convolution_add 完全相同
    • memorydata->data 提取偏置向量 B
    • 如果 InnerProduct 没有偏置 (bias_term == 0),则将 B 设为其新偏置。
    • 如果已有偏置 bfcb_{fc},则将 B 逐元素地加innerproduct->bias_data 上。
  5. 图结构修改: 将 InnerProduct 层的 top 指向原 BinaryOptop,更新 blobproducer,并将 BinaryOp 标记为 "ncnnfused"
  6. 效果: 消除了 BinaryOp 层引入的冗余加法计算和内存访问,将偏置合并到 InnerProduct 层中,优化了包含连续偏置添加的网络结构。

1. 融合动机:简化连续偏置操作的普遍性

InnerProduct 层的计算 y=Wx+bfcy = Wx + b_{fc} 可能包含一个偏置项 bfcb_{fc}。如果后续 BinaryOp 层仅对每个输出单元加上一个固定的偏置值 BoB_o(来自 MemoryData),即 zo=yo+Boz_o = y_o + B_o,那么这两个加法可以合并为 bfc,o=bfc,o+Bob'_{fc, o} = b_{fc, o} + B_o。将合并后的偏置存入 InnerProduct 层,即可在推理时跳过 BinaryOp,实现优化。


2. 代码实现:复用偏置合并逻辑

fuse_innerproduct_add 的代码实现与 fuse_convolution_add 高度一致,仅层类型匹配不同,再次体现了该融合逻辑的通用性。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
int NetOptimize::fuse_innerproduct_add()
{
const size_t layer_count = layers.size();
for (size_t i = 0; i < layer_count; i++) // 遍历查找 InnerProduct
{
if (layers[i]->type != "InnerProduct") continue;
int top_blob_index = layers[i]->tops[0];

// 查找后续的 BinaryOp (Add, 非标量, 第二输入来自 MemoryData)
// ... (模式匹配代码与 fuse_convolution_add 完全一致) ...
size_t j = i + 1;
// ... (find BinaryOp j) ...
if (j == layer_count) continue;

ncnn::InnerProduct* innerproduct = (ncnn::InnerProduct*)layers[i];
ncnn::BinaryOp* binaryop = (ncnn::BinaryOp*)layers[j];

if (binaryop->op_type != 0 || binaryop->with_scalar) continue; // 必须是 Add, 非标量

size_t k = 0;
// ... (find MemoryData k as the second input of j) ...
if (k == j) continue;

ncnn::MemoryData* memorydata = (ncnn::MemoryData*)layers[k];

// channels 在这里等于 InnerProduct 的输出单元数
int channels = innerproduct->num_output;

// 校验 MemoryData 形状是否符合逐输出单元加偏置
bool broadcasting_type_ok = false;
if (memorydata->w == channels && memorydata->h == 0 && memorydata->c == 0) // [channels]
broadcasting_type_ok = true;
if (memorydata->w == 1 && memorydata->h == 1 && memorydata->c == channels) // [1, 1, channels]
broadcasting_type_ok = true;
if (!broadcasting_type_ok) continue;

fprintf(stderr, "fuse_innerproduct_add %s %s\n", innerproduct->name.c_str(), binaryop->name.c_str());

// --- 参数变换核心 ---
// 1. 将 MemoryData 数据 reshape 成一维偏置向量 B
ncnn::Mat bias_data = memorydata->data.reshape(channels);
{
// 2. 检查 InnerProduct 是否已有偏置
if (innerproduct->bias_term == 0)
{
// 如果没有,直接将 B 作为新的偏置
innerproduct->bias_term = 1;
innerproduct->bias_data = bias_data; // 赋值
}
else
{
// 如果已有偏置 b_fc,则执行逐元素加法 b_fc = b_fc + B
float* bias = innerproduct->bias_data; // 获取指向 b_fc 的指针
for (int ch = 0; ch < channels; ch++)
{
bias[ch] = bias[ch] + bias_data[ch]; // b'_fc = b_fc + B
}
}
} // --- 参数变换结束 ---

// --- 图结构修改 (标准融合操作) ---
int top_blob_index_final = binaryop->tops[0];
innerproduct->tops[0] = top_blob_index_final;
blobs[top_blob_index_final].producer = i;
binaryop->type = "ncnnfused";
// --- 图结构修改结束 ---
}
return 0;
}

关键点:

  • 模式匹配: 查找 InnerProduct -> BinaryOp(Add) 结构,且第二个输入来自符合广播条件的 MemoryData
  • 参数更新: 将 MemoryData 中的偏置数据 bias_data (向量 B) innerproduct->bias_data (向量 bfcb_{fc}) 上。如果 bfcb_{fc} 不存在,则直接用 B 初始化。InnerProduct 的权重矩阵发生改变。
  • 图修改: 标准的重定向连接 + 标记融合操作。

3. 意义:优化全连接部分的线性链

InnerProduct -> Add(per-channel) 模式虽然可能不如 InnerProduct -> BN 常见,但在某些模型转换或特定设计中仍可能出现。fuse_innerproduct_add Pass 的存在,确保了 ncnn 对全连接层后接的常见线性操作(BN, Add)都具备融合优化的能力。


4. 结语

fuse_innerproduct_add 是 ncnn 图优化工具箱中,针对全连接层 (InnerProduct) 线性链优化的补充。它复用了与其他层融合加法相同的逻辑,将逐输出单元的偏置添加操作合并到 InnerProduct 层自身。这进一步体现了 ncnn 图优化策略的系统性和一致性——尽可能地识别并消除计算图中可合并的连续线性变换。通过对各种层类型及其后续线性操作进行细致的融合优化,ncnnoptimize 能够有效地简化网络结构,为模型在端侧设备上的高效部署提供坚实保障。

该封面图片由Abed AbedaljalilPixabay上发布