周鑫的个人博客

2d 卷积梯度推导与实现

Wed, 11 Sep 2024 16:04:00 +0800

符号说明

$$ \begin{align*} X &: 卷积输入，\text{shape} 为[b,h,w,c_{in}]\\ W &: 卷积核，\text{shape}为[a,a,c_{in},c_{out}]\\ s &: 步长\\ f &: 卷积结果，\text{shape}为[b,(h-k)/s+1,(w-k)/s+1,c_{out}]\\ loss &: 损失函数，loss = g(f) \end{align*} $$

约定，所有张量下标从 0 开始。

卷积运算

对于结果矩阵中 f[i,j,k,l]，其卷积的范围（感受野）为：

$$ X[i,js:js+a,ks:ks+a,:] $$

那么卷积运算就可以表示为：

$$ \begin{align*} f[i,j,k,l] &= \sum_{m=0}^{a-1} \sum_{n=0}^{a-1} \sum_{p=0}^{c_{in}-1}(X[i,m+js,n+ks,p]\cdot w[m,n,p,l])\\ &=\vec{x_{vec}}^T \vec{w_{vec}} \end{align*} $$

通过 im2col 技术，可以将卷积运算转换为向量内积。

损失函数对 W 的梯度

前式中，f[i,j,k,l] 对于 w[m,n,p,l] 的梯度贡献只有一项 x[i,m+js,n+ks,p]。我们需要确保 x 的索引有效，因此有如下约束条件：

$$ \begin{cases} 0\leq i < b-1\\ 0\leq m+js < h\\ 0\leq n+ks < w \\ 0\leq p

化简得到符合条件的 ijkl 的约束为：

$$ \begin{cases} 0\leq i < b-1\\ j<(h-m)/s\\ k<(w-n)/s \end{cases} $$

根据链式法则，有：

$$ \begin{align*} \frac{\partial loss}{\partial w[m,n,p,l]} &= \sum_{i=0}^{b-1}\sum_{j=0}^{\lfloor{(h-m)/s-1\rfloor}}\sum_{k=0}^{\lfloor{(w-n)/s-1\rfloor}} \frac{\partial loss}{\partial f[i,j,k,l]}\frac{\partial f[i,j,k,l]}{\partial w[m,n,p,l]}\\ &=\sum_{i=0}^{b-1}\sum_{j=0}^{\lfloor{(h-m)/s-1\rfloor}}\sum_{k=0}^{\lfloor{(w-n)/s-1\rfloor}} \frac{\partial loss}{\partial f[i,j,k,l]} X[i, m+js, n+ks, p] \end{align*} $$

其中 $\partial{loss} /\partial f$ 在反向传播时已经得到了，且 $\partial{loss} /(\partial {f[i,j,k,l]})$ 等于 $(\partial{loss} /\partial {f})[i,j,k,l]$，将 $\partial{loss} /\partial f$ 记为 outgrad。

观察上式，其和我们之前推导的卷积表达式非常像：后两个求和项的索引为 j,k 与结果索引无关，说明其在这两个维度上进行了卷积操作，第一个索引 l 与结果索引有关，说明这是一个向量内积。具体来，这个表达式可以视为卷积操作，卷积核为 loss 对 w 的导数，被卷积对象为 X，batch 的维度在最后一个，做内积的维度在第一个。

对比二式，卷积核为 autograd，卷积的单个感受野内部存在空洞，长宽方向上两个像素之间均隔了 s-1 个长度。这是一种空洞卷积，如下图所示，红色为卷积位置。

$$ \left[ \begin{matrix} {\color[RGB]{240, 0, 0} 1}& 2& {\color[RGB]{240, 0, 0} 3}& 4\\ 5& 6& 7& 8\\ {\color[RGB]{240, 0, 0} 9}& 10& {\color[RGB]{240, 0, 0} 11}& 12\\ 13& 14& 15& 16\\ \end{matrix} \right] $$

怎么实现这个空洞卷积呢？我们可以扩张我们的卷积核 outgrad，即在每一行没一列上都 dilate 填充 s-1 个元素，将 2×2 的的卷积核心扩展成 4×4 的卷积和，按照步长为 1 进行卷积：

$$ \left[ \begin{matrix} w_1& w_2\\ w_3& w_4\\ \end{matrix} \right] \,\,\Longrightarrow \left[ \begin{matrix} w_1& 0& w_2& 0\\ 0& 0& 0& 0\\ w_3& 0& w_4& 0\\ 0& 0& 0& 0\\ \end{matrix} \right] $$

到这里，我们的损失函数对权重的梯度表达式就可以写出来了：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10


X # 输入 [b, h, w, c_in]
W # 卷积核 [a, a, w_in, w_out]
outgrad # loss对输出的梯度
stride # 卷积步长

outgrad_dilated = dilate(outgrad, axis=(1, 2), stride-1) # [b, *, *, c_out]
outgrad_dilated_permuted = permute(outgrad_dilated, (1, 2, 0, 3)) # [*, *, b, cout]
X_permuted = permute(X, (3, 1, 2, 0)) # [c_in, h, w, b]
W_grad_ = conv(X_permuted, outgrad_dilated_permuted) #[c_in, h, w, c_out]
W_grad = permute(W_grad_, (1, 2, 0, 3))

对于 padding 不为 1 的情况，我们直接从 shape 来考虑。在正向过程中，可以直接假定 padding 为 0，输入为 pad 后新的输入。根据这一等价转换，conv(X_permuted, outgrad_dilated_permuted) 这一步得到中 X_permuted 是根据真实的 X 得到，而 outgrad 是等价的 X 得到的，作为卷积核的 outgrad 其偏大了 2padding，因此在卷积这一步中要指定 padding=2padding：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11


X # 输入 [b, h, w, c_in]
W # 卷积核 [a, a, w_in, w_out]
outgrad # loss对输出的梯度
stride # 卷积步长
padding # 

outgrad_dilated = dilate(outgrad, axis=(1, 2), stride-1) # [b, *, *, c_out]
outgrad_dilated_permuted = permute(outgrad_dilated, (1, 2, 0, 3)) # [*, *, b, cout]
X_permuted = permute(X, (3, 1, 2, 0)) # [c_in, h, w, b]
W_grad_ = conv(X_permuted, outgrad_dilated_permuted, padding=2*padding) #[c_in, h, w, c_out]
W_grad = permute(W_grad_, (1, 2, 0, 3))

损失函数对 X 的梯度

有了上面的基础，我们来讨论 loss 对 X 的梯度。首先来讨论一点，对于 X[i,j,k,l]，如果其与 w[m,n,l,p] 相乘了，那么其应该在计算卷积 f[i,(j-m)/s,(k-n)/s,p] 的结果，即：

$$ f[i,(j-m)/s,(k-n)/s,p] = \sum_{p=0}^{c_{out}-1}w[m,n,l,p]\cdot X[i,j,k,l] $$

那么 loss 对于 X[i,j,k,l] 的梯度，只有 f[i,(j-m)/s,(k-n)/s,p] 对其有贡献，且贡献为 w[m,n,l,p]。

接下来可以推导 loss 对于 X[i,j,k,l] 的表达式：

$$ \begin{align*} \frac{\partial loss}{\partial X\left[ i,j,k,l \right]} &=\sum_{m=0}^{a-1}{\sum_{n=0}^{a-1}{\sum_{p=0}^{c_{out}}{\frac{\partial loss}{\partial f[i,(j-m)/s,(k-n)/s,p]}\cdot \frac{\partial f[i,(j-m)/s,(k-n)/s,p]}{\partial X\left[ i,j,k,l \right]}}}} \\ &=\sum_{m=0}^{a-1}{\sum_{n=0}^{a-1}{\sum_{p=0}^{c_{out}}{\frac{\partial loss}{\partial f[i,(j-m)/s,(k-n)/s,p]}w\left[ m,n,l,p \right]}}} \end{align*} $$

又是似曾相识的一幕，有了上面的经验，这次分析就游刃有余得多：卷积核是 W，被卷积对象是 autograd，在 autograd 的最后一个维度上进行线性变换，将其从 c_out 映射到 c_in 上。batch 的维度是 W 的第一个维度。在长宽两个维度上，感受野内部每次的步长是 -1，也就是说卷积核第一个元素将与最后一个元素相乘。我们将卷积核 flip 一下即可。聪明的你肯定注意到了，感受野内部不是连续的，两个元素之间间隔了 s-1 个元素，因此也需要将 outgrad 使用 dilate 填充 s-1 个 0 元素。

可达鸭眉头一皱，事情没有这么简单。理论上，这个梯度的 shape 应当与 X 相等，但 outgrad 本来就比 X 小，经过卷积之后应该更小了。怎会如此？我们直接观察 j=0、k=0 的状态，代入上式，会发现我们对 outgrad 的索引为负值了。这时候就需要将 outgrad 周围填充 a-1 个元素。

到这里，我们的损失函数对输入的梯度表达式就可以写出来了：

1
2
3
4
5
6
7
8
9


X # 输入 [b, h, w, c_in]
W # 卷积核 [a, a, w_in, w_out]
outgrad # loss对输出的梯度
stride # 卷积步长

W_flipped = flip(W, axis=(0,1)) # 在前两个维度上翻转stride
W_flipped_permuted = permute(W_flipped, axis=(0,1,3,2)) # [a, a, w_out, w_in]
outgrad_dilated = dilate(outgrad, axis=(1, 2), stride-1) # dilate填充stride-1个0
W_grad = conv(outgrad_dilated, W_flipped_permuted, padding=a-1) # [b, h, w, c_in]

对于 padding 不为 1 的情况，我们一样从 shape 来考虑。conv(outgrad_dilated, W_flipped_permuted, padding=a-1) 这一句中 outgrad 偏大 2padding，W 无偏，因此 padding 数要少一倍的 padding：

1
2
3
4
5
6
7
8
9


X # 输入 [b, h, w, c_in]
W # 卷积核 [a, a, w_in, w_out]
outgrad # loss对输出的梯度
stride # 卷积步长

W_flipped = flip(W, axis=(0,1)) # 在前两个维度上翻转stride
W_flipped_permuted = permute(W_flipped, axis=(0,1,3,2)) # [a, a, w_out, w_in]
outgrad_dilated = dilate(outgrad, axis=(1, 2), stride-1) # dilate填充stride-1个0
W_grad = conv(outgrad_dilated, W_flipped_permuted, padding=a-1-padding) # [b, h, w, c_in]

参考文档

Backpropagation through a Conv Layer

在VSCode中对CUDA和Python代码进行联合调试

Sat, 24 Aug 2024 19:29:00 +0800

在 cmu10414 hw3 的最后实现矩阵乘法的算子的时候靠肉眼和 printf 实在是调不通，研究了一下怎么在 VSCode 中联合调试 CUDA 和 Python 代码，特此记录。

项目准备

原项目中将 CUDA 代码编译为 so 动态链接库供 Python 调用，使用 cmake 进行构建。这里我们来构建一个最小样例进行调试。

整个项目的目录树为：

1
2
3
4
5
6
7


.
├── CMakeLists.txt
├── python
│   └── test_cuda_hello.py
└── src
    ├── cuda_hello.cu
    └── pybind_wrapper.cpp

其中，cuda_hello.cu 是待调试的 CUDA 代码，里面定义了一个核函数和一个主机端调用接口：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10


#include 

__global__ void cuda_hello_kernel() {
    printf("Hello from CUDA kernel!\n");
}

extern "C" void launch_cuda_hello() {
    cuda_hello_kernel<<<1, 1>>>();
    cudaDeviceSynchronize();
}

pybind_wrapper.cpp 使用 pybind11 将这个函数注册到 Python 中：

1
2
3
4
5
6
7


#include 

extern "C" void launch_cuda_hello();

PYBIND11_MODULE(cuda_hello, m) {
    m.def("hello", &launch_cuda_hello, "A function that launches a CUDA kernel to print Hello");
}

在 test_cuda_hello.py 文件中，我们将通过动态链接库导入 hello_cuda 这个包，并调用其中的 launch_cuda_hello 函数：

1
2
3
4
5
6
7
8


import sys
import os

# 将 build 目录添加到 Python 路径
sys.path.append(os.path.abspath(os.path.join(os.path.dirname(__file__), '../build')))
import cuda_hello

cuda_hello.hello()

注意我们编译出的动态链接库文件在 build 目录下，因此要先将该目录添加到 Python 的搜索路径再导入。

CMakeLists.txt 文件内容为，各代码含义见注释：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46


# 设置 CMake 的最低版本要求
cmake_minimum_required(VERSION 3.18)

# 设置构建类型为 Debug
set(CMAKE_BUILD_TYPE Debug)

# 设置 CUDA 主机编译器为 g++
set(CMAKE_CUDA_HOST_COMPILER /usr/bin/g++)

# 定义项目名称和支持的语言
project(CudaHello CUDA CXX)

# 设置 C++ 标准为 C++14
set(CMAKE_CXX_STANDARD 14)

# 设置 CUDA 标准为 C++14
set(CMAKE_CUDA_STANDARD 14)

# 启用 CUDA 语言支持
enable_language(CUDA)

# 设置 CUDA 架构（根据 GPU 调整这个值）
set(CUDA_ARCHITECTURES 89)

# 查找 Python 解释器和开发组件
find_package(Python COMPONENTS Interpreter Development REQUIRED)

# 查找 pybind11 包
find_package(pybind11 CONFIG REQUIRED)

# 添加 CUDA 文件并创建共享库
add_library(cuda_functions SHARED src/cuda_hello.cu)

# 设置目标属性，指定 CUDA 架构
set_target_properties(cuda_functions PROPERTIES CUDA_ARCHITECTURES ${CUDA_ARCHITECTURES})

# 如果是 Debug 模式，为 CUDA 编译器添加调试选项
if(CMAKE_BUILD_TYPE STREQUAL "Debug")
    target_compile_options(cuda_functions PRIVATE $<$>:-G -g>)
endif()

# 创建 pybind11 模块
pybind11_add_module(cuda_hello src/pybind_wrapper.cpp)

# 将 CUDA 函数库链接到 pybind11 模块
target_link_libraries(cuda_hello PRIVATE cuda_functions)

有几个需要注意的点：set(CUDA_ARCHITECTURES 89) 显卡架构的参数应该根据自己显卡的型号的 CC 来填，各显卡 CC 值见 NVIDIA 官网：CUDA GPUs - Compute Capability | NVIDIA Developer；target_compile_options(cuda_functions PRIVATE $<$:-G -g>) 用于在给 nvcc 指定编译参数 -g -G，确保其编译出的主机端和设备端代码都包含调试信息。

准备完以上文件，执行如下命令编译共享库：

1
2
3
4


mkdir build
cd build
cmake ..
make

编译结束后，在 build 文件夹应该会出现一个文件名类似于 cuda_hello.cpython-3x-x86_64-linux-gnu.so（Windows 平台后缀为 .pyd）的共享库，说明编译成功。

然后执行 test_cuda_hello.py 文件，应该就能看到来自 GPU 的输出 Hello from CUDA kernel!。

万事俱备，接下来开始调试！

手动调试

NVIDIA 提供了 cuda-gdb 工具对 cuda 代码进行调试，具体调试过程为：

在终端输入 cuda-gdb python --quite，启动 cuda-gdb 调试器，对 Python 解释器进行调试；
在 cuda-gdb 交互终端中设置断点，例如 break cuda_hello_kernel 为 cuda_hello_kernel 函数设置断点，或者 break src/cuda_hello.cu:4 在 cuda_hello.cu 文件的第 4 行打上断点；
在交互终端输入 run python/test_cuda_hello.py 执行 Python 解释器，并将 py 文件作为参数传递给它。稍等一会，程序将在断点处停下，并提示：CUDA thread hit Breakpoint 1, cuda_hello_kernel<<<(1,1,1),(1,1,1)>>> ()

之后按照正常的 gdb 工具调试即可。

配置 VSCode 进行调试

前面已经实现了使用 cuda-gdb 工具进行调试，但我对 gdb 工具不太了解，只会使用基于 GUI 的调试工具。接下来我们配置 VSCode，使之支持对 CUDA 和 Python 代码联合调试。

首先安装插件 Nsight Visual Studio Code Edition，此插件由 NVIDIA 开发，用于在 VSCode 中支持对 CUDA 代码的调试 ¹。

编辑 .vscode/launch.json 文件，输入如下内容，并修改其中 Python 解释器路径为正确值：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26


{
    "version": "0.2.0",
    "configurations": [
        {
            "name": "Python: Launch",
            "type": "python",
            "request": "launch",
            "program": "${file}",
            "console": "integratedTerminal"
        },
        {
            "name": "CUDA GDB Server: Launch",
            "type": "cuda-gdb",
            "request": "launch",
            "program": "path/to/python", //修改为Python路径
            "args": ["${file}"],
            "debuggerPath": "/usr/local/cuda/bin/cuda-gdb", // 确认cuda-gdb路径正确
        }
    ],
    "compounds": [
    {
        "name": "Python and CUDA",
        "configurations": ["Python: Launch", "CUDA GDB Server: Launch"]
    }
]
}

上面这个文件由三部分组成，第一部分定义了 Python 调试器的相关配置，第二部分定义 cuda-gdb 调试器的配置，第三部分使用 compounds 将两个调试配置组装成一个，在调试时将同时启动这两个调试器。

接下来在 VSCode 中切换到 Run and Debug 面板，并修改调试配置为 Python and CUDA，如下图所示：

然后在 py 和 CUDA 文件中打上断点，在py 文件中按下快捷键 F5 开始调试，代码将在断点处停下：

继续运行，其将在 CUDA 断点处停下：

参考文档

NVIDIA Nsight VSCE Documentation ↩︎

Programming Massively Parallel Processors A Hands-on Approach 4th Edition 学习笔记

Mon, 12 Aug 2024 22:46:00 +0800

资源存档

Chapter 1: Introduction 简介

应用程序需求的算力和 CPU 能够提供的算力一直是一对相互促进的矛盾。上世纪八九十年代，通过不断提高单核频率和每个时钟周期执行的活动数让算力达到了 TFLOPS 的级别。然而，到了 21 实际，由于功率和散热限制，难以通过提升频率进一步提高算力。这种情况下，多核 CPU 就应运而生了。多核 CPU 可以同时执行多个指令序列，因此应用程序也必须将任务分为多个部分以便在多个核心上同时执行。如果不针对多核进行优化，那程序很难享受到多核带来的算力提升。

这类能够享受到多核性能提升的程序被称为并行程序 parallel programs。

1.1 Heterogeneous parallel computing 异构并行计算

2003 年，在处理的进化道路上出现了一个分岔口。

一种以多核 multicore 见长，每个核心都是完整的一个单核 CPU，这就是现代的多核 CPU。例如 Intel 发布的最新处理器中，往往具有十几个核心，每个核心都具有超线程能力，并且完整实现了 x86 指令集。

另一种以多线程 many-thread 见长，能够同时执行非常非常多的线程，往往具有极强的浮点计算能力，这就是现代 GPU。例如 NVDIA 发布的 A100 GPU 中，其双精度浮点算力达到 9.7 TFLOPS，同期的Intel 24核处理器只有 0.66 TFLOPS。

如下图所示，这一差异源自二者设计理念的差别。CPU为了支持顺序执行指令序列，其在设计时最小化了算数运算的延迟，并且提供了很大的末级缓存以便快速存取大量数据，还应用了许多复杂分支预测和执行控制逻辑技术来减少分支指令带来的延迟。上述技术消耗了大量的芯片面积和功耗，这种设计理念被称为面向延迟的设计。与之相反的是GPU的设计理念，即面向吞吐量的设计。GPU的快速发展起初是由电子游戏推动的，每个游戏帧的渲染都需要计算大量浮点数，因此GPU最大化了浮点数的计算单元。

对于GPU而言，同时进行大量的浮点计算是重要的，但是同时大量访存这一点也很重要。GPU要能够在内存中快速移动大量数据。GPU通常可以接受宽松内存模型¹。

丧心病狂的芯片研发人员为了榨取更多的性能，在PSO模型基础上，更进一步的放宽了内存一致性模型，不仅允许store-load，store-store乱序。还进一步允许load-load，load-store乱序，只要是地址无关的指令，在读写访问的时候都可以打乱所有load/store的顺序，这就是宽松内存模型（RMO）。

然而，作为通用处理器的CPU为了满足各类应用程序、老旧OS、IO设备等的要求，在内存上就不能这么激进了。通常，GPU的内存带宽能够达到CPU的10倍。

通常来说，提高减少延迟比提高吞吐量要困难，通过让计算单元翻倍就能让吞吐量翻倍。GPU为了提高吞吐量，增大了算术元件和内存的延迟。

GPU应用程序需要有大量的并行线程，当在等待内存数据时，GPU的其它线程可以用于查找接下来要完成的任务。这类设计模式被称为面向吞吐量设计。

GPU执行吞吐量很高，然而其并不擅长CPU所擅长的领域，因此，在英伟达2007年引入的CUDA模型中，其支持CPU-GPU联合执行。

在CUDA出现之前，与GPU交互的接口为OpenGL和Direct 3D，它们都是用于绘制像素的API，即便是用GPU来计算，其底层仍是这些与像素相关的接口。这种技术被称为GPGPU，general purpose GPU。

在CUDA推出以后，GPU计算不再需要调用图形接口，而是由专用的通用计算接口。

1.2 Why more speed or parallelism 为什么要并行化？

现在普通应用已经运行得足够快了，为什么还要并行化？事实上，在很多任务中，运行速度仍是瓶颈。得益于GPU的迅速发展，科学计算、视频、电子游戏、深度学习等也繁荣起来。

以上种种应用都有一个特点，就是有大量的数据需要处理。这种情况下，可以并行执行大数据处理任务，以显著提升执行效率。

1.3 Speeding up real applications 加速实际应用

如何评价并行化后的加速倍率？我们通过比较加速前后的运行时间即可，通过加速将运行时间从200秒减少到10秒，那我们就称加速倍率为20×。

一个应用程序的加速倍率，取决于该程序能够并行化的部分的比例。例如，如果一个程序有30%的部分可以实现100×加速，那么这个程序的执行时间最多只能降低29.7%，整体加速效果为1.42×。一个系统的加速效果严重受制于可加速的部分的比例，这一定律被称为阿姆达尔定律。

另一个制约加速倍率的因素是内存带宽，因此在并行技术中一个重要方面就是尽可能减少主机内存访存次数，改为访问GPU显存。

1.4 Challenges in parallel programming 并行编程中的挑战

编写并行程序可能很难，有些并行程序需要完成的任务可能有很多，甚至比原始版本跑得还慢。主要困难有以下几个方面。

编写并行算法的思维方式和惯用的顺序执行的算法思维方式完全不同。
并行算法很容易受到内存贷款瓶颈。
并行化的算法对于输入数据的特征更加敏感。
并行化的算法不同线程之间可能需要协作，而这些线程之前的同步也会带来额外开销。

在过去几十年中，有不少并行编程语言和模型被提出。对于共享内存的多处理器系统，最常用的是OpenMP，对于可扩展集群计算，最常用的是Message Passing Interface （MPI）。

OpenMP由编译器和运行时两部分组成。程序员通过在代码中指定指令directives和编译指示pragmas，编译器可以生成并行代码，运行时负责通过管理线程和资源以支持并行运行。OpenMP通过提供自动编译和运行时支持使得程序员们不需要考虑并行编程的细节，也方便在不同的系统/架构中迁移

在MPI中，同一个簇内的计算节点不共享内存，所有的数据和信息通过消息传递机制进行，MPI适合超大规模的HPC集群（节点超过10万个）。由于不共享内存，对于输入输出的分割工作，大部分由编程人员来完成。与之相反，CUDA提供了共享内存。

2009年，工业界几个巨头，包括苹果、因特尔、AMD和英伟达一起开发了一个标准编程模型OpenCL。

1.6 Overarching goals 首要目标

最首要的目标是实现在大规模并行编程中的高性能编程。本书会涉及一些对硬件架构的直觉上的理解，一些计算思维，即以适合大规模并行处理器的执行方式来思考问题。

第二个目标是在并行编程中实现正确的功能和可靠性。CUDA提供了一系列工具来对代码的功能和性能瓶颈进行Debug。

第三个目标是实现对未来更高性能的硬件的可扩展性。这种可扩展性是通过规范化和本地化内存，以减少在更新数据结构中对关键资源的读写和冲突来实现的。

1.7 Organization of the book 本书的架构

略。

Chapter 2: Heterogeneous data parallel computing 异构数据并行计算

2.1 Data parallelism 数据并行化

数据彼此独立是数据并行化的基础，通过对计算任务的重新组织，可以将数据并行化，进而获得可观的加速效果。以将像素灰度化举个例子，通过如下公式来计算灰度值：

$$ L = 0.21 \times R+0.72\times G+0.03 \times B $$

在上述公式中，一个位置的灰度值仅仅依赖于相同位置的RGB值，显然不同位置之间的灰度化过程是彼此独立的，因而可以进行并行化。

2.2 CUDA C program structure CUDA C 程序结构

CUDA C在ANSI C语法的基础上，通过添加新的语法和库函数使得程序员能够针对包含有CPU和GPU的异构计算系统进行编程。

CUDA C程序的结构体现出主机host（CPU）和设备device（GPU）是在一个计算机上共存的。一个CUDA C源文件可能混合有主机和设备代码，也可以认为一个纯C文件就是一个仅含有主机代码的CUDA C文件。

CUDA程序的执行过程如下图所示，从主机代码开始，然后调用设备代码。核函数将会调用很多threads来执行，由一个kernel调用的所有线程的集合被称为grid。当所有线程执行结束，程序执行又回到主机代码，直到结束或者调用另一个设备代码。

注意，上图是一个简化的模型，事实上在很多异构应用中，CPU和GPU执行过程可能重叠。

在灰度化的例子中，一个像素的灰度化可能由一个线程负责，那么图片越大，完成这个任务的线程数也就越多。得益于优秀的硬件支持，开发人员可以认为线程的创建和调度只需要几个时钟周期。而在CPU 线程中，这一过程需要几千个时钟周期。

2.3 A vector addition kernel 向量加法核函数

向量加法在并行编程中的地位就像Hello World 在顺序编程中一样。在顺序编程中，通过一个循环来实现向量加法。

向量加法由三部分构成，将数据从host搬运到device，计算，再将数据从device搬运到host。理论上来说，如果将搬运任务交给设备代码完成，那么对于设备来说，这个计算过程就是全透明的。但实际上，这部分任务由主机代码负责。

2.4 Device global memory and data transfer 设备全局内存和数据搬运

在device中，其一般都是带有自己的RAM，被称为全局内存。前面提到，在device计算前后，数据要从host mem 搬运到gloabl mem，这一过程由运行在host上的CUDA运行时提供的API来完成。

有两个API用于申请和释放内存。cudaMalloc用于申请内存，参数为一个指针的地址和内存大小（单位：字节），分配好的内存首地址将被写入传入的指针。cudaFree用于释放内存。在主机代码中不得解引用device mem，这会导致异常或者其它运行时错误。

内存分配结束后，就可以将数据从host mem拷贝到global mem。使用的是cudaMemcpy ( void* dst, const void* src, size_t count, cudaMemcpyKind kind )这个API，包括四个参数：目的地址、源地址、字节数、类型。类型字段用于指定拷贝的方向，有四种方向host/device to host/device，

参考

内存一致性模型 | jiang ↩︎

LogSumExp梯度推导

Sat, 20 Jul 2024 11:08:00 +0800

前言

在 CMU 10-414/714 Deep Learning System 第二个 homework 有一个小任务要对数值稳定形式的 LogSumExp 的梯度进行推导，查阅了不少资料 ¹，琢磨好半天才搞懂，特此记录。

推导过程

符号说明

推导过程中使用的符号说明如下：

$$ \begin{align*} z &\in \mathbb{R}^n\\ z_k &= \max{z}\\ \hat{z} &= z - \max{z}\\ f &= \log{\sum_{i=1}^n{\exp{(z_i - \max{z})}}+\max{z}}\\ &=\log{\sum_{i=1}^n\exp\hat{z}_i}+z_k \end{align*} $$

非最大情况推导

当 $z_j\neq z_k$ 时，$\frac{\partial{f}}{\partial{z_j}}$ 推导如下：

$$ \begin{align*} \frac{\partial{f}}{\partial{z_j}} &=\frac{\partial{(\log{\sum_{i=1}^n\exp\hat{z}_i)}}}{\partial z_j} + \frac{\partial z_k}{\partial{z_j}} \\ &= \frac{\partial{(\log{\sum_{i=1}^n\exp\hat{z}_i)}}}{\sum_{i=1}^n\exp\hat{z}_i}\cdot \frac{\sum_{i=1}^n\exp\hat{z}_i}{\partial{z_j}}+0 \\ &=\frac{1}{\sum_{i=1}^n\exp\hat{z}_i}\cdot(\sum_{i\neq j} \frac{\partial\exp{\hat z_i}}{\partial z_j}+\frac{\partial \exp{\hat z_j}}{\partial z_j}) \\ &=\frac{1}{\sum_{i=1}^n\exp\hat{z}_i}\cdot(0+\exp{\hat{z}_j}) \\ &=\frac{\exp{\hat{z}_j}}{\sum_{i=1}^n\exp\hat{z}_i} \end{align*} $$

最大情况推导

当 $z_j= z_k$ 时，$\frac{\partial{f}}{\partial{z_j}}$ 推导如下：

$$ \begin{align*} \frac{\partial{f}}{\partial{z_j}} &=\frac{\partial{(\log{\sum_{i=1}^n\exp\hat{z}_i)}}}{\partial z_j} + \frac{\partial z_k}{\partial{z_j}} \\ &= \frac{\partial{(\log{\sum_{i=1}^n\exp\hat{z}_i)}}}{\sum_{i=1}^n\exp\hat{z}_i}\cdot \frac{\sum_{i=1}^n\exp\hat{z}_i}{\partial{z_j}}+1 \\ &=\frac{1}{\sum_{i=1}^n\exp\hat{z}_i}\cdot [\sum_{z_i \neq z_k}{\frac{\partial \exp{(z_i-z_k)}}{\partial z_j}}+\sum_{z_i=z_k}{\frac{\partial \exp{(z_i-z_k)}}{\partial z_j}}]+1\\ &\text{注意，上式中有}z_j=z_k\\ &=\frac{1}{\sum_{i=1}^n\exp\hat{z}_i}\cdot[\sum_{z_i \neq z_k}{-\exp(z_i-z_k)}+0]+1 \\ &= 1-\frac{\sum_{z_i \neq z_k}{\exp(z_i-z_k)}}{\sum_{i=1}^n\exp\hat{z}_i} \\ &=\frac{\exp{\hat{z}_j}}{\sum_{i=1}^n\exp\hat{z}_i} \end{align*} $$

一般情况

注意到无论 $z_j$ 是不是最大值，都有：

$$ \frac{\partial{f}}{\partial{z_j}}=\frac{\exp{\hat{z}_j}}{\sum_{i=1}^n\exp\hat{z}_i} $$

这里我们讨论的是 $f\in \mathbb{R}$ 且 $z\in\mathbb{R}^n$ 的情况，实际情况中，$f$ 和 $z$ 都是高维张量，我们要求 $z$ 关于 $z$ 的梯度，即 $\nabla_z f$。

代码实现

首先感谢 yofufufufu 的不吝赐教，代码实现主要参考他的解释 ²。我们继续来化简公式：

$$ \begin{align*} \frac{\partial{f}}{\partial{z_j}} &=\frac{\exp{\hat{z}_j}}{\sum_{i=1}^n\exp\hat{z}_i}\\ &=\exp(z_j - \log \sum_{i=1}^n\exp\hat{z}_i)\\ &=\exp(z_j - f) \end{align*} $$

惊喜地发现，LogSumExp 这个函数的梯度可以用其输入和输出来表示，那在代码实现中，只要获取该节点的输入和输出就可以计算出梯度，即在 cmu10414 课程，该节点实现如下：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18


class LogSumExp(TensorOp):
    def __init__(self, axes: Optional[tuple] = None):
        self.axes = axes

    def compute(self, Z):
        ### BEGIN YOUR SOLUTION
        max_z = array_api.max(Z, axis=self.axes, keepdims=True)
        return array_api.log(array_api.sum(array_api.exp(Z - max_z), axis=self.axes)) + max_z.squeeze()
        ### END YOUR SOLUTION

    def gradient(self, out_grad, node):
        ### BEGIN YOUR SOLUTION
        if self.axes is None:
            self.axes = tuple(range(len(node.inputs[0].shape)))
        z = node.inputs[0]
        shape = [1 if i in self.axes else z.shape[i] for i in range(len(z.shape))]
        gradient = exp(z - node.reshape(shape).broadcast_to(z.shape))
        return out_grad.reshape(shape).broadcast_to(z.shape)*gradient

参考资料

使用ssh远程连接wsl2

Wed, 17 Jul 2024 17:26:00 +0800

概述

wsl2 使得 Windows 用户可以很方便地访问 Linux 环境，微软也在 vscode 中提供了相应的插件支持。但 wsl2 一般都是通过本地访问的，微软似乎没有直接提供远程访问 wsl2 的方式。

经过一番摸索，远程访问 wsl2 主要有以下几个步骤：

【非必需】启用 windows 中的 ssh 服务器
启用并配置 wsl2 中的 ssh 服务
开放防火墙
修改 wsl2 网络模式

详细步骤

【非必需】启用 windows 中的 ssh 服务器

在摸索过程中发现，windows 也是支持通过 ssh 远程连接的，想要 ssh 到 wsl2，自然就有一种曲线救国的方案，即先通过 ssh 连接到 windows 宿主机，然后通过终端进入 wsl2。理论可行，实践如下：

启用 ssh 服务器
windows 中 ssh 服务器启用可参考官方文档 ¹，写的很详细。以 Windows 11 为例，在 powershell【使用系统默认版本，powershell 7.4.3 无法正确执行】中以管理员身份执行以下命令即可启用 ssh 服务器：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17


# 安装OpenSSH客户端
Add-WindowsCapability -Online -Name OpenSSH.Client~~~~0.0.1.0

# 安装OpenSSH服务器
Add-WindowsCapability -Online -Name OpenSSH.Server~~~~0.0.1.0

# 启用sshd服务
Start-Service sshd
Set-Service -Name sshd -StartupType 'Automatic'

# 确认防火墙规则被自动配置
if (!(Get-NetFirewallRule -Name "OpenSSH-Server-In-TCP" -ErrorAction SilentlyContinue | Select-Object Name, Enabled)) {
    Write-Output "Firewall Rule 'OpenSSH-Server-In-TCP' does not exist, creating it..."
    New-NetFirewallRule -Name 'OpenSSH-Server-In-TCP' -DisplayName 'OpenSSH Server (sshd)' -Enabled True -Direction Inbound -Protocol TCP -Action Allow -LocalPort 22
} else {
    Write-Output "Firewall rule 'OpenSSH-Server-In-TCP' has been created and exists."
}

执行完毕后，可使用 ssh @127.0.0.1 测试能否通过 ssh 连接到 windows 终端。注意，对于 Windows OpenSSH，唯一可用的身份验证方法是 password 和 publickey，即不支持通过 Microsoft 账号验证。

修改默认终端为 powershell
在 windows 中，默认连接的终端为 cmd，可使用命令 echo %COMSPEC% 确认。默认使用的终端由注册表中 HKEY_LOCAL_MACHINE\SOFTWARE\OpenSSH\DefaultShell 决定，使用如下命令可以将其修改为 powershell：

1
2
3


$pwshPath = (Get-Command powershell.exe).Source
$pwshPathQuoted = '"' + $pwshPath + '"'
sudo Set-ItemProperty -Verbose -Path "HKLM:\SOFTWARE\OpenSSH" -Name "DefaultShell" -Value $pwshPathQuoted -Force

注意，默认终端修改为 powershell 7（pwsh.exe）有权限不足的报错，这是因为 pwsh.exe 默认安装在 C\programs files 路径下，该路径需要管理员权限访问。

ssh 安全配置
Windows ssh 服务器的默认配置文件为 %programdata%\ssh\sshd_config，各字段含义参考官方文档 ²³，建议修改默认端口，并使用 AllowUsers 指定允许连接的用户，或者使用 AllowGroups 指定远程连接用户组连接。在配置文件中追加如下内容：

1
2


Port xxxxx # 修改默认端口
AllowGroups "sshUsers" # 仅允许指定组

在上述配置文件中，我们仅允许了 sshUsers 组内用户进行连接，接下来我们创建一个 sshUsers 组，并添加相应成员：

1
2
3
4


restart-Service sshd # 修改配置文件后，重启服务才能生效

net localgroup sshUsers /add # 添加sshUsers组
net localgroup sshUsers <username> /add # 将user添加到该组

此外，还要在防火墙中开放修改的 ssh 服务端口：

1

New-NetFirewallRule -DisplayName '"Allow SSH on Port xxxxx"' -Direction Inbound -Protocol TCP -LocalPort xxxxx -Action Allow

启用并配置 wsl2 中的 ssh 服务

安装/重装 OpenSSH 服务器
无论 wsl2 中是否已经安装好 OpenSSH 服务器，都建议卸载后重装，即执行如下命令：

1
2
3


# 先卸载重装系统自带的sshd
sudo apt-get remove openssh-server
sudo apt-get install openssh-server

ssh 安全配置
wsl2 ssh 服务器默认配置文件为 /etc/ssh/sshd_config，各字段含义参考官方文档 ²，建议修改默认端口，并通过密钥认证登录，即在配置中修改如下配置项内容：

1
2
3
4


Port xxxxx # 修改默认端口
PasswordAuthentication no # 禁用密码认证
PubkeyAuthentication yes # 允许公钥认证
AuthenticationMethods publickey # 仅使用公钥认证

然后将宿主机和其它需要连接到 wsl2 设备的公钥写入 ~/.ssh/authorized_keys 文件。

修改 sshd_config 配置文件后，需要使用命令 sudo service sshd restart 重启服务才会生效。写入公钥后在 windows 宿主机上就可以使用 ssh @127.0.0.1 -p xxxxx 测试能否连接到 wsl2。

开放防火墙

修改端口后，需要在宿主机的防火墙中开放对应的端口，在宿主机的 powershell 中以管理员权限执行如下命令：

1

New-NetFirewallRule -DisplayName '"Allow SSH on Port xxxxx"' -Direction Inbound -Protocol TCP -LocalPort xxxxx -Action Allow

修改 wsl2 网络模式

wsl2 的默认网络模式是 NAT⁴，在此模式下：

windows 可以使用 localhost 访问 wsl2 网络应用
wsl2 需要通过获取主机 ip 访问 windows 应用
局域网设备需要通过主机端口转发访问 wsl2 应用

在运行 Windows 11 22H2 及更高版本的宿主机上，wsl2 支持镜像网络模式，在此模式下，windows 主机可以使用 localhost 访问 wsl2 网络应用，局域网设备可以直接使用宿主机 ip 访问 wsl2 网络应用。

wsl2 配置文件路径为 %UserProfile%/.wslconfig，修改为以下内容：

1
2
3
4
5


[experimental]
networkingMode=mirrored
dnsTunneling=true
firewall=true
autoProxy=true

上述配置中还启用了自动代理、防火墙和 dns 隧道。修改完成后，重启 wsl 即可应用该配置：

1
2


wsl --shutdown
wsl

至此，我们就可以在局域网内使用 ssh 连接宿主机上的 wsl2，如果想在外网连接，可以使用 zerotier 异地组网，可参考文章搭建ZeroTier MOON服务器 | 周鑫的个人博客。

参考文档

在PaperMod中引入侧边目录和阅读进度显示

Mon, 08 Jul 2024 20:04:00 +0800

概述

在 PaperMod 中，目录的默认行为是在文章前展示，在阅读过程中无法利用其帮助定位或者精确跳转到某一部分，侧边目录能够很好解决上述痛点。此外，阅读进度百分比也能够帮助读者定位阅读位置，还能让网页显得更灵动一点。

实现方案主要借鉴自 Sulv’s Blog，其中侧边目录其博文 ¹ 介绍的方法对长目录支持不太友好，不会自动滚动到正在阅读的内容，本文对此进行了改进。百分比显示实现的方案来自其博客的源码。

实现效果如下图所示：

步骤

侧边目录

在 PaperMod 中，目录相关的 html 代码定义在 layouts/partials/toc.html 中，为了修改它，只要创建一个 /layouts/partials/toc.html 覆盖即可，在其中粘贴如下代码：

  1
  2
  3
  4
  5
  6
  7
  8
  9
 10
 11
 12
 13
 14
 15
 16
 17
 18
 19
 20
 21
 22
 23
 24
 25
 26
 27
 28
 29
 30
 31
 32
 33
 34
 35
 36
 37
 38
 39
 40
 41
 42
 43
 44
 45
 46
 47
 48
 49
 50
 51
 52
 53
 54
 55
 56
 57
 58
 59
 60
 61
 62
 63
 64
 65
 66
 67
 68
 69
 70
 71
 72
 73
 74
 75
 76
 77
 78
 79
 80
 81
 82
 83
 84
 85
 86
 87
 88
 89
 90
 91
 92
 93
 94
 95
 96
 97
 98
 99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192


{{- $headers := findRE "<h[1-6].*?>(.|\n])+?</h[1-6]>" .Content -}}
{{- $has_headers := ge (len $headers) 1 -}}
{{- if $has_headers -}}
<aside id="toc-container" class="toc-container wide">
    <div class="toc">
        <details {{if (.Param "TocOpen") }} open{{ end }}>
            <summary accesskey="c" title="(Alt + C)">
                <span class="details">{{- i18n "toc" | default "Table of Contents" }}span>
            summary>

            <div class="inner">
                {{- $largest := 6 -}}
                {{- range $headers -}}
                {{- $headerLevel := index (findRE "[1-6]" . 1) 0 -}}
                {{- $headerLevel := len (seq $headerLevel) -}}
                {{- if lt $headerLevel $largest -}}
                {{- $largest = $headerLevel -}}
                {{- end -}}
                {{- end -}}

                {{- $firstHeaderLevel := len (seq (index (findRE "[1-6]" (index $headers 0) 1) 0)) -}}

                {{- $.Scratch.Set "bareul" slice -}}
                <ul>
                    {{- range seq (sub $firstHeaderLevel $largest) -}}
                    <ul>
                        {{- $.Scratch.Add "bareul" (sub (add $largest .) 1) -}}
                        {{- end -}}
                        {{- range $i, $header := $headers -}}
                        {{- $headerLevel := index (findRE "[1-6]" . 1) 0 -}}
                        {{- $headerLevel := len (seq $headerLevel) -}}

                        {{/* get id="xyz" */}}
                        {{- $id := index (findRE "(id=\"(.*?)\")" $header 9) 0 }}

                        {{- /* strip id="" to leave xyz, no way to get regex capturing groups in hugo */ -}}
                        {{- $cleanedID := replace (replace $id "id=\"" "") "\"" "" }}
                        {{- $header := replaceRE "<h[1-6].*?>((.|\n])+?)</h[1-6]>" "$1" $header -}}

                        {{- if ne $i 0 -}}
                        {{- $prevHeaderLevel := index (findRE "[1-6]" (index $headers (sub $i 1)) 1) 0 -}}
                        {{- $prevHeaderLevel := len (seq $prevHeaderLevel) -}}
                        {{- if gt $headerLevel $prevHeaderLevel -}}
                        {{- range seq $prevHeaderLevel (sub $headerLevel 1) -}}
                        <ul>
                            {{/* the first should not be recorded */}}
                            {{- if ne $prevHeaderLevel . -}}
                            {{- $.Scratch.Add "bareul" . -}}
                            {{- end -}}
                            {{- end -}}
                            {{- else -}}
                            li>
                            {{- if lt $headerLevel $prevHeaderLevel -}}
                            {{- range seq (sub $prevHeaderLevel 1) -1 $headerLevel -}}
                            {{- if in ($.Scratch.Get "bareul") . -}}
                        ul>
                        {{/* manually do pop item */}}
                        {{- $tmp := $.Scratch.Get "bareul" -}}
                        {{- $.Scratch.Delete "bareul" -}}
                        {{- $.Scratch.Set "bareul" slice}}
                        {{- range seq (sub (len $tmp) 1) -}}
                        {{- $.Scratch.Add "bareul" (index $tmp (sub . 1)) -}}
                        {{- end -}}
                        {{- else -}}
                    ul>
                    li>
                    {{- end -}}
                    {{- end -}}
                    {{- end -}}
                    {{- end }}
                    <li>
                        <a href="#{{- $cleanedID -}}" aria-label="{{- $header | plainify -}}">{{- $header | safeHTML -}}a>
                        {{- else }}
                    <li>
                        <a href="#{{- $cleanedID -}}" aria-label="{{- $header | plainify -}}">{{- $header | safeHTML -}}a>
                        {{- end -}}
                        {{- end -}}
                        
                        {{- $firstHeaderLevel := $largest }}
                        {{- $lastHeaderLevel := len (seq (index (findRE "[1-6]" (index $headers (sub (len $headers) 1)) 1) 0)) }}
                    li>
                    {{- range seq (sub $lastHeaderLevel $firstHeaderLevel) -}}
                    {{- if in ($.Scratch.Get "bareul") (add . $firstHeaderLevel) }}
                ul>
                {{- else }}
                ul>
                li>
                {{- end -}}
                {{- end }}
                ul>
            div>
        details>
    div>
aside>
<script>
    let activeElement;
    let elements;
    
    document.addEventListener('DOMContentLoaded', function (event) {
        checkTocPosition();
    
        elements = document.querySelectorAll('h1[id],h2[id],h3[id],h4[id],h5[id],h6[id]');
        if (elements.length > 0) {
            // Make the first header active
            activeElement = elements[0];
            const id = encodeURI(activeElement.getAttribute('id')).toLowerCase();
            document.querySelector(`.inner ul li a[href="#${id}"]`).classList.add('active');
        }
    
        // Add event listener for the "back to top" link
        const topLink = document.getElementById('top-link');
        if (topLink) {
            topLink.addEventListener('click', (event) => {
                // Prevent the default action
                event.preventDefault();
    
                // Smooth scroll to the top
                window.scrollTo({ top: 0, behavior: 'smooth' });
            });
        }
    }, false);
    
    window.addEventListener('resize', function(event) {
        checkTocPosition();
    }, false);
    
    window.addEventListener('scroll', () => {
        // Get the current scroll position
        const scrollPosition = window.pageYOffset || document.documentElement.scrollTop;
    
        // Check if the scroll position is at the top of the page
        if (scrollPosition === 0) {
            return;
        }
    
        // Ensure elements is a valid NodeList
        if (elements && elements.length > 0) {
            // Check if there is an object in the top half of the screen or keep the last item active
            activeElement = Array.from(elements).find((element) => {
                if ((getOffsetTop(element) - scrollPosition) > 0 && 
                    (getOffsetTop(element) - scrollPosition) < window.innerHeight / 2) {
                    return element;
                }
            }) || activeElement;
    
            elements.forEach(element => {
                const id = encodeURI(element.getAttribute('id')).toLowerCase();
                const tocLink = document.querySelector(`.inner ul li a[href="#${id}"]`);
                if (element === activeElement){
                    tocLink.classList.add('active');
    
                    // Ensure the active element is in view within the .inner container
                    const tocContainer = document.querySelector('.toc .inner');
                    const linkOffsetTop = tocLink.offsetTop;
                    const containerHeight = tocContainer.clientHeight;
                    const linkHeight = tocLink.clientHeight;
    
                    // Calculate the scroll position to center the active link
                    const scrollPosition = linkOffsetTop - (containerHeight / 2) + (linkHeight / 2);
                    tocContainer.scrollTo({ top: scrollPosition, behavior: 'smooth' });
                } else {
                    tocLink.classList.remove('active');
                }
            });
        }
    }, false);
    
    const main = parseInt(getComputedStyle(document.body).getPropertyValue('--article-width'), 10);
    const toc = parseInt(getComputedStyle(document.body).getPropertyValue('--toc-width'), 10);
    const gap = parseInt(getComputedStyle(document.body).getPropertyValue('--gap'), 10);
    
    function checkTocPosition() {
        const width = document.body.scrollWidth;
    
        if (width - main - (toc * 2) - (gap * 4) > 0) {
            document.getElementById("toc-container").classList.add("wide");
        } else {
            document.getElementById("toc-container").classList.remove("wide");
        }
    }
    
    function getOffsetTop(element) {
        if (!element.getClientRects().length) {
            return 0;
        }
        let rect = element.getBoundingClientRect();
        let win = element.ownerDocument.defaultView;
        return rect.top + win.pageYOffset;   
    }
    
script>
{{- end }}

其中，后半部分为 js 代码，根据阅读内容滚动并加粗相应标题就由其实现。

然后，添加 css 样式的代码，创建 /assets/css/extended/toc.css 文件，并拷贝以下内容：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86


:root {
    --nav-width: 1380px;
    --article-width: 650px;
    --toc-width: 300px;
}

.toc {
    margin: 0 2px 40px 2px;
    border: 1px solid var(--border);
    background: var(--entry);
    border-radius: var(--radius);
    padding: 0.4em;
}

.toc-container.wide {
    position: absolute;
    height: 100%;
    border-right: 1px solid var(--border);
    left: calc((var(--toc-width) + var(--gap)) * -1);
    top: calc(var(--gap) * 2);
    width: var(--toc-width);
}

.wide .toc {
    position: sticky;
    top: var(--gap);
    border: unset;
    background: unset;
    border-radius: unset;
    width: 100%;
    margin: 0 2px 40px 2px;
}

.toc details summary {
    cursor: zoom-in;
    margin-inline-start: 20px;
    padding: 12px 0;
}

.toc details[open] summary {
    font-weight: 500;
}

.toc-container.wide .toc .inner {
    margin: 0;
}

.active {
    font-size: 110%;
    font-weight: 600;
}

.toc ul {
    list-style-type: circle;
}

.toc .inner {
    margin: 0 0 0 20px;
    padding: 0px 15px 15px 20px;
    font-size: 16px;

    /*目录显示高度*/
    max-height: 83vh;
    overflow-y: auto;
}

.toc .inner::-webkit-scrollbar-thumb {  /*滚动条*/
    background: var(--border);
    border: 7px solid var(--theme);
    border-radius: var(--radius);
}

.toc li ul {
    margin-inline-start: calc(var(--gap) * 0.5);
    list-style-type: none;
}

.toc li {
    list-style: none;
    font-size: 0.95rem;
    padding-bottom: 5px;
}

.toc li a:hover {
    color: var(--secondary);
}

到此为止，目录应该就能在侧边正确显示了🎉🎉。

阅读百分比

阅读百分比实现的核心思想就是每当发生滚动事件时，根据滚动条高度计算当前阅读进度。这里我们将进度的数字显示在 TOP 按钮上，TOP 按钮定义在 footer.html 中，因此我们要创建 /layouts/partials/footer.html，将主题中对应位置的 footer.html 内容拷贝进去，然后修改 TOP 按钮相关的代码，原代码为：

1
2
3
4
5
6
7


{{- if (not site.Params.disableScrollToTop) }}
<a href="#top" aria-label="go to top" title="Go to Top (Alt + G)" class="top-link" id="top-link" accesskey="g">
    <svg xmlns="http://www.w3.org/2000/svg" viewBox="0 0 12 6" fill="currentColor">
        <path d="M12 6H0l6-6z" />
    svg>
a>
{{- end }}

我们要在其中添加一个用于展示进度的 span 和更新进度的 js 代码，即修改为：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20


{{- if (not .Site.Params.disableScrollToTop) }}
<a href="#top" aria-label="go to top" title="Go to Top (Alt + G)" class="top-link" id="top-link" accesskey="g">
    <span class="topInner">
        <svg class="topSvg" xmlns="http://www.w3.org/2000/svg" viewBox="0 0 12 6" fill="currentColor">
            <path d="M12 6H0l6-6z"/>
        svg>
        <span id="read_progress">span>
    span>
a>

<script>
    document.addEventListener('scroll', function (e) {
        const readProgress = document.getElementById("read_progress");
        const scrollHeight = document.documentElement.scrollHeight;
        const clientHeight = document.documentElement.clientHeight;
        const scrollTop = document.documentElement.scrollTop || document.body.scrollTop;
        readProgress.innerText = ((scrollTop / (scrollHeight - clientHeight)).toFixed(2) * 100).toFixed(0);
    })
script>
{{- end }}

然后添加相关 css 代码，即创建 /assets/css/extended/top.css 文件，并拷贝以下内容：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66


/*top*/
.topInner {
    display: grid;
    align-items: baseline;
    justify-items: center;
    margin: 7px;
    font-weight: 900;
}

.topSvg {
    width: 20px;
}

.top-link {
    padding: unset;
}

/*到顶部*/
.top-link {
    background: var(--entry);

    -webkit-transition: box-shadow 0.4s ease, transform 0.4s ease;
    -moz-transition: box-shadow 0.4s ease, transform 0.4s ease;
    -o-transition: box-shadow 0.4s ease, transform 0.4s ease;

    transition: box-shadow 0.4s ease, transform 0.4s ease;
    box-shadow: 0px 2px 4px rgb(5 10 15 / 5%), 0px 7px 13px -3px rgb(5 10 15 / 30%);
}

.dark .top-link {
    background: var(--entry);

    -webkit-transition: box-shadow 0.4s ease, transform 0.4s ease;
    -moz-transition: box-shadow 0.4s ease, transform 0.4s ease;
    -o-transition: box-shadow 0.4s ease, transform 0.4s ease;

    transition: box-shadow 0.4s ease, transform 0.4s ease;
    box-shadow: 0px 2px 4px rgb(5 10 15 / 5%), 0px 7px 13px -3px rgb(5 10 15 / 30%);
}

.top-link:hover {
    color: rgb(108, 108, 108);

    /*-webkit-transform: scale(1.1);*/
    /*-moz-transform: scale(1.1);*/
    /*-ms-transform: scale(1.1);*/
    /*-o-transform: scale(1.1);*/
    /*transform: scale(1.1);*/

    transition: box-shadow 0.4s ease, transform 0.4s ease;
    box-shadow: 0px 4px 8px rgb(5 10 15 / 5%), 0px 7px 13px -3px rgb(5 10 15 / 30%);
}

.dark .top-link:hover {
    color: rgba(180, 181, 182, .8);

    /*-webkit-transform: scale(1.1);*/
    /*-moz-transform: scale(1.1);*/
    /*-ms-transform: scale(1.1);*/
    /*-o-transform: scale(1.1);*/

    /*transform: scale(1.1);*/

    transition: box-shadow 0.4s ease, transform 0.4s ease;
    box-shadow: 0px 4px 8px rgb(5 10 15 / 5%), 0px 7px 13px -3px rgb(5 10 15 / 30%);
}

到此为止，阅读进度应该就能在 TOP 按钮上正确显示了🎉🎉。

参考文档

Hugo博客目录放在侧边 | PaperMod主题 | Sulv’s Blog ↩︎

CMU 10-414 Assignments 实验笔记

Thu, 06 Jun 2024 13:28:00 +0800

前言

本文记录了完成《CMU 10-414/714 Deep Learning System》配套 Assignments 的过程和对应笔记。共有 6 个 hw，循序渐进地从头实现了一个深度学习框架，并利用搭建 DL 中厂常见的网络模型，包括 CNN、RNN、Transformer 等。

实验环境为 Ubuntu 24 @ WSL2。

由于官方自动评分系统目前不再接受非选课学生注册，因此本代码仅保证能够通过已有测试样例。

资源存档

源码来自官方：Assignments

所有代码均上传至 cmu10-414-assignments: cmu10-414-assignments，如官网撤包，可通过 git 回滚获取原始代码。

hw0

第一个 homework 共需完成 7 个函数，第一个很简单，用于熟悉评测系统，直接从第二个函数开始。

parse_mnist

这个函数签名为：parse_mnist(image_filename, label_filename)，用于读取 MNIST 手写数据集。官网对数据集格式有详细介绍，直接下拉到 FILE FORMATS FOR THE MNIST DATABASE 这部分即可。

整个数据集分为训练集和测试集，包括数字图像和标签。标签文件内前 8Byte 记录了 magic number 和 number of items，之后按照每个样本占 1Byte 的格式组织。图像文件内前 16Byte 记录了非图像数据，之后按照行优先的顺序按照每个像素占 1Byte 的格式以此排布，每个图片共有 28×28 个像素点。

具体实现中，使用 gzip 库按字节读取数据文件，注意整个数据集需要进行标准化，即将每个像素的灰度值除以 255。完整实现为：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13


def parse_mnist(image_filename, label_filename):
    image_file_handle = gzip.open(image_filename, 'rb')
    label_file_handle = gzip.open(label_filename, 'rb')
    image_file_handle.read(16)
    label_file_handle.read(8)
    image_data = image_file_handle.read()
    label_data = label_file_handle.read()
    image_file_handle.close()
    label_file_handle.close()
    X = np.frombuffer(image_data, dtype=np.uint8).reshape(-1, 28*28).astype(np.float32)
    X = X / 255.0
    y = np.frombuffer(label_data, dtype=np.uint8)
    return X, y

softmax_loss

这个函数签名为：softmax_loss(Z, y)，需要注意的是它计算的是 softmax 损失，或者说是交叉熵损失，而不是进行 softmax 归一化。

照着公式写两行代码即可，不用再赘述：

1
2
3


def softmax_loss(Z, y):
    rows = np.arange(Z.shape[0])
    return -np.mean(Z[rows, y] - np.log(np.sum(np.exp(Z), axis=1)))

softmax_regression_epoch

这个函数签名为：softmax_regression_epoch(X, y, theta, lr = 0.1, batch=100)，要实现的是 softmax 回归一个 epoch 上的训练过程。

首先计算出总的 batch 数，并进行这么多次的循环。在每个循环内，先从 X 和 y 中取出对应样本，然后根据公式计算即可。这里涉及到将 label 转换为独热编码的一个小技巧：E_batch = np.eye(theta.shape[1])[y_batch]，其它则比较简单：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11


def softmax_regression_epoch(X, y, theta, lr = 0.1, batch=100):
    total_batches = (X.shape[0] + batch - 1) // batch
    for i in range(total_batches):
        X_batch = X[i*batch:(i+1)*batch]
        y_batch = y[i*batch:(i+1)*batch]
        E_batch = np.eye(theta.shape[1])[y_batch]
        logits = X_batch @ theta
        Z_batch = np.exp(logits)
        Z_batch /= np.sum(Z_batch, axis=1, keepdims=True)
        gradients = X_batch.T @ (Z_batch - E_batch) / batch
        theta -= lr * gradients

nn_epoch

这个函数签名为：nn_epoch(X, y, W1, W2, lr = 0.1, batch=100)，要实现一个双层感知机在一个 epoch 上的训练过程。

跟着公式写代码计算即可，需要注意的两个点：

ReLU 激活函数可以使用 max 函数进行实现：Z1_batch = np.maximum(X_batch @ W1, 0)
除以 batch_size 这一步应该提前在计算 G2 的过程，如果放在最后更新 $\theta$ 这一步，存在精度误差，不能通过测试点。

完整代码为：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16


def nn_epoch(X, y, W1, W2, lr = 0.1, batch=100):
    total_batches = (X.shape[0] + batch - 1) // batch
    for i in range(total_batches):
        X_batch = X[i*batch:(i+1)*batch]
        y_batch = y[i*batch:(i+1)*batch]
        E_batch = np.eye(W2.shape[1])[y_batch]
        Z1_batch = np.maximum(X_batch @ W1, 0)
        G2_batch = np.exp(Z1_batch @ W2)
        G2_batch /= np.sum(G2_batch, axis=1, keepdims=True)
        G2_batch -= E_batch
        G2_batch /= batch
        G1_batch = (Z1_batch > 0) * (G2_batch @ W2.T)
        gradients_W1 = X_batch.T @ G1_batch
        gradients_W2 = Z1_batch.T @ G2_batch
        W1 -= lr * gradients_W1
        W2 -= lr * gradients_W2

softmax_regression_epoch_cpp

这个函数签名为：void softmax_regression_epoch_cpp(const float *X, const unsigned char *y, float *theta, size_t m, size_t n, size_t k, float lr, size_t batch)，这是一个 softmax 回归在 cpp 上的实现版本。

与 Python 自动处理数组索引越界不同，cpp 版本要分开考虑完整的 batch 和最后一轮不完整的 batch。计算 logits 时，需要使用三轮循环模拟矩阵乘法。cpp 版本的实现可以不写出 $E_y$ 矩阵，梯度计算不用使用矩阵计算，直接使用两层循环，判断 class_idx 是否为正确的 label：softmax[sample_idx * k + class_idx] -= (y[start_idx + sample_idx] == class_idx);。

完整的代码为：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60


void softmax_regression_epoch_cpp(const float *X, const unsigned char *y,
                                  float *theta, size_t m, size_t n, size_t k,
                                  float lr, size_t batch)
{
    size_t total_batches = (m + batch - 1) / batch;

    for(size_t i = 0; i < total_batches; i++) {
        size_t start_idx = i * batch;
        size_t end_idx = std::min(start_idx + batch, m);
        size_t current_batch_size = end_idx - start_idx;

        // Allocate memory for logits and softmax
        float* logits = new float[current_batch_size * k]();
        float* softmax = new float[current_batch_size * k]();

        // Compute logits
        for(size_t sample_idx = 0; sample_idx < current_batch_size; sample_idx++) {
            for(size_t class_idx = 0; class_idx < k; class_idx++) {
                for(size_t feature_idx = 0; feature_idx < n; feature_idx++) {
                    logits[sample_idx * k + class_idx] += X[(start_idx + sample_idx) * n + feature_idx] * theta[feature_idx * k + class_idx];
                }
            }
        }

        // Compute softmax
        for(size_t sample_idx = 0; sample_idx < current_batch_size; sample_idx++) {
            float max_logit = *std::max_element(logits + sample_idx * k, logits + (sample_idx + 1) * k);
            float sum = 0;
            for(size_t class_idx = 0; class_idx < k; class_idx++) {
                softmax[sample_idx * k + class_idx] = exp(logits[sample_idx * k + class_idx] - max_logit);
                sum += softmax[sample_idx * k + class_idx];
            }
            for(size_t class_idx = 0; class_idx < k; class_idx++) {
                softmax[sample_idx * k + class_idx] /= sum;
            }
        }

        // Compute gradient
        for(size_t sample_idx = 0; sample_idx < current_batch_size; sample_idx++) {
            for(size_t class_idx = 0; class_idx < k; class_idx++) {
                softmax[sample_idx * k + class_idx] -= (y[start_idx + sample_idx] == class_idx);
            }
        }

        // Update theta
        for(size_t feature_idx = 0; feature_idx < n; feature_idx++) {
            for(size_t class_idx = 0; class_idx < k; class_idx++) {
                float gradient = 0;
                for(size_t sample_idx = 0; sample_idx < current_batch_size; sample_idx++) {
                    gradient += X[(start_idx + sample_idx) * n + feature_idx] * softmax[sample_idx * k + class_idx];
                }
                theta[feature_idx * k + class_idx] -= lr * gradient / current_batch_size;
            }
        }

        // Free allocated memory
        delete[] logits;
        delete[] softmax;
    }
}

hw0 小结

hw0 理应是在 Lecture 2 课前完成的，初学者看到一堆公式应该会很懵逼，但整个 hw 比较简单，照着公式一步步走就能完成（除了双层感知机中奇怪的精度错误），主要还是用来熟悉 NumPy 和基本的 DL 模型。

hw1

第一个 homework 共有六个小问：正向计算、反向梯度、拓扑排序反向模式自动微分、softmax 损失、双层感知机的 SGD 算法。

Implementing forward & backward computation

前两个小问就放在一起讨论了。第一问是通过 NumPy 的 API 实现一些常用的算子，第二问则是通过第一问的算子实现常用算子的梯度实现。

需要注意的是，notebook 中强调了第一问操作的对象是 NDArray，第二问是 Tensor。前者模拟的事这些算子的低层实现，后者则是通过调用这个算子来实现梯度计算，或者说是将梯度计算封装为另一个算子，这样就可以求梯度看作一个普通运算，进而自动求出梯度的梯度。详细解释请看 Lecture 4。

PowerScaler
这个算子作用是对张量逐元素求幂。幂指数作为不可学习的参数，在算子实例化时就固定了，因此不用考虑对幂指数的偏导数。这个很简单，应用幂函数的求导公式即可：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12


class PowerScalar(TensorOp):
    """Op raise a tensor to an (integer) power."""

    def __init__(self, scalar: int):
        self.scalar = scalar

    def compute(self, a: NDArray) -> NDArray:
        return array_api.power(a, self.scalar)

    def gradient(self, out_grad, node):
        a = node.inputs[0]
        return self.scalar * (power_scalar(a, self.scalar-1)) * out_grad

EWiseDiv
这个算子的作用是对张量逐元素求商。梯度计算很简单，即 $a/b$ 分别对 $a$ 和 $b$ 求偏导：

1
2
3
4
5
6
7
8
9


class EWiseDiv(TensorOp):
    """Op to element-wise divide two nodes."""

    def compute(self, a, b):
        return array_api.true_divide(a, b)

    def gradient(self, out_grad, node):
        a, b = node.inputs
        return out_grad/b , -a/b/b*out_grad

DivScalar
这个算子的作用是将整个张量同除 scalar，和 PowerScalar 一样，scalar 是不要考虑梯度的：

1
2
3
4
5
6
7
8
9


class DivScalar(TensorOp):
    def __init__(self, scalar):
        self.scalar = scalar

    def compute(self, a):
        return array_api.true_divide(a, self.scalar)

    def gradient(self, out_grad, node):
        return out_grad/self.scalar

MatMul
这个算子的作用是矩阵乘法。这是这门课程到现在第一个具有挑战性的任务。在计算梯度时，根据课程给出的方法，可以得到如下两个表达式：

1
2


adjoint1 = out_grad @ transpose(b)
adjoint2 = transpose(a) @ out_grad

但但但是，以上只是理论推导。在实际应用中，存在两个问题：1) 矩阵乘法可能是高维矩阵而非二维矩阵相乘，例如 shape 为 (2, 2, 3, 4) 和 (2, 2, 4, 5) 的两个张量相乘；2) 张量乘法过程可能存在广播的情况，这种情况下的梯度怎么处理。

第一个问题，NumPy 基本都为我们处理好了，只要两个张量的倒数两个维度符合二维矩阵乘法且其余维度（也称为批量维度）相等，或者某个批量维度为 1（会进行广播），它们就可以进行张量乘法运算。

天下没有免费的午餐，自动广播带来便利的同时，也带来了第二个问题。求出的 adjoint 或者说偏导，应该和输入参数的维度一致，但根据公式计算得到的梯度的维度和广播后的维度一样，因此要进行 reduce 操作。

以下是我不严谨且非形式化的 reduce 操作推导：假设矩阵 $A_{m\times n}$ 经过广播后是 $A_{p\times n\times n}^\prime$，实际上参与计算的就是这个 $A^\prime$。首先直接假设在计算图上用 $A^\prime$ 替代 $A$，当 $A^\prime @B$（该节点记为 $f(x_1,…)$）的某个输入节点 $x_1$ 需要计算梯度时，就会需要计算张量 $\partial f/ \partial x_1$ 和张量 $A^\prime$ 求得的偏导之间的乘积。接下来我们把 $A$ 还原，相对应的，$f(x_1, …)$ 这个节点计算梯度就要将 $p$ 维度上的偏导数全部加起来，这体现在 $A_{p\times n\times n}^\prime$ 也是将其 $p$ 维度上的元素全部加起来，得到 $A^\prime_{m\times n}$。

上面这段描述不太清晰，总而言之就是要将广播出来的维度全部 sum 掉。

NumPy 中广播新增的维度只会放在最前面，因此只需要计算出要 sum 掉维度的个数，然后取前 $n$ 个维度即可，具体见代码：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11


class MatMul(TensorOp):
    def compute(self, a, b):
        return a@b

    def gradient(self, out_grad, node):
        a, b = node.inputs
        adjoint1 = out_grad @ transpose(b)
        adjoint2 = transpose(a) @ out_grad
        adjoint1 = summation(adjoint1, axes=tuple(range(len(adjoint1.shape) - len(a.shape))))
        adjoint2 = summation(adjoint2, axes=tuple(range(len(adjoint2.shape) - len(b.shape))))
        return adjoint1, adjoint2

Summation
这个算子的作用是对张量的指定维度求和。设带求和的张量 $X$ 的维度为 $s_1\times s_2\times … \times s_n$，那么求和之后的维度就是移除掉 $axes$ 中指示的维度，形式化表达为：

$$ \text{SUM}(X_{s_1\times s_2\times ... \times s_n}, axes) = [\sum_{s_i \in axes} X]_{\{s_j | j\notin axes \}} $$

假设一个输入为的 shape 为 $3\times 2\times 4 \times 5$，在第 0 和 2 的维度上做 summation，输出的 shape 为 $2\times 5$。反向传播的过程就是先把 out_grad 扩展到 $1\times 2 \times 1\times 5$，然后广播到输入的 shape。

埋个坑，这部分还没有理解，不知道怎么形式化表达求和运算与并对其求导，误打误撞以下代码通过了测试：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16


class Summation(TensorOp):
    def __init__(self, axes: Optional[tuple] = None):
        self.axes = axes

    def compute(self, a):
        return array_api.sum(a, axis=self.axes)

    def gradient(self, out_grad, node):
        a = node.inputs[0]
        shape = list(a.shape)
        axes = self.axes
        if axes is None:
            axes = list(range(len(shape)))
        for _ in axes:
            shape[_] = 1
        return broadcast_to(reshape(out_grad, shape), a.shape)

BroadcastTo
这个算子的作用是将张量广播到指定的 shape。所谓广播，就是将数据在不存在或者大小为 1 的维度上复制多份，使之与目标 shape 相匹配。

关于广播算子正向和梯度运算的分析，可查看 MatMul 算子，其对广播过程有详细讨论。本算子实现代码为：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14


class BroadcastTo(TensorOp):
    def __init__(self, shape):
        self.shape = shape

    def compute(self, a):
        return array_api.broadcast_to(a, self.shape)

    def gradient(self, out_grad, node):
        input_shape = node.inputs[0].shape
        ret = summation(out_grad, tuple(range(len(out_grad.shape) - len(input_shape))))
        for i, dim in enumerate(input_shape):
            if dim == 1:
              ret = summation(ret, axes=(i,))
        return reshape(ret, input_shape)

Reshape
这个算子的作用是将张量重整至指定 shape。反向运算则是将张量重整至输入张量的 shape。其代码实现相当简单：

1
2
3
4
5
6
7
8
9


class Reshape(TensorOp):
    def __init__(self, shape):
        self.shape = shape

    def compute(self, a):
        return array_api.reshape(a, self.shape)

    def gradient(self, out_grad, node):
        return reshape(out_grad, node.inputs[0].shape)

Negate
这个算子作用是将整个张量取相反数，反向运算则是再取一次相反数。其代码实现为：

1
2
3
4
5
6


class Negate(TensorOp):
    def compute(self, a):
        return array_api.negative(a)

    def gradient(self, out_grad, node):
        return negate(out_grad)

Transpose
这个算子的作用是交换指定的两个轴，如果没指定则默认为最后两个轴。注意，这个算子的行为与 np.transpose 不一致，需要调用 API 是 np.swapaxes。反向运算则是再次交换这两个轴：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12


class Transpose(TensorOp):
    def __init__(self, axes: Optional[tuple] = None):
        self.axes = axes

    def compute(self, a):
        if self.axes is None:
            return array_api.swapaxes(a, -1, -2)
        else:
            return array_api.swapaxes(a, *self.axes)

    def gradient(self, out_grad, node):
        return transpose(out_grad, self.axes)

Topological sort

这一小问要求实现拓扑排序，涉及的知识点都是数据结构的内容，包括图的拓扑排序、后序遍历和 dfs 算法。

在问题说明中明确要求使用树的后序遍历对算法图求解其拓扑序列，简单来说就是如果本节点存在未访问的子节点（inputs），则先访问子节点，否则访问本节点。所谓访问本节点，就是将其标记为已访问，并将其放入拓扑序列。

结合 dfs 算法，求拓扑序列的代码为：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15


def find_topo_sort(node_list: List[Value]) -> List[Value]:
    visited = dict()
    topo_order = []
    for node in node_list:
        if not visited.get(node, False):
            topo_sort_dfs(node, visited, topo_order)
    return topo_order

def topo_sort_dfs(node, visited: dict, topo_order):
    sons = node.inputs
    for son in sons:
        if not visited.get(son, False):
            topo_sort_dfs(son, visited, topo_order)
    visited[node] = True
    topo_order.append(node)

Implementing reverse mode differentiation

终于开始组装我们的自动微分算法了！核心就是理论课中介绍的反向模式 AD 的算法为代码：

其中有几个注意点：

autograd.py 文件最后一部分提供了一个助手函数 sum_node_list(node_list)，用于在不创造冗余节点的情况下，对一系列 node 求和，对应伪代码中对 $\overline{v_i}$ 求和的部分；
只有存在输入的节点才要计算梯度，初始 input 节点是没法计算梯度的，要进行判断；
~~node.op.gradient 返回值类型为 Tuple | Tensor，要分类处理。~~node.op.gradient_as_tuple 辅助函数可确保返回类型为 tuple。

在写代码之前，最好复习一遍理论；在 debug 的过程中，可以自己画一下计算图，会有奇效。反向模式 AD 具体实现为：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12


def compute_gradient_of_variables(output_tensor, out_grad) -> None:
    for node in reverse_topo_order:
        node.grad = sum_node_list(node_to_output_grads_list[node])
        if len(node.inputs) > 0:
            gradient = node.op.gradient(node.grad, node)
            if isinstance(gradient, tuple):
                for i, son_node in enumerate(node.inputs):
                    node_to_output_grads_list.setdefault(son_node, [])
                    node_to_output_grads_list[son_node].append(gradient[i])
            else:
                node_to_output_grads_list.setdefault(node.inputs[0], [])
                node_to_output_grads_list[node.inputs[0]].append(gradient)

Softmax loss

本问题先要完成对数函数和指数函数的前向和反向计算，然后再完成 softmax 损失，也就是交叉熵损失函数。

根据说明，这里传入的 y 已经转为了独热编码。具体实现根据说明中的公式一点点写即可，没有要特别说明的：

1
2
3
4
5
6


def softmax_loss(Z, y_one_hot):
    batch_size = Z.shape[0]
    lhs = ndl.log(ndl.exp(Z).sum(axes=(1, )))
    rhs = (Z * y_one_hot).sum(axes=(1, ))
    loss = (lhs - rhs).sum()
    return loss / batch_size

SGD for a two-layer neural network

最后一问，利用前面的组件，实现一个双层感知机及其随机梯度下降算法。注意事项：

这里传入的 y 的值是其 label，需要转为独热编码；
一定要仔细看题！在计算两个权重的更新值时，应该使用 NumPy 计算，再转为 Tensor。如果直接使用 Tensor 算子计算，每次更新都会在计算图上新增好几个节点，并指数级增长，这会导致后面一些要 600 多 batch 的测试点要跑十几分钟，实际上只要几秒钟就能跑完。如果你遇到了同样的问题，请再读一遍题目要求。
代码为：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22


def nn_epoch(X, y, W1, W2, lr=0.1, batch=100):
    batch_cnt = (X.shape[0] + batch - 1) // batch
    num_classes = W2.shape[1]
    one_hot_y = np.eye(num_classes)[y]
    for batch_idx in range(batch_cnt):
        start_idx = batch_idx * batch
        end_idx = min(X.shape[0], (batch_idx+1)*batch)
        X_batch = X[start_idx:end_idx, :]
        y_batch = one_hot_y[start_idx:end_idx]
        X_tensor = ndl.Tensor(X_batch)
        y_tensor = ndl.Tensor(y_batch) 
        first_logits = X_tensor @ W1 # type: ndl.Tensor
        first_output = ndl.relu(first_logits) # type: ndl.Tensor
        second_logits = first_output @ W2 # type: ndl.Tensor
        loss_err = softmax_loss(second_logits, y_tensor) # type: ndl.Tensor
        loss_err.backward()
        
        new_W1 = ndl.Tensor(W1.numpy() - lr * W1.grad.numpy())
        new_W2 = ndl.Tensor(W2.numpy() - lr * W2.grad.numpy())
        W1, W2 = new_W1, new_W2

    return W1, W2

hw 1 小结

明显感觉到，这个 hw 的强度上来了。由于不太熟悉 NumPy 的运算，中间查了不少资料和别人的实现。感谢 @# xx要努力的文章 ¹，不少都是参考他的实现。

最后双层感知机的调试，由于使用了 Tensor 算子来实现，跑了十几分钟，最后才发现题干已经要求使用 NumPy 运算。长了个很大的教训，下次一定好好读题。

hw2

Q1: Weight Initialization

Q1 实现的是几种不同的生成参数初始值的方法，结合 init_basic.py 中的辅助函数，照抄 notebook 中给的公式实现，比较简单。注意把 kwargs 传递给辅助函数，里面有 dtype、device 等信息。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32


def xavier_uniform(fan_in, fan_out, gain=1.0, **kwargs):
    ### BEGIN YOUR SOLUTION
    a = gain * math.sqrt(6 / (fan_in + fan_out))
    return rand(fan_in, fan_out, low=-a, high=a, **kwargs)
    ### END YOUR SOLUTION


def xavier_normal(fan_in, fan_out, gain=1.0, **kwargs):
    ### BEGIN YOUR SOLUTION
    std = gain * math.sqrt(2 / (fan_in + fan_out))
    return randn(fan_in, fan_out, mean=0, std=std, **kwargs)
    ### END YOUR SOLUTION


def kaiming_uniform(fan_in, fan_out, nonlinearity="relu", **kwargs):
    assert nonlinearity == "relu", "Only relu supported currently"
    if nonlinearity == "relu":
        gain = math.sqrt(2)
    ### BEGIN YOUR SOLUTION
    bound = gain * math.sqrt(3 / fan_in)
    return rand(fan_in, fan_out, low=-bound, high=bound, **kwargs)
    ### END YOUR SOLUTION


def kaiming_normal(fan_in, fan_out, nonlinearity="relu", **kwargs):
    assert nonlinearity == "relu", "Only relu supported currently"
    if nonlinearity == "relu":
        gain = math.sqrt(2)
    ### BEGIN YOUR SOLUTION
    std = gain / math.sqrt(fan_in)
    return randn(fan_in, fan_out, mean=0, std=std, **kwargs)
    ### END YOUR SOLUTION

Q2: nn_basic

在 Q2，我们将实现几个最基本的 Module 组件。在 Debug 过程中，我遇到了两个很奇怪问题：

所有输入和参数都是 float32 类型，但有一个输出是 float64 类型，导致过不了测试点
反向传播中，有一个 node 接收到的 out_grad 的 shape 比该节点的输入的 shape 大，但理论上来说二者应该是一致的
经过漫长的调试追踪，发现第一个问题是因为在实现 DivScalar 即除法时，如果输入是一个实数而非一个矩阵，numpy 进行除法运算的结果默认为 float64，解决方案是显式调用 np.true_divide 进行除法运算，并使用关键字 dtype='float32' 指定返回值类型。

第二个问题是因为 numpy 中许多运算都会进行自动广播，但是该广播操作对我们的 needle 库是不可见的，也无法添加到计算图中，因此导致了反向传播过程的 shape 不匹配。解决方案是修改修改 Q1 中基础算子的实现，在计算前检查 shape 是否匹配。修改后的 ops_mathematic.py 文件内容为：

  1
  2
  3
  4
  5
  6
  7
  8
  9
 10
 11
 12
 13
 14
 15
 16
 17
 18
 19
 20
 21
 22
 23
 24
 25
 26
 27
 28
 29
 30
 31
 32
 33
 34
 35
 36
 37
 38
 39
 40
 41
 42
 43
 44
 45
 46
 47
 48
 49
 50
 51
 52
 53
 54
 55
 56
 57
 58
 59
 60
 61
 62
 63
 64
 65
 66
 67
 68
 69
 70
 71
 72
 73
 74
 75
 76
 77
 78
 79
 80
 81
 82
 83
 84
 85
 86
 87
 88
 89
 90
 91
 92
 93
 94
 95
 96
 97
 98
 99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344


"""Operator implementations."""

from numbers import Number
from typing import Optional, List, Tuple, Union

from ..autograd import NDArray
from ..autograd import Op, Tensor, Value, TensorOp
from ..autograd import TensorTuple, TensorTupleOp
import numpy

# NOTE: we will import numpy as the array_api
# as the backend for our computations, this line will change in later homeworks

import numpy as array_api


class EWiseAdd(TensorOp):
    def compute(self, a: NDArray, b: NDArray):
        assert a.shape == b.shape , "The shape of lhs {} and rhs {} should be the same".format(a.shape, b.shape)
        return a + b

    def gradient(self, out_grad: Tensor, node: Tensor):
        return out_grad, out_grad


def add(a, b):
    return EWiseAdd()(a, b)


class AddScalar(TensorOp):
    def __init__(self, scalar):
        self.scalar = scalar

    def compute(self, a: NDArray):
        return a + self.scalar

    def gradient(self, out_grad: Tensor, node: Tensor):
        return out_grad


def add_scalar(a, scalar):
    return AddScalar(scalar)(a)


class EWiseMul(TensorOp):
    def compute(self, a: NDArray, b: NDArray):
        assert a.shape == b.shape, "The shape of two tensors should be the same"
        return a * b

    def gradient(self, out_grad: Tensor, node: Tensor):
        lhs, rhs = node.inputs
        return out_grad * rhs, out_grad * lhs


def multiply(a, b):
    return EWiseMul()(a, b)


class MulScalar(TensorOp):
    def __init__(self, scalar):
        self.scalar = scalar

    def compute(self, a: NDArray):
        return a * self.scalar

    def gradient(self, out_grad: Tensor, node: Tensor):
        return (out_grad * self.scalar,)


def mul_scalar(a, scalar):
    return MulScalar(scalar)(a)


class PowerScalar(TensorOp):
    """Op raise a tensor to an (integer) power."""

    def __init__(self, scalar: int):
        self.scalar = scalar

    def compute(self, a: NDArray) -> NDArray:
        ### BEGIN YOUR SOLUTION
        return array_api.power(a, self.scalar, dtype=a.dtype)
        ### END YOUR SOLUTION

    def gradient(self, out_grad, node):
        ### BEGIN YOUR SOLUTION
        a = node.inputs[0]
        return self.scalar * (power_scalar(a, self.scalar-1)) * out_grad
        ### END YOUR SOLUTION


def power_scalar(a, scalar):
    return PowerScalar(scalar)(a)


class EWisePow(TensorOp):
    """Op to element-wise raise a tensor to a power."""

    def compute(self, a: NDArray, b: NDArray) -> NDArray:
        assert a.shape == b.shape, "The shape of two tensors should be the same"
        return a**b

    def gradient(self, out_grad, node):
        if not isinstance(node.inputs[0], NDArray) or not isinstance(
            node.inputs[1], NDArray
        ):
            raise ValueError("Both inputs must be tensors (NDArray).")

        a, b = node.inputs[0], node.inputs[1]
        grad_a = out_grad * b * (a ** (b - 1))
        grad_b = out_grad * (a**b) * array_api.log(a.data)
        return grad_a, grad_b

def power(a, b):
    return EWisePow()(a, b)


class EWiseDiv(TensorOp):
    """Op to element-wise divide two nodes."""

    def compute(self, a, b):
        ### BEGIN YOUR SOLUTION
        assert a.shape == b.shape, "The shape of two tensors should be the same"
        return array_api.true_divide(a, b)
        ### END YOUR SOLUTION

    def gradient(self, out_grad, node):
        ### BEGIN YOUR SOLUTION
        a, b = node.inputs
        return out_grad/b , -a/b/b*out_grad
        ### END YOUR SOLUTION


def divide(a, b):
    return EWiseDiv()(a, b)


class DivScalar(TensorOp):
    def __init__(self, scalar):
        self.scalar = scalar

    def compute(self, a):
        ### BEGIN YOUR SOLUTION
        return array_api.true_divide(a, self.scalar, dtype=a.dtype)
        ### END YOUR SOLUTION

    def gradient(self, out_grad, node):
        ### BEGIN YOUR SOLUTION
        return out_grad/self.scalar
        ### END YOUR SOLUTION


def divide_scalar(a, scalar):
    return DivScalar(scalar)(a)


class Transpose(TensorOp):
    def __init__(self, axes: Optional[tuple] = None):
        self.axes = axes

    def compute(self, a):
        ### BEGIN YOUR SOLUTION
        if self.axes is None:
            return array_api.swapaxes(a, -1, -2)
        else:
            return array_api.swapaxes(a, *self.axes)
        ### END YOUR SOLUTION

    def gradient(self, out_grad, node):
        ### BEGIN YOUR SOLUTION
        return transpose(out_grad, self.axes)
        ### END YOUR SOLUTION


def transpose(a, axes=None):
    return Transpose(axes)(a)


class Reshape(TensorOp):
    def __init__(self, shape):
        self.shape = shape

    def compute(self, a):
        ### BEGIN YOUR SOLUTION
        expect_size = 1
        for i in self.shape:
            expect_size *= i
        real_size = 1
        for i in a.shape:
            real_size *= i
        assert expect_size == real_size , "The reshape size is not compatible"
        return array_api.reshape(a, self.shape)
        ### END YOUR SOLUTION

    def gradient(self, out_grad, node):
        ### BEGIN YOUR SOLUTION
        return reshape(out_grad, node.inputs[0].shape)
        ### END YOUR SOLUTION


def reshape(a, shape):
    return Reshape(shape)(a)


class BroadcastTo(TensorOp):
    def __init__(self, shape):
        self.shape = shape

    def compute(self, a):
        ### BEGIN YOUR SOLUTION
        assert len(self.shape) >= len(a.shape), \
            "The target shape's dimension count {} should be greater than \
                or equal to the input shape's dimension count {}".format(len(self.shape), len(a.shape))
        for i in range(len(a.shape)):
            assert a.shape[-1 - i] == self.shape[-1 - i] or a.shape[-1 - i] == 1, \
                "The input shape {} is not compatible with the target shape {}".format(a.shape, self.shape)
        return array_api.broadcast_to(a, self.shape)
        ### END YOUR SOLUTION

    def gradient(self, out_grad, node):
        ### BEGIN YOUR SOLUTION
        input_shape = node.inputs[0].shape
        ret = summation(out_grad, tuple(range(len(out_grad.shape) - len(input_shape))))
        for i in range(len(input_shape)):
            if input_shape[-1 - i] == 1 and self.shape[-1 - i] != 1:
                ret = summation(ret, (len(input_shape) - 1 - i,))
        return reshape(ret, input_shape)
        ### END YOUR SOLUTION


def broadcast_to(a, shape):
    return BroadcastTo(shape)(a)


class Summation(TensorOp):
    def __init__(self, axes: Optional[tuple] = None):
        self.axes = axes

    def compute(self, a):
        ### BEGIN YOUR SOLUTION
        return array_api.sum(a, axis=self.axes)
        ### END YOUR SOLUTION

    def gradient(self, out_grad, node):
        ### BEGIN YOUR SOLUTION
        a = node.inputs[0]
        shape = list(a.shape)
        axes = self.axes
        if axes is None:
            axes = list(range(len(shape)))
        for _ in axes:
            shape[_] = 1
        return broadcast_to(reshape(out_grad, shape), a.shape)
        ### END YOUR SOLUTION


def summation(a, axes=None):
    return Summation(axes)(a)


class MatMul(TensorOp):
    def compute(self, a, b):
        ### BEGIN YOUR SOLUTION
        return a@b
        ### END YOUR SOLUTION

    def gradient(self, out_grad, node):
        ### BEGIN YOUR SOLUTION
        a, b = node.inputs
        adjoint1 = out_grad @ transpose(b)
        adjoint2 = transpose(a) @ out_grad
        adjoint1 = summation(adjoint1, axes=tuple(range(len(adjoint1.shape) - len(a.shape))))
        adjoint2 = summation(adjoint2, axes=tuple(range(len(adjoint2.shape) - len(b.shape))))
        return adjoint1, adjoint2
        ### END YOUR SOLUTION


def matmul(a, b):
    return MatMul()(a, b)


class Negate(TensorOp):
    def compute(self, a):
        ### BEGIN YOUR SOLUTION
        return array_api.negative(a)
        ### END YOUR SOLUTION

    def gradient(self, out_grad, node):
        ### BEGIN YOUR SOLUTION
        return negate(out_grad)
        ### END YOUR SOLUTION


def negate(a):
    return Negate()(a)


class Log(TensorOp):
    def compute(self, a):
        ### BEGIN YOUR SOLUTION
        return array_api.log(a)
        ### END YOUR SOLUTION

    def gradient(self, out_grad, node):
        ### BEGIN YOUR SOLUTION
        return out_grad / node.inputs[0]
        ### END YOUR SOLUTION


def log(a):
    return Log()(a)


class Exp(TensorOp):
    def compute(self, a):
        ### BEGIN YOUR SOLUTION
        return array_api.exp(a)
        ### END YOUR SOLUTION

    def gradient(self, out_grad, node):
        ### BEGIN YOUR SOLUTION
        return out_grad * exp(node.inputs[0])
        ### END YOUR SOLUTION


def exp(a):
    return Exp()(a)


class ReLU(TensorOp):
    def compute(self, a):
        ### BEGIN YOUR SOLUTION
        return array_api.maximum(a, 0)
        ### END YOUR SOLUTION

    def gradient(self, out_grad, node):
        ### BEGIN YOUR SOLUTION
        relu_mask = Tensor(node.inputs[0].cached_data > 0)
        return out_grad * relu_mask
        ### END YOUR SOLUTION


def relu(a):
    return ReLU()(a)

万事俱备，接下来可以开始完成 Q2 了。

Linear
首先要实现一个线性层，其公式为：

$$ Y = XW + B $$

注意 weight 和 bias 都是 Parameter 类型，如果定义为 Tensor 类型，会导致后面实现优化器过不了测试点。该模块代码为：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27


class Linear(Module):
    def __init__(
        self, in_features, out_features, bias=True, device=None, dtype="float32"
    ):
        super().__init__()
        self.in_features = in_features
        self.out_features = out_features

        ### BEGIN YOUR SOLUTION
        self.weight = init.kaiming_uniform(in_features, out_features, device=device, dtype=dtype)
        self.weight = Parameter(self.weight, device=device, dtype=dtype)
        self.bias = None
        if bias:
            self.bias = init.kaiming_uniform(out_features, 1, device=device, dtype=dtype)
            self.bias = self.bias.transpose()
            self.bias = Parameter(self.bias, device=device, dtype=dtype)
        ### END YOUR SOLUTION

    def forward(self, X: Tensor) -> Tensor:
        ### BEGIN YOUR SOLUTION
        if self.bias.shape != (1, self.out_features):
            self.bias = self.bias.reshape((1, self.out_features))
        y = ops.matmul(X, self.weight)
        if self.bias:
            y += self.bias.broadcast_to(y.shape)
        return y
        ### END YOUR SOLUTION

ReLU
这个模块很简单，调用 ops.relu 即可。
Sequential
这个模块的作用是将多个模块封装进一个模块，由其负责将输入在内部按需计算，并给出最终输出。其实现为：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13


class Sequential(Module):
    def __init__(self, *modules):
        super().__init__()
        self.modules = modules

    def forward(self, x: Tensor) -> Tensor:
        ### BEGIN YOUR SOLUTION
        y = x
        for module in self.modules:
            y = module(y)
        return y
        
        ### END YOUR SOLUTION

LogSumExp
这里要实现的是数值稳定版本的 LogSumExp 算子。文档中直接给出了公式，这里我们给出推导过程：

$$ \begin{align*} \log \sum_i \exp(z_i) &= \log \sum_i \exp(z_i - \max z + \max z)\\ &=\log \sum_i[\exp(z_i - \max z) \cdot \exp(\max z)] \\ &= \log [\sum_i \exp(z_i -\max z)\cdot\exp(\max z)] \\ &=\log \sum_i \exp(z_i -\max z) + \max z \end{align*} $$

通过恒等变换，避免了 $\exp$ 指数运算可能导致的数值上溢的问题。

显然，数值稳定版本的梯度和原始公式的梯度一致，直接求导或者根据文章 LogSumExp梯度推导得到其梯度计算公式为：

$$ \begin{align*} \frac{\partial{f}}{\partial{z_j}} &=\frac{\exp{\hat{z}_j}}{\sum_{i=1}^n\exp\hat{z}_i}\\ &=\exp(z_j - \log \sum_{i=1}^n\exp\hat{z}_i)\\ &=\exp(z_j - f) \end{align*} $$

惊喜地发现，LogSumExp 这个函数的梯度可以用其输入和输出来表示，那在代码实现中，只要获取该节点的输入和输出就可以计算出梯度，即：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19


class LogSumExp(TensorOp):
    def __init__(self, axes: Optional[tuple] = None):
        self.axes = axes

    def compute(self, Z):
        ### BEGIN YOUR SOLUTION
        max_z = array_api.max(Z, axis=self.axes, keepdims=True)
        self.max_z = max_z
        return array_api.log(array_api.sum(array_api.exp(Z - max_z), axis=self.axes)) + max_z.squeeze()
        ### END YOUR SOLUTION

    def gradient(self, out_grad, node):
        ### BEGIN YOUR SOLUTION
        if self.axes is None:
            self.axes = tuple(range(len(node.inputs[0].shape)))
        z = node.inputs[0]
        shape = [1 if i in self.axes else z.shape[i] for i in range(len(z.shape))]
        gradient = exp(z - node.reshape(shape).broadcast_to(z.shape))
        return out_grad.reshape(shape).broadcast_to(z.shape)*gradient

SoftmaxLoss
这里实现其是计算 Softmax 损失的模块，在实现过程中可以调用前面实现的数值稳定版本的 LogSumExp，其公式为：

$$ \begin{align*} \ell_\text{softmax}(z,y) = \log \sum_{i=1}^k \exp z_i - z_y \end{align*} $$

代码骨架中已经提供了一个将标签转换为度和编码的辅助函数，同时记得求的损失应该是在 batch 上的均值，记得做平均。

1
2
3
4
5
6
7
8


class SoftmaxLoss(Module):
    def forward(self, logits: Tensor, y: Tensor):
        ### BEGIN YOUR SOLUTION
        batch_size, label_size = logits.shape
        one_hot_y = init.one_hot(label_size, y)
        true_logits = ops.summation(logits * one_hot_y, axes=(1,))
        return (ops.logsumexp(logits, axes=(1, )) - true_logits).sum()/batch_size
        ### END YOUR SOLUTION

LayerNorm1d
这是第一个比较有挑战性的模块，其中涉及大量的 reshape 和广播操作，必须对每个变量的形状都了如指掌。注意，可以默认输入的 shape 为 (batch_size, feature_size)。计算公式为：

$$ \begin{align*} y = w \circ \frac{x_i - \textbf{E}[x]}{((\textbf{Var}[x]+\epsilon)^{1/2})} + b \end{align*} $$

根据公式照抄即可，但是要注意中间变量的 shape：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20


class LayerNorm1d(Module):
    def __init__(self, dim, eps=1e-5, device=None, dtype="float32"):
        super().__init__()
        self.dim = dim
        self.eps = eps
        self.weight = Parameter(init.ones(1, dim, device=device, dtype=dtype), device=device, dtype=dtype)
        ### BEGIN YOUR SOLUTION
        self.bias = Parameter(init.zeros(1, dim, device=device, dtype=dtype), device=device, dtype=dtype)
        ### END YOUR SOLUTION

    def forward(self, x: Tensor) -> Tensor:
        ### BEGIN YOUR SOLUTION
        batch_size, feature_size = x.shape
        mean = (x.sum(axes=(1, )) / feature_size).reshape((batch_size, 1)).broadcast_to(x.shape)
        var = (((x - mean) ** 2).sum(axes=(1, )) / feature_size).reshape((batch_size, 1)).broadcast_to(x.shape)
        std_x = (x - mean) / ops.power_scalar(var + self.eps, 0.5)
        weight = self.weight.broadcast_to(x.shape)
        bias = self.bias.broadcast_to(x.shape)
        return std_x * weight + bias
        ### END YOUR SOLUTION

Flatten
本模块的作用是保留第一个维度为 batchsize，展平剩下维度。使用 ops.resahpe 实现即可：

1
2
3
4
5
6
7
8
9


class Flatten(Module):
    def forward(self, X):
        ### BEGIN YOUR SOLUTION
        assert len(X.shape) >= 2
        elem_cnt = 1
        for i in range(1, len(X.shape)):
            elem_cnt *= X.shape[i]
        return X.reshape((X.shape[0], elem_cnt))
        ### END YOUR SOLUTION

BatchNorm1d
LayerNorm 是在每一个 batch 内部进行标准化操作，而 BatchNorm 是在每一个 feature 内部进行标准化操作。这就导致了每个样本都会对其他样本的推理结果产生影响，因此在推理时应动态计算均值和方差，以供推理时使用。nn.Module 中有一个 training 字段用于标识是否在训练。

与 LayerNorm 类似，在实现过程中运用了大量 reshape 和广播操作，要留意中间变量的形状。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34


class BatchNorm1d(Module):
    def __init__(self, dim, eps=1e-5, momentum=0.1, device=None, dtype="float32"):
        super().__init__()
        self.dim = dim
        self.eps = eps
        self.momentum = momentum
        ### BEGIN YOUR SOLUTION
        self.weight = Parameter(init.ones(1, dim, device=device, dtype=dtype), device=device, dtype=dtype)
        self.bias = Parameter(init.zeros(1, dim, device=device, dtype=dtype), device=device, dtype=dtype)
        self.running_mean = init.zeros(dim, device=device, dtype=dtype)
        self.running_var = init.ones(dim, device=device, dtype=dtype)
        ### END YOUR SOLUTION

    def forward(self, x: Tensor) -> Tensor:
        ### BEGIN YOUR SOLUTION
        if self.weight.shape != (1, self.dim):
            self.weight = self.weight.reshape((1, self.dim))
        if self.bias.shape != (1, self.dim):
            self.bias = self.bias.reshape((1, self.dim))
        if self.training:
            batch_size, feature_size = x.shape
            mean = (x.sum(axes=(0, )) / batch_size).reshape((1, feature_size))
            var = (((x - mean.broadcast_to(x.shape)) ** 2).sum(axes=(0, )) / batch_size).reshape((1, feature_size))
            self.running_mean = self.running_mean *(1 - self.momentum) + mean.reshape(self.running_mean.shape) * ( self.momentum)
            self.running_var = self.running_var *(1 - self.momentum) + var.reshape(self.running_var.shape) * (self.momentum)
            mean = mean.broadcast_to(x.shape)
            var = var.broadcast_to(x.shape)
            std_x = (x - mean) / ops.power_scalar(var + self.eps, 0.5)
            weight = self.weight.broadcast_to(x.shape)
            bias = self.bias.broadcast_to(x.shape)
            return std_x * weight + bias
        else:
            std_x = (x - self.running_mean.broadcast_to(x.shape)) / ops.power_scalar(self.running_var.broadcast_to(x.shape) + self.eps, 0.5)
            return std_x * self.weight.broadcast_to(x.shape) + self.bias.broadcast_to(x.shape)

Dropout
Dropout 说白了就是以概率 p 随机丢弃一部分输入，并把剩下的输入进行缩放，以确保下一层的输入期望不变。代码骨架提供了 init.randb 用于生成服从二项分布的布尔序列。代码实现为：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12


class Dropout(Module):
    def __init__(self, p=0.5):
        super().__init__()
        self.p = p

    def forward(self, x: Tensor) -> Tensor:
        ### BEGIN YOUR SOLUTION
        if not self.training:
            return x
        mask = init.randb(*x.shape, p=1 - self.p)
        return x * mask / (1 - self.p)
        ### END YOUR SOLUTION

Residual
残差模块就是将其它模块的输出和输入的和作为新的输出，实现比较简单：

1
2
3
4
5
6
7
8
9


class Residual(Module):
    def __init__(self, fn: Module):
        super().__init__()
        self.fn = fn

    def forward(self, x: Tensor) -> Tensor:
        ### BEGIN YOUR SOLUTION
        return x + self.fn(x)
        ### END YOUR SOLUTION

Q3: Optimizer Implementation

在本问题中，我们将实现优化器模块。优化器模块的作用是根据 loss.backward() 计算出的梯度，更新模型的参数。

需要注意的是，本模块默认启用 l2 正则化或者说 weight decay，因此梯度等于 param.grad + weight_decay * param。

SGD
首先要实现的优化器是随机梯度下降，注意在更新参数时要先使用 data 方法创建该参数的副本，以避免计算图越来越大。这里还使用了移动平均来计算梯度，初始值默认为 0。代码实现如下：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17


class SGD(Optimizer):
    def __init__(self, params, lr=0.01, momentum=0.0, weight_decay=0.0):
        super().__init__(params)
        self.lr = lr
        self.momentum = momentum
        self.u = {}
        self.weight_decay = weight_decay

    def step(self):
        ### BEGIN YOUR SOLUTION
        for param in self.params:
            if param.grad is not None:
                if param not in self.u:
                    self.u[param] = ndl.zeros_like(param.grad, requires_grad=False)
                self.u[param] = self.momentum * self.u[param].data + (1 - self.momentum) * (param.grad.data + self.weight_decay * param.data)
                param.data = param.data - self.lr * self.u[param]
        ### END YOUR SOLUTION

Adam
没什么好说的，照抄公式就行：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40


class Adam(Optimizer):
    def __init__(
        self,
        params,
        lr=0.01,
        beta1=0.9,
        beta2=0.999,
        eps=1e-8,
        weight_decay=0.0,
    ):
        super().__init__(params)
        self.lr = lr
        self.beta1 = beta1
        self.beta2 = beta2
        self.eps = eps
        self.weight_decay = weight_decay
        self.t = 0

        self.m = {}
        self.v = {}

    def step(self):
        ### BEGIN YOUR SOLUTION
        self.t += 1
        for param in self.params:
            if param.grad is not None:
                if param not in self.m.keys():
                    self.m[param] = ndl.zeros_like(param.grad, requires_grad=False)
                if param not in self.v.keys():
                    self.v[param] = ndl.zeros_like(param.grad, requires_grad=False)
                grad = param.grad.data + self.weight_decay * param.data
                self.m[param] = self.beta1 * self.m[param] + (1 - self.beta1) * grad.data
                self.v[param] = self.beta2 * self.v[param] + (1 - self.beta2) * grad.data * grad.data
                u_hat = self.m[param].data / (1 - self.beta1 ** self.t)
                v_hat = self.v[param].data / (1 - self.beta2 ** self.t)
                param.data = param.data - self.lr * u_hat.data / (ndl.ops.power_scalar(v_hat.data, 0.5) + self.eps).data
                
        

        ### END YOUR SOLUTION

Q4: DataLoader Implementation

在本问题中，我们将实现一些数据处理、Dataset 和 DataLoader 类。Dataset 类用于提供标准接口来访问数据集，DataLoader 类是从数据集读取一个 batch 的迭代器。

RandomFlipHorizontal
这个方法是按照概率 p 反转一张图片。注意输入数据的格式是 H*W*C，因此只要使用 np.flip 对 W 轴进行翻转即可。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19


class RandomFlipHorizontal(Transform):
    def __init__(self, p = 0.5):
        self.p = p

    def __call__(self, img):
        """
        Horizonally flip an image, specified as an H x W x C NDArray.
        Args:
            img: H x W x C NDArray of an image
        Returns:
            H x W x C ndarray corresponding to image flipped with probability self.p
        Note: use the provided code to provide randomness, for easier testing
        """
        flip_img = np.random.rand() < self.p
        ### BEGIN YOUR SOLUTION
        if flip_img:
            img = np.flip(img, axis=1)
        return img
        ### END YOUR SOLUTION

RandomCrop
这个方法是对原图进行随机裁剪。其实现裁剪的流程是：先在上下左右填充 padding 个空白像素，然后根据上下偏移量 shift_y 和左右偏移量 shift_y，在填充图中裁切出与原图大小相同的图片。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19


class RandomCrop(Transform):
    def __init__(self, padding=3):
        self.padding = padding

    def __call__(self, img):
        """ Zero pad and then randomly crop an image.
        Args:
             img: H x W x C NDArray of an image
        Return 
            H x W x C NAArray of cliped image
        Note: generate the image shifted by shift_x, shift_y specified below
        """
        shift_x, shift_y = np.random.randint(low=-self.padding, high=self.padding+1, size=2)
        ### BEGIN YOUR SOLUTION
        img_size = img.shape
        img = np.pad(img, ((self.padding, self.padding), (self.padding, self.padding), (0, 0)), 'constant')
        img = img[self.padding + shift_x:self.padding + shift_x + img_size[0], self.padding + shift_y:self.padding + shift_y + img_size[1], :]
        return img
        ### END YOUR SOLUTION

MNISTDataset
这里要实现针对 MNIST 数据集的 Dataset 子类，作为其子类，要实现三个方法：__init__ 方法初始化图片、标签和数据处理函数、__len__ 返回数据集样本数、__getitem__ 方法获取指定下标的数据集。

要注意的是：1) 使用之前实现的 parse_mnist 方法来解析 MNIST 数据集；2) Dataset 父类提供了 apply_transforms 方法对图片进行处理；3) __getitem__ 方法最好支持以列表指定的多下标以批量读取数据集;4) 图片处理函数接受的数据格式是 H*W*C，但 __getitem__ 返回值的格式应当为 batch_size*n。

代码实现为：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22


class MNISTDataset(Dataset):
    def __init__(
        self,
        image_filename: str,
        label_filename: str,
        transforms: Optional[List] = None,
    ):
        ### BEGIN YOUR SOLUTION
        self.transforms = transforms
        self.X, self.y = parse_mnist(image_filename, label_filename)
        
        ### END YOUR SOLUTION
    def __getitem__(self, index) -> object:
        ### BEGIN YOUR SOLUTION
        x = self.apply_transforms(self.X[index].reshape(28, 28, -1))
        return x.reshape(-1, 28*28), self.y[index]
        ### END YOUR SOLUTION

    def __len__(self) -> int:
        ### BEGIN YOUR SOLUTION
        return self.X.shape[0]
        ### END YOUR SOLUTION

Dataloader
Dataloader 类是一个迭代器，也挺简单的，见码知义：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46


class DataLoader:
    r"""
    Data loader. Combines a dataset and a sampler, and provides an iterable over
    the given dataset.
    Args:
        dataset (Dataset): dataset from which to load the data.
        batch_size (int, optional): how many samples per batch to load
            (default: ``1``).
        shuffle (bool, optional): set to ``True`` to have the data reshuffled
            at every epoch (default: ``False``).
     """
    dataset: Dataset
    batch_size: Optional[int]

    def __init__(
        self,
        dataset: Dataset,
        batch_size: Optional[int] = 1,
        shuffle: bool = False,
    ):

        self.dataset = dataset
        self.shuffle = shuffle
        self.batch_size = batch_size
        if not self.shuffle:
            self.ordering = np.array_split(np.arange(len(dataset)), 
                                           range(batch_size, len(dataset), batch_size))

    def __iter__(self):
        ### BEGIN YOUR SOLUTION
        if self.shuffle:
            self.ordering = np.array_split(np.random.permutation(len(self.dataset)), 
                                           range(self.batch_size, len(self.dataset), self.batch_size))
        self.index = 0
        ### END YOUR SOLUTION
        return self

    def __next__(self):
        ### BEGIN YOUR SOLUTION
        if self.index >= len(self.ordering):
            raise StopIteration
        else:
            batch = [Tensor.make_const(x) for x in self.dataset[self.ordering[self.index]]]
            self.index += 1
            return batch
        ### END YOUR SOLUTION

Q5: MLPResNet Implementation

到此为止，我们的 needle 库的各基本组件都实现好了，在本问题中，我们将使用他们拼出 MLP ResNet，并在 MNIST 数据集上进行训练。

Residual Block
首先是实现一个残差块，按照下图将这一块块积木拼出来就行：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16


def ResidualBlock(dim, hidden_dim, norm=nn.BatchNorm1d, drop_prob=0.1):
    ### BEGIN YOUR SOLUTION
    return nn.Sequential(
        nn.Residual(
            nn.Sequential(
                nn.Linear(dim, hidden_dim),
                norm(hidden_dim),
                nn.ReLU(),
                nn.Dropout(drop_prob),
                nn.Linear(hidden_dim, dim),
                norm(dim),
            )
        ),
        nn.ReLU(),
    )
    ### END YOUR SOLUTION

MLP ResNet
同样是拼积木，注意这里面有 num_blocks 个 Residual Block。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16


def MLPResNet(
    dim,
    hidden_dim=100,
    num_blocks=3,
    num_classes=10,
    norm=nn.BatchNorm1d,
    drop_prob=0.1,
):
    ### BEGIN YOUR SOLUTION
    return nn.Sequential(
        nn.Linear(dim, hidden_dim),
        nn.ReLU(),
        *[ResidualBlock(hidden_dim, hidden_dim//2, norm, drop_prob) for _ in range(num_blocks)],
        nn.Linear(hidden_dim, num_classes),
    )
    ### END YOUR SOLUTION

Epoch
Epoch 方法用来执行一个 epoch 的训练或者推理，并返回平均错误率或者平均损失，这个函数的逻辑是：实例化损失函数 - 从 DataLoader 获取输入 - 模型推理 - 计算损失 - 重置梯度 - 反向传播 - 更新参数 - 计算错误率。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24


def epoch(dataloader, model, opt=None):
    np.random.seed(4)
    ### BEGIN YOUR SOLUTION
    loss_func = nn.SoftmaxLoss()
    error_count = 0
    loss = 0
    for x, y in dataloader:
        if opt is None:
            model.eval()
        else:
            model.train()
        y_pred = model(x)
        batch_loss = loss_func(y_pred, y)
        loss += batch_loss.numpy() * x.shape[0]
        if opt is not None:
            opt.reset_grad()
            batch_loss.backward()
            opt.step()
        y = y.numpy()
        y_pred = y_pred.numpy()
        y_pred = np.argmax(y_pred, axis=1)
        error_count += np.sum(y_pred != y)
    return error_count / len(dataloader.dataset), loss / len(dataloader.dataset)
    ### END YOUR SOLUTION

Train MNIST
本方法用于在 MNIST 数据集上训练一个 MLP ResNet，本方法的逻辑是：实例化 Dataset- 实例化 DataLoader- 实例化模型 - 实例化优化器 - 迭代 epoch

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24


def train_mnist(
    batch_size=100,
    epochs=10,
    optimizer=ndl.optim.Adam,
    lr=0.001,
    weight_decay=0.001,
    hidden_dim=100,
    data_dir="data",
):
    np.random.seed(4)
    ### BEGIN YOUR SOLUTION
    train_dataset = ndl.data.MNISTDataset(data_dir+"/train-images-idx3-ubyte.gz", data_dir+"/train-labels-idx1-ubyte.gz")
    test_dataset = ndl.data.MNISTDataset(data_dir+"/t10k-images-idx3-ubyte.gz", data_dir+"/t10k-labels-idx1-ubyte.gz")
    train_dataloader = ndl.data.DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
    test_dataloader = ndl.data.DataLoader(test_dataset, batch_size=batch_size)
    model = MLPResNet(784, hidden_dim)
    opt = optimizer(model.parameters(), lr=lr, weight_decay=weight_decay)
    for i in range(epochs):
        train_error, train_loss = epoch(train_dataloader, model, opt)
        test_error, test_loss = epoch(test_dataloader, model)
        # print(f"Epoch {i+1}/{epochs} Train Error: {train_error:.4f} Train Loss: {train_loss:.4f} Test Error: {test_error:.4f} Test Loss: {test_loss:.4f}")
    return train_error, train_loss, test_error, test_loss
    
    ### END YOUR SOLUTION

hw2 小结

到这里，hw2 就已经完结啦。拖拖拖，拖了一个月才做完，本课程的 test 不是很严格，在 Debug hw2 的过程中发现了不少 hw1 中的错误。遇到问题除了自己调试，也建议参考一下别人的实现，能够提升找到问题所在的效率。

hw3

在本次实验中，我们将构建一个简单的底层库，用于实现 NDArray。之前我们是用 NunPy 来实现，这次我们将手动实现该 CPU 和 GPU 版本的底层库，并且不调用现有的高度优化的矩阵乘法或其他操作代码。

Part 1: Python array operations

第一个部分是通过 Python 代码修改 strides、shape、offset 字段来实现一些操作，由于不涉及底层，使用 Python 来实现这些方法效率已经够高了。

在实现前，先浏览一遍 ndarray.py，其提供大量辅助函数以简化实现过程。

reshape
reshape 操作就是按照另一种方式来解析内存中的连续一维数据。代码骨架提供了 NDArray.as_strided 方法将一个 NDArray 转换为指定 shape 和 strides，还有 NDArray.compact_strides 方法根据 shape 生成紧密排列情况下的 strides。

使用以上辅助函数后，reshape 的实现就相当简单：

1
2
3
4


def reshape(self, new_shape):
		assert prod(self.shape) == prod(new_shape), "Product of shapes must be equal"
	assert self.is_compact(), "Matrix must be compact"
	return self.as_strided(new_shape, NDArray.compact_strides(new_shape))

permute
permute 操作指的是对 NDArray 的轴进行重排列，例如原始轴排列的顺序是 BHWC，按照 (0,3,1,2) 方式重排列，得到的轴的顺序是 BCHW。重排后索引为 [i, j, k, l]，则重排前索引为 [i, k, l, j]。假设重排前的 strides 是 m, n, p, q，那么使用重排前索引得到元素下标为 im+kn+lp+jq = im+jq+kn+lp，即重排后索引对应的 strides 是 m, q, n, p，即将原始 strides 按照指定序列重排即可得到重排后对应的 strides。

1
2
3
4


def permute(self, new_axes):
	new_shape = tuple(self.shape[i] for i in new_axes)
	new_strides = tuple(self.strides[i] for i in new_axes)
	return NDArray.make(shape=new_shape, strides=new_strides, device=self.device, handle=self._handle, offset=self._offset)

broadcast_to
广播操作很好理解，就是将元素在某些维度上复制，例如 (1, 9, 8, 1) -> (9, 9, 8, 2)，那么广播后索引为 (m, n, p, q) 在原始数组上的索引就是 (0, n, p, 0)，即广播的维度上 strides 置为 0 即可实现该效果。

1
2
3
4
5
6
7
8
9


def broadcast_to(self, new_shape):
	assert all(
		new_shape[i] == self.shape[i] or self.shape[i] == 1
		for i in range(len(self.shape))
	), "Invalid broadcast shape"
	new_strides = tuple(
		self.strides[i] if self.shape[i] == new_shape[i] else 0 for i in range(len(self.shape))
	)
	return self.compact().as_strided(new_shape, new_strides)

__getitem__
getitem 用于获取制定索引的元素，并以 NDArray 的形式返回。这里需要注意的是索引都是 slice 对象，代码已完成了对索引的预处理，保证所有的索引都是标准 slice，即其 start、stop、step 属性都存在，且在对应 shape 范围内。

结果的 shape 计算比较简单，计算每个维度上的切片包含几个元素即可。strides 用于根据索引计算索引元素在一维数组中的下标，如果该维度上切片步长不为 1，那相当于每次都要跳过几个元素来访问下个元素，定量计算不难发现，新的 strides 就等于该维度上 slice.step 乘上对应的 strides。

接下来计算 offset，由于切片中存在 start 值，因此如果待访问的索引存在某个维度上索引值小于对应切片上的 start 值的，这个元素不应存在新的 NDArray 上。例如，切片在每个维度上的 start 值为 (2, 3, 4, 5)，那么原始索引 (1, 3, 4, 5) 或者 (2, 3, 4, 1) 都在切片后的首个元素之前，应该被 offset 覆盖。因此，offset 值等于每个维度上的 slice.start 乘上对应的 strides。

1
2
3
4
5
6
7
8


def __getitem__(self, idxs):
	...
	### BEGIN YOUR SOLUTION
	shape = tuple(max(0, (s.stop - s.start + s.step - 1) // s.step) for s in idxs)
	strides = tuple(s.step * self.strides[i] for i, s in enumerate(idxs))
	offset = reduce(operator.add, (s.start * self.strides[i] for i, s in enumerate(idxs)))
	return NDArray.make(shape, strides, device=self.device, handle=self._handle, offset=offset)
	### END YOUR SOLUTION

Part 2: CPU Backend - Compact and setitem

在本部分中，我们将实现 CPU 版本的 compact 和 setitem，前者用于在内存中创建一份紧密排列的数据副本，后者用于在内存中根据给定的数据赋值。

二者有个共同点，就是涉及到可变循环展开。即，由于给定 NDArray 的维度数量是不确定的，无法通过 n 重循环对数据进行遍历。此处我采用的思路是维护一个索引 (0, 0, 0, ..., 0)，每次手动在最后一位执行 +1 操作，当达到对应维度的 shape 值时则进位，直至最高位也向前进位，说明遍历完毕。

这里我定义了两个辅助函数 bool next_index(std::vector& index, const std::vector& shape) 和 size_t index_to_offset(const std::vector& index, const std::vector& strides, const size_t offset)，分别用于遍历索引和将索引转换为下标。二者实现为：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49


bool next_index(std::vector<int32_t>& index, const std::vector<int32_t>& shape) {
  /**
   * Increment the index by one, and return true if the index is still valid
   * 
   * Args:
   *  index: current index
   *  shape: shape of the array
   *  
   * Returns:
   *  true if the index is still valid, false otherwise
   */
  if(index.size() == 0){
    return false;
  }
  index[index.size()-1]++;
  for(int i=index.size()-1; i>=0; i--){
    if(index[i] >= shape[i]){
      index[i] = 0;
      if(i > 0){
        index[i-1]++;
      }
      else {
        return false;
      }
    }
    else {
      return true;
    }
  }
}

size_t index_to_offset(const std::vector<int32_t>& index, const std::vector<int32_t>& strides, const size_t offset) {
  /**
   * Convert an index to an offset
   * 
   * Args:
   *  index: index to convert
   *  strides: strides of the array
   *  offset: offset of the array
   *  
   * Returns:
   *  offset of the index
   */
  size_t res = offset;
  for(int i=0; i<index.size(); i++){
    res += index[i] * strides[i];
  }
  return res;
} 

compact
compact 函数只要在预分配内存的 out 上将每个位置的值写入即可。鉴于 out 在内存中是连续的，可以使用 out_index++ 来逐个访问，原始数据则通过上述两个辅助函数进行访问：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10


void Compact(const AlignedArray& a, AlignedArray* out, std::vector<int32_t> shape, std::vector<int32_t> strides, size_t offset) {
  /// BEGIN SOLUTION
  auto a_index = std::vector<int32_t>(shape.size(), 0);
  for (int out_index = 0; out_index < out->size; out_index++) {
    size_t a_offset = index_to_offset(a_index, strides, offset);
    out->ptr[out_index] = a.ptr[a_offset];
    next_index(a_index, shape);
  }
  /// END SOLUTION
}

setitem
setitem 按照是否为标量有两个版本，但都挺简单，利用好两个辅助函数逐个访问对应下标即可：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21


void EwiseSetitem(const AlignedArray& a, AlignedArray* out, std::vector<int32_t> shape, std::vector<int32_t> strides, size_t offset) {
  /// BEGIN SOLUTION
  auto out_index = std::vector<int32_t>(shape.size(), 0);
  for (int a_index = 0; a_index < a.size; a_index++) {
    size_t out_offset = index_to_offset(out_index, strides, offset);
    out->ptr[out_offset] = a.ptr[a_index];
    next_index(out_index, shape);
  }
  /// END SOLUTION
}

void ScalarSetitem(const size_t size, scalar_t val, AlignedArray* out, std::vector<int32_t> shape, td::vector<int32_t> strides, size_t offset) {
  /// BEGIN SOLUTION
  auto out_index = std::vector<int32_t>(shape.size(), 0);
  for (int i = 0; i < size; i++) {
    size_t out_offset = index_to_offset(out_index, strides, offset);
    out->ptr[out_offset] = val;
    next_index(out_index, shape);
  }
  /// END SOLUTION
}

Part 3: CPU Backend - Elementwise and scalar operations

在本 Part 中，我们将完成一些非常简单的算子的 CPU 版本，本任务主要是用于熟悉在 pybind 中注册 cpp 函数的流程。文档中提到，鼓励使用模板、宏等简化实现。

我没有为每个算子都写一个显式函数声明和定义，我首先实现了 void EwiseOp(const AlignedArray& a, const AlignedArray& b, AlignedArray* out, std::function op) 和 void ScalarOp(const AlignedArray& a, scalar_t val, AlignedArray* out, std::function op)，分别用于逐元素和统一执行函数 op，通过传入不同的函数 op 可以实现不同的操作。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29


void EwiseOp(const AlignedArray& a, const AlignedArray& b, AlignedArray* out, std::function<scalar_t(scalar_t, scalar_t)> op) {
  /**
   * Element-wise operation on two arrays
   *
   * Args:
   *   a: first array
   *   b: second array
   *   out: output array
   *   op: operation to perform
   */
  for (size_t i = 0; i < a.size; i++) {
    out->ptr[i] = op(a.ptr[i], b.ptr[i]);
  }
}

void ScalarOp(const AlignedArray& a, scalar_t val, AlignedArray* out, std::function<scalar_t(scalar_t, scalar_t)> op) {
  /**
   * Element-wise operation on an array and a scalar
   *
   * Args:
   *   a: array
   *   val: scalar
   *   out: output array
   *   op: operation to perform
   */
  for (size_t i = 0; i < a.size; i++) {
    out->ptr[i] = op(a.ptr[i], val);
  }
}

再通过 lambda 表达式对上面这两个函数部分实例化（柯里化），以便其只接受两个参数 a, b 并在 pybind 中注册。

举个栗子，如果想注册一个按元素乘法，那么完整的代码为：

1
2
3


m.def("ewise_mul", [](const AlignedArray& a, const AlignedArray& b, AlignedArray* out) {
    EwiseOp(a, b, out, std::multiplies<scalar_t>());
});

从外向内看，m.def 用于在 pybind 中注册一个方法，该方法名由第一个参数指定，即 ewise_mul，第二个参数用于指定对应的 cpp 函数，这里可以接受函数指针、匿名函数等。注意，在 python 我们调用 ewise_mul，只传入两个 NDArray，因此我们需要对接受三个参数的 EwiseOp 柯里化，即传入 std::multiplies() 给 EwiseOp，并将其封装为一个匿名函数。

注册方法的这一步每次都要创建一个匿名函数，有点复杂了，这一步也能抽象为一个宏，即：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15


  #define REGISTER_EWISW_OP(NAME, OP) \
    m.def(NAME, [](const AlignedArray& a, const AlignedArray& b, AlignedArray* out) { \
      EwiseOp(a, b, out, OP); \
    });

  #define REGISTER_SCALAR_OP(NAME, OP) \
    m.def(NAME, [](const AlignedArray& a, scalar_t val, AlignedArray* out) { \
      ScalarOp(a, val, out, OP); \
    });
  #define REGISTER_SINGLE_OP(NAME, OP) \
    m.def(NAME, [](const AlignedArray& a, AlignedArray* out) { \
      for (size_t i = 0; i < a.size; i++) { \
        out->ptr[i] = OP(a.ptr[i]); \
      } \
    });

上述三个宏，分别用于注册按元素、按标量的双目运算符，和单目运算符在 pybind 中的注册。

应用这些宏，注册所有指定的方法：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14


  REGISTER_EWISW_OP("ewise_mul", std::multiplies<scalar_t>());
  REGISTER_SCALAR_OP("scalar_mul", std::multiplies<scalar_t>());
  REGISTER_EWISW_OP("ewise_div", std::divides<scalar_t>());
  REGISTER_SCALAR_OP("scalar_div", std::divides<scalar_t>());
  REGISTER_SCALAR_OP("scalar_power", static_cast<scalar_t(*)(scalar_t, scalar_t)>(std::pow));
  REGISTER_EWISW_OP("ewise_maximum", static_cast<scalar_t(*)(scalar_t, scalar_t)>(std::fmax));
  REGISTER_SCALAR_OP("scalar_maximum", static_cast<scalar_t(*)(scalar_t, scalar_t)>(std::fmax));
  REGISTER_EWISW_OP("ewise_eq", std::equal_to<scalar_t>());
  REGISTER_SCALAR_OP("scalar_eq", std::equal_to<scalar_t>());
  REGISTER_EWISW_OP("ewise_ge", std::greater_equal<scalar_t>());
  REGISTER_SCALAR_OP("scalar_ge", std::greater_equal<scalar_t>());
  REGISTER_SINGLE_OP("ewise_log", std::log);
  REGISTER_SINGLE_OP("ewise_exp", std::exp);
  REGISTER_SINGLE_OP("ewise_tanh", std::tanh);

注意，其中 std::pow 等有多个重载版本，通过 static_cast 关键字可以指定版本。

Part 4: CPU Backend - Reductions

这里要实现两个归约算子 max 和 sum，为了简化实现，这里只对单个维度进行归约。即便在单个维度上，想要实现归约运算也是相当困难的，因此本任务还进行了简化：在调用归约算子前会将待归约维度重排到最后一个维度上，并在调用结束后自动恢复，因此我们只要实现对最后一个维度的归约运算。

经过一系列简化操作，这两个算子实现起来有点过于简单了：对连续的 reduce_size 个元素进行 max/sum 运算作为输出的新元素即可，最后记得在 pybind 中注册这两个方法：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21


void ReduceMax(const AlignedArray& a, AlignedArray* out, size_t reduce_size) {
  /// BEGIN SOLUTION
  for(size_t i = 0; i < out->size; i++){
    out->ptr[i] = a.ptr[i*reduce_size];
    for(size_t j = 1; j < reduce_size; j++){
      out->ptr[i] = std::max(out->ptr[i], a.ptr[i*reduce_size + j]);
    }
  }
  /// END SOLUTION
}

void ReduceSum(const AlignedArray& a, AlignedArray* out, size_t reduce_size) {
  /// BEGIN SOLUTION
  for(size_t i = 0; i < out->size; i++){
    out->ptr[i] = 0;
    for(size_t j = 0; j < reduce_size; j++){
      out->ptr[i] += a.ptr[i*reduce_size + j];
    }
  }
  /// END SOLUTION
}

Part 5: CPU Backend - Matrix multiplication

在本模块中，我们将实现矩阵乘法。

Matmul
首先要实现的是三重循环版本的矩阵乘法，外层两个循环依次为 out 的行和列，在开始实现之前，记得对 out 数组进行初始化！

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13


void Matmul(const AlignedArray& a, const AlignedArray& b, AlignedArray* out, uint32_t m, uint32_t n,
            uint32_t p) {
  for(uint32_t i = 0; i < m*p; i++){
    out->ptr[i] = 0;
  }
  for (uint32_t i=0; i<m; i++) {
    for (uint32_t j=0; j<p; j++) {
      for (uint32_t k=0; k<n; k++) {
        out->ptr[i*p + j] += a.ptr[i*n + k] * b.ptr[k*p + j];
      }
    }
  }
}

AlignedDot
本函数的作用是计算两个 TILE*TILE 的矩阵的矩阵乘法计算结果，并将其加到 out 的对应位置。我们是用三重循环来通过代码实现，而在编译时，其将被优化为向量计算。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19


inline void AlignedDot(const float* __restrict__ a,
                       const float* __restrict__ b,
                       float* __restrict__ out) {

  a = (const float*)__builtin_assume_aligned(a, TILE * ELEM_SIZE);
  b = (const float*)__builtin_assume_aligned(b, TILE * ELEM_SIZE);
  out = (float*)__builtin_assume_aligned(out, TILE * ELEM_SIZE);

  /// BEGIN SOLUTION

  for (uint32_t i=0; i<TILE; i++) {
    for (uint32_t j=0; j<TILE; j++) {
      for (uint32_t k=0; k<TILE; k++) {
        out[i*TILE + j] += a[i*TILE + k] * b[k*TILE + j];
      }
    }
  }
  /// END SOLUTION
}

MatmulTiled
这里通过分块来实现矩阵乘法，分块的原理和分块加速的原因在 Lecture 12 都讲过了，此处不再赘述，笔记在：《CMU 10-414 deep learning system》学习笔记 > Lecture 12。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13


void MatmulTiled(const AlignedArray& a, const AlignedArray& b, AlignedArray* out, uint32_t m,
                 uint32_t n, uint32_t p) {
  for(uint32_t i=0; i<m*p; i++){
    out->ptr[i] = 0;
  }
  for (uint32_t i=0; i<m/TILE; i++) {
    for (uint32_t j=0; j<p/TILE; j++) {
      for (uint32_t k=0; k<n/TILE; k++) {
        AlignedDot(a.ptr + (i*n/TILE + k)*TILE*TILE, b.ptr + (k*p/TILE + j)*TILE*TILE, out->ptr + (i*p/TILE + j)*TILE*TILE);
      }
    }
  }
}

Part 6: GPU Backend - Compact and setitem

从本 Part 开始，我们要写 CUDA 代码了，第一次接触 CUDA 编程的同学可以看一下这个不到 5 小时的教程 CUDA编程基础入门系列（持续更新）_哔哩哔哩_bilibili，快速入门。

本 Part 中，我们将实现 compact 和 setitem 算子。有了之前实现 CPU 版本的经验，先写一个将逻辑索引转换为物理索引的辅助函数：

1
2
3
4
5
6
7
8


__device__ size_t indexToMemLocation(size_t index, CudaVec shape, CudaVec strides, size_t offset){
  size_t ret = offset;
  for(int i=shape.size-1; i>=0; i--){
    ret += (index % shape.data[i]) * strides.data[i];
    index /= shape.data[i];
  }
  return ret;
}

CompactKernel 根据文档，其作用是将 a 中逻辑下标为 gid 的数据拷贝到 out[gid] 处，注意判断 gid 是否越界，即：

1
2
3
4
5
6
7
8
9


__global__ void CompactKernel(const scalar_t* a, scalar_t* out, size_t size, CudaVec shape,
                              CudaVec strides, size_t offset) {
  size_t gid = blockIdx.x * blockDim.x + threadIdx.x;

  if(gid >= size)
    return;
  size_t memLocation = indexToMemLocation(gid, shape, strides, offset);
  out[gid] = a[memLocation];
}

两个 setitem 算子照猫画虎，比较简单，直接贴代码：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88


__global__ void EwiseSetitemKernel(const scalar_t* a, scalar_t* out, size_t size, CudaVec shape, CudaVec strides,
                              size_t offset) {
  /**
   * 
   * Args:
   *   a: _compact_ array whose items will be written to out
   *   out: non-compact array whose items are to be written
   *   shape: shapes of each dimension for a and out
   *   strides: strides of the *out* array (not a, which has compact strides)
   *   offset: offset of the *out* array (not a, which has zero offset, being compact)
   */
  size_t gid = blockIdx.x * blockDim.x + threadIdx.x;
  if (gid < size){
    size_t memLocation = indexToMemLocation(gid, shape, strides, offset);
    out[memLocation] = a[gid];
  }
  
  
}


void EwiseSetitem(const CudaArray& a, CudaArray* out, std::vector<int32_t> shape,
                  std::vector<int32_t> strides, size_t offset) {
  /**
   * Set items in a (non-compact) array using CUDA.  Yyou will most likely want to implement a
   * EwiseSetitemKernel() function, similar to those above, that will do the actual work.
   * 
   * Args:
   *   a: _compact_ array whose items will be written to out
   *   out: non-compact array whose items are to be written
   *   shape: shapes of each dimension for a and out
   *   strides: strides of the *out* array (not a, which has compact strides)
   *   offset: offset of the *out* array (not a, which has zero offset, being compact)
   */
  /// BEGIN SOLUTION
  CudaDims dim = CudaOneDim(a.size);
  EwiseSetitemKernel<<<dim.grid, dim.block>>>(a.ptr, out->ptr, a.size, VecToCuda(shape),
                                         VecToCuda(strides), offset);
  /// END SOLUTION
}

__global__ void ScalarSetitemKernel(size_t size, scalar_t val, scalar_t* out, CudaVec shape, 
                                    CudaVec strides, size_t offset){
  size_t gid = blockIdx.x * blockDim.x + threadIdx.x;
  if (gid < size){
    size_t memLocation = indexToMemLocation(gid, shape, strides, offset);
    out[memLocation] = val;
  }
}

void ScalarSetitem(size_t size, scalar_t val, CudaArray* out, std::vector<int32_t> shape,
                   std::vector<int32_t> strides, size_t offset) {
  /**
   * Set items is a (non-compact) array
   * 
   * Args:
   *   size: number of elements to write in out array (note that this will note be the same as
   *         out.size, because out is a non-compact subset array);  it _will_ be the same as the 
   *         product of items in shape, but covenient to just pass it here.
   *   val: scalar value to write to
   *   out: non-compact array whose items are to be written
   *   shape: shapes of each dimension of out
   *   strides: strides of the out array
   *   offset: offset of the out array
   */
  /// BEGIN SOLUTION
  CudaDims dim = CudaOneDim(size);
  ScalarSetitemKernel<<<dim.grid, dim.block>>>(size, val, out->ptr, VecToCuda(shape),
                                         VecToCuda(strides), offset);
  /// END SOLUTION
}

////////////////////////////////////////////////////////////////////////////////
// Elementwise and scalar operations
////////////////////////////////////////////////////////////////////////////////

__global__ void EwiseAddKernel(const scalar_t* a, const scalar_t* b, scalar_t* out, size_t size) {
  size_t gid = blockIdx.x * blockDim.x + threadIdx.x;
  if (gid < size) out[gid] = a[gid] + b[gid];
}

void EwiseAdd(const CudaArray& a, const CudaArray& b, CudaArray* out) {
  /**
   * Add together two CUDA array
   */
  CudaDims dim = CudaOneDim(out->size);
  EwiseAddKernel<<<dim.grid, dim.block>>>(a.ptr, b.ptr, out->ptr, out->size);
}

Part 7: CUDA Backend - Elementwise and scalar operations

本 Part 将实现一系列比较简单的单目、双目运算符，重点讲一下如何精简代码。

在 CPU 版本中，我们通过 std::function 动态传入 Op 来实现不同的运算，但在 CUDA 的核函数中是不支持 std 的，因此我们改为通过模板来实现。

分别为逐元素运算和标量运算各写一个模板核函数：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11


template <typename Op>
__global__ void EwiseKernel(const scalar_t* a, const scalar_t* b, scalar_t* out, size_t size, Op op) {
    size_t gid = blockIdx.x * blockDim.x + threadIdx.x;
    if (gid < size) out[gid] = op(a[gid], b[gid]);
}

template <typename Op>
__global__ void ScalarKernel(const scalar_t* a, scalar_t val, scalar_t* out, size_t size, Op op) {
    size_t gid = blockIdx.x * blockDim.x + threadIdx.x;
    if (gid < size) out[gid] = op(a[gid], val);
}

CUDA 核函数中调用的其它函数必须也是核函数或者设备函数，因此我们还要为各个算子封装一个类，并重载 () 运算符，以便实例化上述两个模板核函数：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29


struct Add {
    __device__ scalar_t operator()(scalar_t x, scalar_t y) const { return x + y; }
};

struct Mul {
    __device__ scalar_t operator()(scalar_t x, scalar_t y) const { return x * y; }
};

struct Div {
    __device__ scalar_t operator()(scalar_t x, scalar_t y) const { return x / y; }
};

struct Maximum {
    __device__ scalar_t operator()(scalar_t x, scalar_t y) const { return max(x, y); }
};

struct Eq {
    __device__ scalar_t operator()(scalar_t x, scalar_t y) const { return x == y; }
};

struct Ge {
    __device__ scalar_t operator()(scalar_t x, scalar_t y) const { return x >= y; }
};

struct Power {
    scalar_t val;
    Power(scalar_t v) : val(v) {}
    __device__ scalar_t operator()(scalar_t x, scalar_t) const { return pow(x, val); }
};

接下来定义主机端接口，以便注册到 pybind11 中：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54


void EwiseMul(const CudaArray& a, const CudaArray& b, CudaArray* out) {
    CudaDims dim = CudaOneDim(out->size);
    EwiseKernel<<<dim.grid, dim.block>>>(a.ptr, b.ptr, out->ptr, out->size, Mul());
}

void ScalarMul(const CudaArray& a, scalar_t val, CudaArray* out) {
    CudaDims dim = CudaOneDim(out->size);
    ScalarKernel<<<dim.grid, dim.block>>>(a.ptr, val, out->ptr, out->size, Mul());
}

void EwiseDiv(const CudaArray& a, const CudaArray& b, CudaArray* out) {
    CudaDims dim = CudaOneDim(out->size);
    EwiseKernel<<<dim.grid, dim.block>>>(a.ptr, b.ptr, out->ptr, out->size, Div());
}

void ScalarDiv(const CudaArray& a, scalar_t val, CudaArray* out) {
    CudaDims dim = CudaOneDim(out->size);
    ScalarKernel<<<dim.grid, dim.block>>>(a.ptr, val, out->ptr, out->size, Div());
}

void ScalarPower(const CudaArray& a, scalar_t val, CudaArray* out) {
    CudaDims dim = CudaOneDim(out->size);
    ScalarKernel<<<dim.grid, dim.block>>>(a.ptr, val, out->ptr, out->size, Power(val));
}

void EwiseMaximum(const CudaArray& a, const CudaArray& b, CudaArray* out) {
    CudaDims dim = CudaOneDim(out->size);
    EwiseKernel<<<dim.grid, dim.block>>>(a.ptr, b.ptr, out->ptr, out->size, Maximum());
}

void ScalarMaximum(const CudaArray& a, scalar_t val, CudaArray* out) {
    CudaDims dim = CudaOneDim(out->size);
    ScalarKernel<<<dim.grid, dim.block>>>(a.ptr, val, out->ptr, out->size, Maximum());
}

void EwiseEq(const CudaArray& a, const CudaArray& b, CudaArray* out) {
    CudaDims dim = CudaOneDim(out->size);
    EwiseKernel<<<dim.grid, dim.block>>>(a.ptr, b.ptr, out->ptr, out->size, Eq());
}

void ScalarEq(const CudaArray& a, scalar_t val, CudaArray* out) {
    CudaDims dim = CudaOneDim(out->size);
    ScalarKernel<<<dim.grid, dim.block>>>(a.ptr, val, out->ptr, out->size, Eq());
}

void EwiseGe(const CudaArray& a, const CudaArray& b, CudaArray* out) {
    CudaDims dim = CudaOneDim(out->size);
    EwiseKernel<<<dim.grid, dim.block>>>(a.ptr, b.ptr, out->ptr, out->size, Ge());
}

void ScalarGe(const CudaArray& a, scalar_t val, CudaArray* out) {
    CudaDims dim = CudaOneDim(out->size);
    ScalarKernel<<<dim.grid, dim.block>>>(a.ptr, val, out->ptr, out->size, Ge());
}

上述是双目运算符的实现，接下来实现单目运算符。单目运算符也可以像双目一样通过模板实现，但 copilot 直接生成了对应代码，我也懒得改：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29


__global__ void EwiseLogKernel(const scalar_t* a, scalar_t* out, size_t size) {
    size_t gid = blockIdx.x * blockDim.x + threadIdx.x;
    if (gid < size) out[gid] = log(a[gid]);
}

void EwiseLog(const CudaArray& a, CudaArray* out) {
    CudaDims dim = CudaOneDim(out->size);
    EwiseLogKernel<<<dim.grid, dim.block>>>(a.ptr, out->ptr, out->size);
}

__global__ void EwiseExpKernel(const scalar_t* a, scalar_t* out, size_t size) {
    size_t gid = blockIdx.x * blockDim.x + threadIdx.x;
    if (gid < size) out[gid] = exp(a[gid]);
}

void EwiseExp(const CudaArray& a, CudaArray* out) {
  CudaDims dim = CudaOneDim(out->size);
  EwiseExpKernel<<<dim.grid, dim.block>>>(a.ptr, out->ptr, out->size);
}

__global__ void EwiseTanhKernel(const scalar_t* a, scalar_t* out, size_t size) {
    size_t gid = blockIdx.x * blockDim.x + threadIdx.x;
    if (gid < size) out[gid] = tanh(a[gid]);
}

void EwiseTanh(const CudaArray& a, CudaArray* out) {
    CudaDims dim = CudaOneDim(out->size);
    EwiseTanhKernel<<<dim.grid, dim.block>>>(a.ptr, out->ptr, out->size);
}

最后，将本文件最后 m.def 开头的代码取消注释，将对应接口注册到 pybind11 中即可。

Part 8: CUDA Backend - Reductions

本 Part 将实现两个规约算子 sum 和 max。

和 CPU 版本一样，待归约的元素在内存中是连续排列的。在 CUDA 中，由每个线程负责一个规约任务，其负责的规约范围为 [gid*size, min(gid*size+size, a_size)]，其中 size 是单个线程负责规约的长度，a_size 是输入数据的长度。

核函数中根据具体的规约算子，计算求和或者最大值即可：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65


__global__ void ReduceMaxKernel(const scalar_t* a, scalar_t* out, size_t size, size_t a_size) {
  /**
   * 对a中连续`size`个元素进行规约
   */
  size_t gid = blockIdx.x * blockDim.x + threadIdx.x;
  size_t start = gid * size;
  size_t end = min(start + size, a_size);
  if(start < end){
    scalar_t max_val = a[start];
    for(size_t i=start+1; i<end; i++){
      max_val = max(max_val, a[i]);
    }
    out[gid] = max_val;
  }
}

void ReduceMax(const CudaArray& a, CudaArray* out, size_t reduce_size) {
  /**
   * Reduce by taking maximum over `reduce_size` contiguous blocks.  Even though it is inefficient,
   * for simplicity you can perform each reduction in a single CUDA thread.
   * 
   * Args:
   *   a: compact array of size a.size = out.size * reduce_size to reduce over
   *   out: compact array to write into
   *   redice_size: size of the dimension to reduce over
   */
  /// BEGIN SOLUTION
  CudaDims dim = CudaOneDim(out->size);
  ReduceMaxKernel<<<dim.grid, dim.block>>>(a.ptr, out->ptr, reduce_size, a.size);
  /// END SOLUTION
}

__global__ void ReduceSumKernel(const scalar_t* a, scalar_t* out, size_t size, size_t a_size) {
  /**
   * 对a中连续`size`个元素进行规约
   */
  size_t gid = blockIdx.x * blockDim.x + threadIdx.x;
  size_t start = gid * size;
  size_t end = min(start + size, a_size);
  if(start >= end){
    return;
  }
  out[gid] = 0; // 如果进行初始化，必须只有需要运行线程才能初始化，否则会越界修改数据
  for(size_t i=start; i<end; i++){
    out[gid] += a[i];
  }
}



void ReduceSum(const CudaArray& a, CudaArray* out, size_t reduce_size) {
  /**
   * Reduce by taking summation over `reduce_size` contiguous blocks.  Again, for simplicity you 
   * can perform each reduction in a single CUDA thread.
   * 
   * Args:
   *   a: compact array of size a.size = out.size * reduce_size to reduce over
   *   out: compact array to write into
   *   redice_size: size of the dimension to reduce over
   */
  /// BEGIN SOLUTION
  CudaDims dim = CudaOneDim(out->size);
  ReduceSumKernel<<<dim.grid, dim.block>>>(a.ptr, out->ptr, reduce_size, a.size);
  /// END SOLUTION
}

Part 9: CUDA Backend - Matrix multiplication

这是最后一个任务，也是最难的一部分。正如文档中所说，想要实现一个矩阵乘法算子还是挺简单的，让每个线程负责一个结果的计算即可。但，如果想使用 cooperative fetching 和 block shared memory register tiling 技术，尤其是按照理论课中提到的伪代码来实现，则要困难得多。

首先贴出理论课中提到的伪代码：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29


__global__ void mm(float A[N][N], float B[N][N], float C[N][N]) {
    __shared__ float sA[S][L], sB[S][L];
    float c[V][V] = {0};
    float a[V], b[V];
    int yblock = blockIdx.y;
    int xblock = blockIdx.x;

    for (int ko = 0; ko < N; ko += S) {
        __syncthreads();
        // needs to be implemented by thread cooperative fetching
        sA[:, :] = A[ko + S, yblock * L : yblock * L + L];
        sB[:, :] = B[ko + S, xblock * L : xblock * L + L];
        __syncthreads();

        for (int ki = 0; ki < S; ++ki) {
            a[:] = sA[ki, threadIdx.x * V + V];
            b[:] = sB[ki, threadIdx.x * V + V];
            for (int y = 0; y < V; ++y) {
                for (int x = 0; x < V; ++x) {
                    c[y][x] += a[y] * b[x];
                }
            }
        }
    }

    int ybase = blockIdx.y * blockDim.y + threadIdx.y;
    int xbase = blockIdx.x * blockDim.x + threadIdx.x;
    C[ybase * V : ybase * V + V, xbase * V : xbase * V + V] = c[:, :];
}

如上图所示，我们要计算的是两个长度为 N 的方阵之间的乘法，结果矩阵 C 会被分块为 (L,L) 的子矩阵，每个 block 负责计算一个子矩阵。

为了计算这个子矩阵，索引为 block_x, block_y 的 block 需要用到的数据为 A'=A[L*block_x:L*block_x+L,:] 和 B'=B[:,L*block_x:L*block_x+L]。A’ 和 B’ 可能比较大，因此在另一维度上按照长度 S 再次分为 N/S 块，分块后的 shape 分别为 (L,S) 和 (S,L)，二者的矩阵乘法结果的 shape 为 (L,L)，将 N/S 块累加即可得到该 block 负责的子矩阵的结果。

后文将使用矩阵的 shape 来指代该矩阵。

在计算单个 (L,S) 和 (S,L) 的乘法时，每个 block 都会将其对应的数据，即图中 A 和 B 的阴影部分，加载进 block 内线程共享的共享内存中。

通过外积计算单个 (L,S) 和 (S,L) 的乘法，该算法简单说就是从 (L,S) 任取一列，从 (S,L) 中任取一行，进行外积运算。将各种组合方式的外积结果累加，即可实现矩阵乘法。

单个外积运算由 block 内的线程共同完成，如图中所示，每个 thread 负责计算的就是 (V,V) 的更小的矩阵。具体来说，从 (L,S) 任取一列的 shape 为 (L,1)，从 (S,L) 任取一行的 shape 为 (1,L)，对二者按照长度为 V 再次进行分块，即分块为 (V,1) 和 (1,V)shape 的两个矩阵，然后由一个线程负责计算二者的外积，得到 shape 为 (V,V) 的结果。

以上就是理论课伪代码中提到的算法，将其改写为 CUDA 代码时需要考虑各种情况，有如下注意点：

理论中提到的需要分块的场景，在实践中可能存在不能完美切分，由余数的情况，需要判断是否越界；
每个 block 要计算的结果子矩阵是根据该 block 在 grid 中的位置确定的，每个 thread 要计算的外积的部分是根据其在 block 中的位置确定的；
理论中的 S 和 L 在代码中均取值为宏定义常量 TILE 4，V 取值为宏定义常量 V 2。

代码中写了比较详细的注释，这部分比较复杂，难以单纯通过文字讲明白，如有问题欢迎留言一起讨论。

  1
  2
  3
  4
  5
  6
  7
  8
  9
 10
 11
 12
 13
 14
 15
 16
 17
 18
 19
 20
 21
 22
 23
 24
 25
 26
 27
 28
 29
 30
 31
 32
 33
 34
 35
 36
 37
 38
 39
 40
 41
 42
 43
 44
 45
 46
 47
 48
 49
 50
 51
 52
 53
 54
 55
 56
 57
 58
 59
 60
 61
 62
 63
 64
 65
 66
 67
 68
 69
 70
 71
 72
 73
 74
 75
 76
 77
 78
 79
 80
 81
 82
 83
 84
 85
 86
 87
 88
 89
 90
 91
 92
 93
 94
 95
 96
 97
 98
 99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140


__global__ void MatmulKernel(const scalar_t* a, const scalar_t* b, scalar_t* c, uint32_t M, uint32_t N,
            uint32_t P){
#define V 2
#define TILE 4
  /**
   * 使用分块计算矩阵乘法，按照TILE大小分块
   * a: M x N
   * b: N x P
   */
  int block_x = blockIdx.x;
  int block_y = blockIdx.y;
  int thread_x = threadIdx.x;
  int thread_y = threadIdx.y;
  int thread_id = thread_x + thread_y * blockDim.x;
  int nthreads = blockDim.x * blockDim.y;
  // 每个block负责计算一个子矩阵的结果，具体来说，就是c[block_x*TILE: (block_x+1)*TILE, block_y*TILE: (block_y+1)*TILE]
  // 通过累加"outer product"的结果计算这个子矩阵，product的两个元素都是分块后行列子矩阵的一个stripe
  // 例如，a按行分块后每一块shape是(TILE, N)，再取一个stripe的shape就是(TILE, TILE)
  // outer product每次的步长不是1，而是TILE

  __shared__ scalar_t a_shared[TILE][TILE];
  __shared__ scalar_t b_shared[TILE][TILE];
  scalar_t c_reg[V][V] = {0};
  scalar_t a_reg[V]={0}, b_reg[V]={0};


  for(int start=0; start<N; start+=TILE){
    __syncthreads();
    // 一共有TILE * TILE个元素要导入，每个线程平均负责(TILE * TILE+nthreads-1)/nthreads个元素
    // for (int i=0; i<(TILE * TILE+nthreads-1)/nthreads; i++){
    //   int idx = thread_id + i * nthreads; // 在shared中的索引
    //   int x = idx / TILE; // 在shared中的索引
    //   int y = idx % TILE; // 在shared中的索引
    //   // a_shared中的(x, y)相当于a中的(x+block_x*TILE, y+start)
    //   // b_shared中的(x, y)相当于b中的(x+start, y+block_y*TILE)
    //   if(x+block_x*TILE < M && y+start < N){
    //     a_shared[x][y] = a[(x+block_x*TILE)*N + y+start];
    //   }
    //   if(x+start < N && y+block_y*TILE < P){
    //     b_shared[x][y] = b[(x+start)*P + y+block_y*TILE];
    //   }
    // }
    for (int idx = thread_id; idx < TILE * TILE; idx += nthreads){
      int x = idx / TILE; // 在shared中的索引
      int y = idx % TILE; // 在shared中的索引
      // a_shared中的(x, y)相当于a中的(x+block_x*TILE, y+start)
      // b_shared中的(x, y)相当于b中的(x+start, y+block_y*TILE)
      if(x+block_x*TILE < M && y+start < N){
        a_shared[x][y] = a[(x+block_x*TILE)*N + y+start];
      }
      if(x+start < N && y+block_y*TILE < P){
        b_shared[x][y] = b[(x+start)*P + y+block_y*TILE];
      }
    }
    __syncthreads();
    // 接下来开始计算外积
    // 通过遍历a_shared的列和b_shared的行，也就是a_shared的第stripe_i行和b_shared的第stripe_i列
    int stripe_cnt = min(TILE, N-start);
    for(int stripe_i=0; stripe_i<stripe_cnt; stripe_i++){
    // 这个外积由nthreads负责计算，这个外积将stripe_a 和 stripe_b 按照连续的V行/列分块，由每个线程计算
    // 接下来把计算V*V的外积结果的要用的数据加载到寄存器数组中
      if(thread_x * V >= TILE || thread_y * V >= TILE)
        continue;
      for(int reg_x=0; reg_x<V; reg_x++){
        int shared_x = reg_x + thread_x * V;
        if(shared_x >= TILE){
          break;
        }
        a_reg[reg_x] = a_shared[shared_x][stripe_i];
        // b_reg[reg_x] = b_shared[stripe_i][shared_x];
      }
      for(int reg_y=0; reg_y<V; reg_y++){
        int shared_y = reg_y + thread_y * V;
        if(shared_y >= TILE){
          printf("quit: thread id: %d, shared_y: %d, TILE: %d\n", thread_id, shared_y, TILE);
          break;
        }
        // a_reg[reg_y] = a_shared[stripe_i][shared_y];
        b_reg[reg_y] = b_shared[stripe_i][shared_y];
      }
      for(int i=0; i<V; i++){
        for(int j=0; j<V; j++){
          // 这里“越界”可以不管吧？把c_reg放到结果中的时候再处理
          c_reg[i][j] += a_reg[i] * b_reg[j];
        }
      }
    }
  }

  // 把c_reg的结果写入到c中
  if(thread_x * V >= TILE || thread_y * V >= TILE)
    return;
  for(int i=0; i<V; i++){
    for(int j=0; j<V; j++){
      int x = block_x * TILE + thread_x * V + i;
      int y = block_y * TILE + thread_y * V + j;
      if(x < M && y < P){
        c[x*P + y] = c_reg[i][j];
      } else {
        break;
      }

    }
  }


}

void Matmul(const CudaArray& a, const CudaArray& b, CudaArray* out, uint32_t M, uint32_t N,
            uint32_t P) {
  /**
   * Multiply two (compact) matrices into an output (also comapct) matrix.  You will want to look
   * at the lecture and notes on GPU-based linear algebra to see how to do this.  Since ultimately
   * mugrade is just evaluating correctness, you _can_ implement a version that simply parallelizes
   * over (i,j) entries in the output array.  However, to really get the full benefit of this
   * problem, we would encourage you to use cooperative fetching, shared memory register tiling, 
   * and other ideas covered in the class notes.  Note that unlike the tiled matmul function in
   * the CPU backend, here you should implement a single function that works across all size
   * matrices, whether or not they are a multiple of a tile size.  As with previous CUDA
   * implementations, this function here will largely just set up the kernel call, and you should
   * implement the logic in a separate MatmulKernel() call.
   * 
   *
   * Args:
   *   a: compact 2D array of size m x n
   *   b: comapct 2D array of size n x p
   *   out: compact 2D array of size m x p to write the output to
   *   M: rows of a / out
   *   N: columns of a / rows of b
   *   P: columns of b / out
   */

  /// BEGIN SOLUTION
  // 结果的shape是M*P，每个block负责计算一个TILE*TILE的子矩阵
  dim3 grid_dim = dim3((M + TILE - 1) / TILE, (P + TILE - 1) / TILE, 1);
  dim3 block_dim = dim3(16, 16, 1);
  // dim3 block_dim = dim3(2, 2, 1);
  MatmulKernel<<<grid_dim, block_dim>>>(a.ptr, b.ptr, out->ptr, M, N, P);
  /// END SOLUTION
}

hw3 小结

本 hw 主要内容是各算子 CPU 和 GPU 版本的底层实现，由于是第一次接触 CUDA 代码，在实现 GPU 版本的矩阵乘法的时候花了不少时间 Debug，调试到最后甚至要头疼昏睡过去。好在皇天不负苦心人，灵感一瞬间它就来了，谁懂这柳暗花明又一村的感觉。特别感谢好友为我讲解矩阵乘法的实现、大半夜不厌其烦地与我一起调试代码。

hw4

本实验中，首先将实现一些算子，然后分别实现 CNN 和 RNN 网络，并在数据集上进行训练。

Part 1: ND Backend

首先将 src/*、autograd.py、ndarray.py 文件中未实现的方法从之前的 hw 中复制过来，然后在 ops_*.py 中实现之前实现过的 op，大部分只要复制粘贴。

提一下我踩过的坑 ²：

autograd.py 中头文件为如下内容，以保证我们这里使用的后端是根据环境变量 NEEDLE_BACKEND 自动切换的，并且不为 NumPy 后端。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14


import needle
# from .backend_numpy import Device, cpu, all_devices
from typing import List, Optional, NamedTuple, Tuple, Union
from collections import namedtuple
import numpy

from needle import init

# needle version
LAZY_MODE = False
TENSOR_COUNTER = 0

from .backend_selection import array_api, NDArray, default_device
from .backend_selection import Device, cpu, all_devices

在 ndarray.py 中 sum 和 max 规约函数是不支持指定多个轴的，需要修改之以便支持多个轴。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27


def sum(self, axis=None, keepdims=False):
	if isinstance(axis, int):
		view, out = self.reduce_view_out(axis, keepdims=keepdims)
		self.device.reduce_sum(view.compact()._handle, out._handle, view.shape[-1])
	elif isinstance(axis, (tuple, list)):
		for axis_ in axis:
			view, out = self.reduce_view_out(axis_, keepdims=keepdims)
			self.device.reduce_sum(view.compact()._handle, out._handle, view.shape[-1])
	else:
		view, out = self.reduce_view_out(axis, keepdims=keepdims)
		self.device.reduce_sum(view.compact()._handle, out._handle, view.shape[-1])
	
	return out

def max(self, axis=None, keepdims=False):
	if isinstance(axis, int):
		view, out = self.reduce_view_out(axis, keepdims=keepdims)
		self.device.reduce_max(view.compact()._handle, out._handle, view.shape[-1])
	elif isinstance(axis, (tuple, list)):
		for axis_ in axis:
			view, out = self.reduce_view_out(axis_, keepdims=keepdims)
			self.device.reduce_max(view.compact()._handle, out._handle, view.shape[-1])
	else:
		view, out = self.reduce_view_out(axis, keepdims=keepdims)
		self.device.reduce_max(view.compact()._handle, out._handle, view.shape[-1])
	
	return out

在 reshape 之前，要调用 compact
在创建 Tensor 时，要确保其与其它数据的 device 相同
在 autograd.py 中，有一行代码为 __rsub__ = __sub__，其将 Tensor 的 rsub 方法重定向到了 sub 上，然而减法不具备交换律，该行代码是错误的。需要注释该行，并自行定义 rsub 函数。

1
2


def __rsub__(self, other):
	return needle.ops.AddScalar(other)(needle.ops.Negate()(self))

然后我们来实现新增的三个 op。

tanh
tanh 在我们实现的 backend 中已经有对应的接口了，正向传播直接调用即可。tanh 反向传播公式为：

$$ \tanh^\prime(x) = 1-\tanh^2(x) $$

反向传播中直接用 1 减去 node 的平方即可。需要注意，这里有一个上面提到的坑，也就是要自定义 rsub 函数。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10


class Tanh(TensorOp):
    def compute(self, a):
        ### BEGIN YOUR SOLUTION
        return array_api.tanh(a)
        ### END YOUR SOLUTION

    def gradient(self, out_grad, node):
        ### BEGIN YOUR SOLUTION
        return out_grad * (1 - node ** 2)
        ### END YOUR SOLUTION

stack
stack 函数是将多个相同 shape 的 Tensor 堆叠起来，并且会产生一个新的维度。正向传播实现的思路是先分配一个目标 shape 的 Tensor，然后通过赋值运算将他们放到目标位置。这里预分配时 Tensor 需要指定 device 与输入的 Tensor device 一致。反向传播调用逆运算 split。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31


class Stack(TensorOp):
    def __init__(self, axis: int):
        """
        Concatenates a sequence of arrays along a new dimension.
        Parameters:
        axis - dimension to concatenate along
        All arrays need to be of the same size.
        """
        self.axis = axis

    def compute(self, args: TensorTuple) -> Tensor:
        ### BEGIN YOUR SOLUTION
        if len(args) > 0:
            shape = args[0].shape
            for arg in args:
                assert arg.shape == shape, "The shape of all tensors should be the same"
            ret_shape = list(shape)
            ret_shape.insert(self.axis, len(args))
            ret = array_api.empty(ret_shape, device=args[0].device)
            for i, arg in enumerate(args):
                slices = [slice(None)] * len(ret_shape)
                slices[self.axis] = i
                ret[tuple(slices)] = arg
            return ret
        ### END YOUR SOLUTION


    def gradient(self, out_grad, node):
        ### BEGIN YOUR SOLUTION
        return split(out_grad, self.axis)
        ### END YOUR SOLUTION

split
split 方法是将指定的一个维度全部拆开，需要注意的是拆开之后的维度不需要 keep dim，也就是要进行一次 reshape 操作，而在 reshape 前是需要显式调用 compact 的。反向传播直接调用 stack 方法即可。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30


class Split(TensorTupleOp):
    def __init__(self, axis: int):
        """
        Splits a tensor along an axis into a tuple of tensors.
        (The "inverse" of Stack)
        Parameters:
        axis - dimension to split
        """
        self.axis = axis

    def compute(self, A):
        ### BEGIN YOUR SOLUTION
        ret = []
        ret_shape = list(A.shape)
        ret_shape.pop(self.axis)
        for i in range(A.shape[self.axis]):
            slices = [slice(None)] * len(A.shape)
            slices[self.axis] = i
            ret.append((A[tuple(slices)]).compact().reshape(ret_shape))
        return tuple(ret)
        ### END YOUR SOLUTION

    def gradient(self, out_grad, node):
        ### BEGIN YOUR SOLUTION
        return stack(out_grad, self.axis)
        ### END YOUR SOLUTION


def split(a, axis):
    return Split(axis)(a)

Part 2: CIFAR-10 dataset

在本 Part 中，将完成对 CIFAR-10 数据库的解析。首先从之前的 hw 中复制 python/needle/data/data_transforms.py 和 python/needle/data/data_basic.py 两个文件，并修改 data_basic 中 DataLoader::__next__ 方法为：

1
2
3
4
5
6
7


def __next__(self):
	if self.index >= len(self.ordering):
		raise StopIteration
	else:
		batch = [Tensor(x) for x in self.dataset[self.ordering[self.index]]]
		self.index += 1
		return batch

在之前 hw 中使用 Tensor.make_const 来实现，但其不会根据当前的 backend 自动切换 cached_data 的数据结构。

CIFAR-10 的数据格式参考 CIFAR-10 and CIFAR-100 datasets，简单来说，按照 batch, channel, height, width 的格式排列。__init__ 方法实现参考网站上已经给出的代码读取数据集，然后进行 reshape 和归一化的操作即可，另外两个方法可以直接写出来。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47


class CIFAR10Dataset(Dataset):
    def __init__(
        self,
        base_folder: str,
        train: bool,
        p: Optional[int] = 0.5,
        transforms: Optional[List] = None
    ):
        """
        Parameters:
        base_folder - cifar-10-batches-py folder filepath
        train - bool, if True load training dataset, else load test dataset
        Divide pixel values by 255. so that images are in 0-1 range.
        Attributes:
        X - numpy array of images
        y - numpy array of labels
        """
        ### BEGIN YOUR SOLUTION
        train_names = ['data_batch_1', 'data_batch_2', 'data_batch_3', 'data_batch_4', 'data_batch_5']
        test_names = ['test_batch']
        names = train_names if train else test_names
        dicts = []
        for name in names:
            with open(os.path.join(base_folder, name), 'rb') as f:
                dicts.append(pickle.load(f, encoding='bytes'))
        self.X = np.concatenate([d[b'data'] for d in dicts], axis=0).reshape(-1, 3, 32, 32)
        self.X = self.X / 255.0
        self.y = np.concatenate([d[b'labels'] for d in dicts], axis=0)
        
        ### END YOUR SOLUTION

    def __getitem__(self, index) -> object:
        """
        Returns the image, label at given index
        Image should be of shape (3, 32, 32)
        """
        ### BEGIN YOUR SOLUTION
        return self.X[index], self.y[index]
        ### END YOUR SOLUTION

    def __len__(self) -> int:
        """
        Returns the total number of examples in the dataset
        """
        ### BEGIN YOUR SOLUTION
        return len(self.X)
        ### END YOUR SOLUTION

Part 3: Convolutional neural network

在本 Part 中，我们将首先实现一些算子，然后实现一个 CNN 网络并在 CIFAR 数据集上进行训练。

pad
pad 操作逻辑为：首先计算出 out 的 shape，创建一个大小为 shape 的全零 Tensor，然后通过切片将原矩阵赋值到对应位置：

1
2
3
4
5
6


def pad(self, axes):
	out_shape = tuple(self.shape[i] + axes[i][0] + axes[i][1] for i in range(len(self.shape)))
	out = self.device.full(out_shape, 0)
	slices = tuple(slice(axes[i][0], axes[i][0] + self.shape[i]) for i in range(len(self.shape)))
	out[slices] = self
	return out

flip
很难解释为什么，但是 flip 操作通过负 strides 和正 offset 就可以实现。具体来说，将需要 flip 的维度的 stride 值取负，offset 值等于需要 flip 的维度的 strides 乘 shape-1 然后求和。可以结合代码理解上面这段话：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28


# ndarray.py
def flip(self, axes):
	assert isinstance(axes, tuple), "axes must be a tuple"
	
	strides = tuple(self.strides[i] if i not in axes else -self.strides[i] for i in range(len(self.shape)))
	sum = __builtins__["sum"]
	offset = sum((self.shape[i] - 1) * self.strides[i] for i in range(len(self.shape)) if i in axes)
	out = NDArray.make(self.shape, strides=strides, device=self.device, handle=self._handle, offset=offset).compact()
	return out

# ops_mathematic.py
class Flip(TensorOp):
    def __init__(self, axes: Optional[tuple] = None):
        if isinstance(axes, int):
            axes = (axes,)
        if isinstance(axes, list):
            axes = tuple(axes)
        self.axes = axes

    def compute(self, a):
        ### BEGIN YOUR SOLUTION
        return array_api.flip(a, self.axes)
        ### END YOUR SOLUTION

    def gradient(self, out_grad, node):
        ### BEGIN YOUR SOLUTION
        return flip(out_grad, self.axes)
        ### END YOUR SOLUTION

通过操纵 offset 和 strides 实现 flip 在数学角度应该是可以证明的，此处不表。

dilate/undilate
dilate 操作之前没有接触过，但下边的公式很形象：

$$ \begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix} \Longrightarrow \begin{bmatrix} 1 & 0 & 2 & 0 \\ 0 & 0 & 0 & 0 \\ 3 & 0 & 4 & 0 \\ 0 & 0 & 0 & 0 \end{bmatrix} $$

参数 dilation 就是 0 的个数。

这个函数的实现思路与 flip 非常接近，先计算 out 的 shape，然后创建空矩阵，然后通过切片选择目标元素：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58


class Dilate(TensorOp):
    def __init__(self, axes: tuple, dilation: int):
        self.axes = axes
        self.dilation = dilation

    def compute(self, a):
        ### BEGIN YOUR SOLUTION
        if self.dilation == 0:
            return a
        out_shape = list(a.shape)
        for i in self.axes:
            out_shape[i] *= self.dilation + 1
        out = array_api.full(out_shape, 0, device=a.device)
        slices = [slice(None)] * len(a.shape)
        for dim in self.axes:
            slices[dim] = slice(None, None, self.dilation+1)
        out[tuple(slices)] = a
        return out
        ### END YOUR SOLUTION

    def gradient(self, out_grad, node):
        ### BEGIN YOUR SOLUTION
        return undilate(out_grad, self.axes, self.dilation)
        ### END YOUR SOLUTION


def dilate(a, axes, dilation):
    return Dilate(axes, dilation)(a)


class UnDilate(TensorOp):
    def __init__(self, axes: tuple, dilation: int):
        self.axes = axes
        self.dilation = dilation

    def compute(self, a):
        ### BEGIN YOUR SOLUTION
        if self.dilation == 0:
            return a
        out_shape = list(a.shape)
        for i in self.axes:
            out_shape[i] //= self.dilation + 1
        out = array_api.empty(out_shape, device=a.device)
        slices = [slice(None)] * len(a.shape)
        for dim in self.axes:
            slices[dim] = slice(None, None, self.dilation+1)
        out = a[tuple(slices)]
        return out
        ### END YOUR SOLUTION

    def gradient(self, out_grad, node):
        ### BEGIN YOUR SOLUTION
        return dilate(out_grad, self.axes, self.dilation)
        ### END YOUR SOLUTION


def undilate(a, axes, dilation):
    return UnDilate(axes, dilation)(a)

dilate 和 undilate 互为逆运算，在计算梯度时互相调用即可。

conv
首先处理 padding，不难发现，padding 和 conv 之间具有结合性，即如下两行代码是等价的：

1
2
3


conv(X, W, padding=n)

conv(pad(X, n), W, padding=0)

因此，第一步就是将 X 进行 pad，作为新的 X。后面通过 im2col 技术和操作 strides 将 X 和 W 向量化，通过矩阵乘法来实现卷积。上述原理见课程笔记：《CMU 10-414 deep learning system》学习笔记 | 周鑫的个人博客。

反向传播推导见博文：2d 卷积梯度推导与实现 | 周鑫的个人博客

实现 Conv 的代码中使用了较多的 permute 重排操作，如果用 transpose 来实现重排太麻烦了，倒不如直接实现个重排的 TensorOp：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20


class Permute(TensorOp):
    def __init__(self, axes: tuple):
        self.axes = axes

    def compute(self, a):
        ### BEGIN YOUR SOLUTION
        return a.compact().permute(self.axes)
        ### END YOUR SOLUTION

    def gradient(self, out_grad, node):
        ### BEGIN YOUR SOLUTION
        a = node.inputs[0]
        index = [0] * len(self.axes)
        for i in range(len(self.axes)):
            index[self.axes[i]] = i
        return permute(out_grad, tuple(index))
        ### END YOUR SOLUTION
        
def permute(a, axes):
    return Permute(axes)(a)

最终实现的代码为：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53


class Conv(TensorOp):
    def __init__(self, stride: Optional[int] = 1, padding: Optional[int] = 0):
        self.stride = stride
        self.padding = padding

    def compute(self, A, B):
        ### BEGIN YOUR SOLUTION
        assert len(A.shape) == 4, "The input tensor should be 4D"
        assert len(B.shape) == 4, "The kernel tensor should be 4D"
        A = A.compact()
        B = B.compact()
        batch_size, in_height, in_width, in_channel = A.shape
        bs, hs, ws, cs = A.strides
        kernel_height, kernel_width, in_channel, out_channel = B.shape
        
        
        
        pad_A = A.pad(((0, 0), (self.padding, self.padding), (self.padding, self.padding), (0, 0))).compact()
        batch_size, in_height, in_width, in_channel = pad_A.shape
        bs, hs, ws, cs = pad_A.strides
        receiptive_field_shape = (batch_size, (in_height - kernel_height) // self.stride + 1, (in_width - kernel_width) // self.stride + 1, kernel_height, kernel_width, in_channel)
        receiptive_field_strides = (bs, hs * self.stride, ws * self.stride, hs, ws, cs)
        receiptive_field = pad_A.as_strided(receiptive_field_shape, receiptive_field_strides).compact()
        reveiptive_vector = receiptive_field.reshape((receiptive_field.size //(kernel_height * kernel_width * in_channel), kernel_height * kernel_width * in_channel)).compact()
        kernel_vector = B.reshape((kernel_height * kernel_width * in_channel, out_channel)).compact()
        out = reveiptive_vector @ kernel_vector
        out = out.reshape((batch_size, (in_height - kernel_height) // self.stride + 1, (in_width - kernel_width) // self.stride + 1, out_channel)).compact()
        return out
        ### END YOUR SOLUTION

    def gradient(self, out_grad, node):
        ### BEGIN YOUR SOLUTION
        X, W = node.inputs
        s, _, _, _ = W.shape
        
        # 计算X_grad
        W_flipped = flip(W, (0, 1))
        W_flipped_permuted = transpose(W_flipped, (2, 3)) # transpose 只支持两个维度的交换
        outgrad_dilated = dilate(out_grad, (1, 2), self.stride - 1)
        X_grad = conv(outgrad_dilated, W_flipped_permuted, padding=s - 1 - self.padding)
        
        # 计算W_grad
        # outgrad_dilated = dilate(out_grad, (1, 2), self.stride - 1)
        outgrad_dilated_permuted = permute(outgrad_dilated, (1, 2, 0, 3))
        X_permuted = permute(X, (3, 1, 2, 0))
        W_grad = conv(X_permuted, outgrad_dilated_permuted, padding=self.padding)
        W_grad = permute(W_grad, (1, 2, 0, 3))
        return X_grad, W_grad
        ### END YOUR SOLUTION


def conv(a, b, stride=1, padding=1):
    return Conv(stride, padding)(a, b)

nn.Conv
这里将实现一个卷积层。由如下要求：输入输出的格式为 (N,C,H,W)，padding 应满足当 stride=1 时，输出不缩水，支持 bias 项。

首先修改 Kaming uniform 的实现，使之支持对卷积核的初始化。增加一个逻辑，根据参数 shape 是否为 None，在调用 rand 函数时传入不同的形状即可：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12


def kaiming_uniform(fan_in, fan_out, shape=None, nonlinearity="relu", **kwargs):
    assert nonlinearity == "relu", "Only relu supported currently"
    ### BEGIN YOUR SOLUTION
    if nonlinearity == "relu":
        gain = math.sqrt(2)
    ### BEGIN YOUR SOLUTION
    bound = gain * math.sqrt(3 / fan_in)
    if shape is None:
        return rand(fan_in, fan_out, low=-bound, high=bound, **kwargs)
    else:
        return rand(*shape, low=-bound, high=bound, **kwargs)
    ### END YOUR SOLUTION

hw4 的代码中，对于 NDArray.sum 的实现有问题，当求和的维度指定为空 tuple 时，其不应该进行求和操作，但原始代码无法正确处理这种情况，需要参数 axis 类型为 list 或者 tuple 的分支进行额外的判断，如果为空 list 或者 tuple，输出等于输入：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15


def sum(self, axis=None, keepdims=False):
	if isinstance(axis, int):
		view, out = self.reduce_view_out(axis, keepdims=keepdims)
		self.device.reduce_sum(view.compact()._handle, out._handle, view.shape[-1])
	elif isinstance(axis, (tuple, list)):
		if len(axis) == 0:
			out = self
		for axis_ in axis:
			view, out = self.reduce_view_out(axis_, keepdims=keepdims)
			self.device.reduce_sum(view.compact()._handle, out._handle, view.shape[-1])
	else:
		view, out = self.reduce_view_out(axis, keepdims=keepdims)
		self.device.reduce_sum(view.compact()._handle, out._handle, view.shape[-1])
	
	return out

万事俱备，卷积层的实现调用上边的函数即可。初始化的部分，根据文档描述初始化好权重和偏执项。对于步长为 1 的卷积，卷积结果会缩水 k-1 行 k-1 列，为了确保 shape 不变，卷积时四周要 pad (k-1)/2，又由于传统上 k 为奇数，因此等价于 pad k/2。

前向传播的部分，首先将 X 重排为 NHWC 的格式，然后加上卷积层。如果由偏执项，则将其广播后再加到结果中，最后将结果重排为 NCHW 格式返回即可。完整代码为：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36


class Conv(Module):
    """
    Multi-channel 2D convolutional layer
    IMPORTANT: Accepts inputs in NCHW format, outputs also in NCHW format
    Only supports padding=same
    No grouped convolution or dilation
    Only supports square kernels
    """
    def __init__(self, in_channels, out_channels, kernel_size, stride=1, bias=True, device=None, dtype="float32"):
        super().__init__()
        if isinstance(kernel_size, tuple):
            kernel_size = kernel_size[0]
        if isinstance(stride, tuple):
            stride = stride[0]
        self.in_channels = in_channels
        self.out_channels = out_channels
        self.kernel_size = kernel_size
        self.stride = stride

        ### BEGIN YOUR SOLUTION
        self.weight = Parameter(init.kaiming_uniform(self.in_channels, self.out_channels, shape=(kernel_size, kernel_size, in_channels, out_channels), device=device, dtype=dtype))
        bias_bound = 1.0 / np.sqrt(in_channels * kernel_size * kernel_size)
        self.bias = Parameter(init.rand(out_channels, low=-bias_bound, high=bias_bound, device=device, dtype=dtype)) if bias else None
        self.padding = kernel_size // 2
        ### END YOUR SOLUTION

    def forward(self, x: Tensor) -> Tensor:
        ### BEGIN YOUR SOLUTION
        # convert NCHW to NHWC
        x = ops.permute(x, [0, 2, 3, 1])
        conv_x = ops.conv(x, self.weight, stride=self.stride, padding=self.padding)
        if self.bias is not None:
            broadcasted_bias = ops.broadcast_to(ops.reshape(self.bias, (1, 1, 1, self.out_channels)), conv_x.shape)
            conv_x = conv_x + broadcasted_bias
        out = ops.permute(conv_x, [0, 3, 1, 2])
        return out

ResNet 9
在实现 TensorOp 的子类时，如果需要初始化 Tensor，一定要指定 device。之前在实现 ReLU 生成 mask 时没有指定 device，将导致反向传播失败，这里对其进行修改：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11


class ReLU(TensorOp):
    def compute(self, a):
        ### BEGIN YOUR SOLUTION
        return array_api.maximum(a, 0)
        ### END YOUR SOLUTION

    def gradient(self, out_grad, node):
        ### BEGIN YOUR SOLUTION
        relu_mask = Tensor(node.inputs[0].cached_data > 0, device=node.inputs[0].device)
        return out_grad * relu_mask
        ### END YOUR SOLUTION

同样，之前在实现 SoftmaxLoss 生成 one hot 时也没有指定 device，这里需要修改：

1
2
3
4
5
6
7
8


class SoftmaxLoss(Module):
    def forward(self, logits: Tensor, y: Tensor):
        ### BEGIN YOUR SOLUTION
        batch_size, label_size = logits.shape
        one_hot_y = init.one_hot(label_size, y, device=logits.device)
        true_logits = ops.summation(logits * one_hot_y, axes=(1,))
        return (ops.logsumexp(logits, axes=(1, )) - true_logits).sum()/batch_size
        ### END YOUR SOLUTION

此外，还发现在 reshape 操作可能没有调用 compact，这里直接修改其实现，在调用 array_api 前进行 compact 操作：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15


class Reshape(TensorOp):
    def __init__(self, shape):
        self.shape = shape

    def compute(self, a):
        ### BEGIN YOUR SOLUTION
        expect_size = 1
        for i in self.shape:
            expect_size *= i
        real_size = 1
        for i in a.shape:
            real_size *= i
        assert expect_size == real_size , "The reshape size is not compatible"
        return array_api.reshape(a.compact(), self.shape)
        ### END YOUR SOLUTION

经过一番小修小补，我们的代码已经相当健壮，足以完成这个 ResNet 9🎉。ResNet 9 网络架构如下所示。写代码的过程中有些漏洞咱也没必要妄自菲薄，毕竟这么厉害的两位大佬也难免有笔误的地方。下图中的 ResNet 9 有一层网络架构写错了，已在原图中指出。

首先来实现 ConvBN，传入的四个参数以此为 channels_in，channels_out，kernel_size 和 stride。hw4 的框架代码中提供了 BatchNorm2d，在拷贝 nn_basic.py 文件时不要直接覆盖。剩余的实现很简单，根据示意图搭积木，运行后哪里报 Not Implemented Error 就补哪里，完整代码为：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41


class ResNet9(ndl.nn.Module):
    def __init__(self, device=None, dtype="float32"):
        super().__init__()
        bias = True
        ### BEGIN YOUR SOLUTION ###
        self.conv1 = ConvBN(3, 16, 7, 4, bias=bias, device=device, dtype=dtype)
        self.conv2 = ConvBN(16, 32, 3, 2, bias=bias, device=device, dtype=dtype)
        self.res = ndl.nn.Residual(
            ndl.nn.Sequential(
                ConvBN(32, 32, 3, 1, bias=bias, device=device, dtype=dtype),
                ConvBN(32, 32, 3, 1, bias=bias, device=device, dtype=dtype)
            )
        )
        self.conv3 = ConvBN(32, 64, 3, 2, bias=bias, device=device, dtype=dtype)
        self.conv4 = ConvBN(64, 128, 3, 2, bias=bias, device=device, dtype=dtype)
        self.res2 = ndl.nn.Residual(
            ndl.nn.Sequential(
                ConvBN(128, 128, 3, 1, bias=bias, device=device, dtype=dtype),
                ConvBN(128, 128, 3, 1, bias=bias, device=device, dtype=dtype)
            )
        )
        self.flatten = ndl.nn.Flatten()
        self.linear = ndl.nn.Linear(128, 128, bias=bias, device=device, dtype=dtype)
        self.relu = ndl.nn.ReLU()
        self.linear2 = ndl.nn.Linear(128, 10, bias=bias, device=device, dtype=dtype)
        ### END YOUR SOLUTION

    def forward(self, x):
        ### BEGIN YOUR SOLUTION
        x = self.conv1(x)
        x = self.conv2(x)
        x = self.res(x)
        x = self.conv3(x)
        x = self.conv4(x)
        x = self.res2(x)
        x = self.flatten(x)
        x = self.linear(x)
        x = self.relu(x)
        x = self.linear2(x)
        return x
        ### END YOUR SOLUTION

很遗憾，上述代码在我的设备上并不能通过 ResNet 9 的测试点，误差为 0.09，远超 tolerance 0.01。但其又能通过后续在 CIFAR 10 训练集上训练 2 epoches 的测试点，且误差为 5e-5，远小于 tolerance 0.01。怀疑前一个测试点数据有问题。

Part 4: Recurrent neural network

RNN Cell
RNN cell 似乎没有什么坑，照着文档初始化参数，照着公式进行正向传播：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24


class RNNCell(Module):
    def __init__(self, input_size, hidden_size, bias=True, nonlinearity='tanh', device=None, dtype="float32"):
        super().__init__()
        ### BEGIN YOUR SOLUTION
        bound = 1 / np.sqrt(hidden_size)
        self.W_ih = Parameter(init.rand(input_size, hidden_size, low=-bound, high=bound, device=device, dtype=dtype))
        self.W_hh = Parameter(init.rand(hidden_size, hidden_size, low=-bound, high=bound, device=device, dtype=dtype))
        self.bias_ih = Parameter(init.rand(hidden_size, low=-bound, high=bound, device=device, dtype=dtype)) if bias else None
        self.bias_hh = Parameter(init.rand(hidden_size, low=-bound, high=bound, device=device, dtype=dtype)) if bias else None
        self.nonlinearity = ops.tanh if nonlinearity == 'tanh' else ops.relu
        ### END YOUR SOLUTION

    def forward(self, X, h=None):
        ### BEGIN YOUR SOLUTION
        if h is None:
            h = init.zeros(X.shape[0], self.W_hh.shape[0], device=X.device, dtype=X.dtype)
        Z = X@self.W_ih + h@self.W_hh
        if self.bias_ih:
            bias = self.bias_ih + self.bias_hh
            bias = bias.reshape((1, bias.shape[0]))
            bias = bias.broadcast_to(Z.shape)
            Z += bias
        return self.nonlinearity(Z)
        ### END YOUR SOLUTION

RNN
本节任务是完成一个多层 RNN，即堆叠在一起的 RNN，如下图所示。参数中 num_layers 指定了层数，input_size 指的是最下面那层 RNN 的输入的 x 的 size，除底层之外的 cell 的输入都是前一层的输入，即它们的 input_size = hidden_size

由上图，可知每一层的输入都是在变化的，因此考虑维护一个 X_input 列表用于存储当前没计算的 cell 的垂直输入。同样，维护一个 h_input 列表存储当前没计算的 cell 的水平输入。具体来说，当计算的 cell 编号为 $h_i^j$ 时，其用到的输入为 X_input[i] 和 h_input[j]，同时计算结束后 X_input[j] 和 h_input[j] 都要更新为该节点的输出。

对于这个堆叠在一起的 RNN，可以采用从左往右、从下到上，或者从下到上、从左往右的计算方式。我采用的是先垂直再水平的计算顺序。

模型最后要返回两个变量，一个是最后一层的输出 output，即示意图中的 y 的集合，不难发现最后一层的输出就是最后一层的后一层（假设存在）的垂直输入，即我们一直在维护的 X_input。另一个要返回的变量是最后一列隐藏层，同样，这就是我们一直在维护的水平输入 h_input。水到渠成。

需要注意，Tensor 没有实现 getitem 和 setitem 方法，需要切片存取的时候调用之前实现的 split 和 stack 方法即可。

完整代码为：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28


class RNN(Module):
    def __init__(self, input_size, hidden_size, num_layers=1, bias=True, nonlinearity='tanh', device=None, dtype="float32"):
        super().__init__()
        ### BEGIN YOUR SOLUTION
        self.rnn_cells = []
        self.rnn_cells.append(RNNCell(input_size, hidden_size, bias, nonlinearity, device, dtype))
        for i in range(1, num_layers):
            self.rnn_cells.append(RNNCell(hidden_size, hidden_size, bias, nonlinearity, device, dtype))
        ### END YOUR SOLUTION

    def forward(self, X, h0=None):
        ### BEGIN YOUR SOLUTION
        seq_len = X.shape[0]
        layer_num = len(self.rnn_cells)
        if h0 is None:
            h0 = init.zeros(len(self.rnn_cells), X.shape[1], self.rnn_cells[0].W_hh.shape[0], device=X.device, dtype=X.dtype)
        h_input = list(ops.split(h0, 0)) # list length = num_layers, element shape = (bs, hidden_size)
        X_input = list(ops.split(X, 0)) # list length = seq_len, element shape = (bs, input_size)
        for i in range(seq_len):
            for j in range(layer_num):
                X_input[i] = self.rnn_cells[j](X_input[i], h_input[j])
                h_input[j] = X_input[i]
        output = ops.stack(X_input, 0) # output features of last layer == input X of last+1 layer
        h_n = ops.stack(h_input, 0)
        return output, h_n
        
            
        ### END YOUR SOLUTION

Part 5: LSTM

本章节将实现 LSTM，LSTM 和上边的 RNN 逻辑相同，照抄公式，这里直接放出代码：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73


class LSTMCell(Module):
    def __init__(self, input_size, hidden_size, bias=True, device=None, dtype="float32"):
        super().__init__()
        ### BEGIN YOUR SOLUTION
        bound = 1.0 / np.sqrt(hidden_size)
        self.W_ih = Parameter(init.rand(input_size, 4*hidden_size, low=-bound, high=bound, device=device, dtype=dtype))
        self.W_hh = Parameter(init.rand(hidden_size, 4*hidden_size, low=-bound, high=bound, device=device, dtype=dtype))
        self.bias_ih = Parameter(init.rand(4*hidden_size, low=-bound, high=bound, device=device, dtype=dtype)) if bias else None
        self.bias_hh = Parameter(init.rand(4*hidden_size, low=-bound, high=bound, device=device, dtype=dtype)) if bias else None
        self.sigmoid = Sigmoid()
        ### END YOUR SOLUTION


    def forward(self, X, h=None):
        ### BEGIN YOUR SOLUTION
        bs = X.shape[0]
        hidden_size = self.W_hh.shape[0]
        if h is None:
            h0 = init.zeros(bs, hidden_size, device=X.device, dtype=X.dtype)
            c0 = init.zeros(bs, hidden_size, device=X.device, dtype=X.dtype)
        else:
            h0, c0 = h
        Z = X@self.W_ih + h0@self.W_hh # [bs, 4*hidden_size]
        if self.bias_ih:
            bias = self.bias_ih + self.bias_hh
            bias = bias.reshape((1, bias.shape[0]))
            bias = bias.broadcast_to(Z.shape)
            Z += bias
        stripes = list(ops.split(Z, 1))
        i = self.sigmoid(ops.stack(stripes[0: hidden_size], 1))
        f = self.sigmoid(ops.stack(stripes[hidden_size: 2*hidden_size], 1))
        g = ops.tanh(ops.stack(stripes[2*hidden_size: 3*hidden_size], 1))
        o = self.sigmoid(ops.stack(stripes[3*hidden_size: 4*hidden_size], 1))
        c = f * c0 + i * g
        h = o * ops.tanh(c)
        return h, c
        
        ### END YOUR SOLUTION


class LSTM(Module):
    def __init__(self, input_size, hidden_size, num_layers=1, bias=True, device=None, dtype="float32"):
        super().__init__()
        ### BEGIN YOUR SOLUTION
        self.lstm_cells = []
        self.lstm_cells.append(LSTMCell(input_size, hidden_size, bias, device, dtype))
        for i in range(1, num_layers):
            self.lstm_cells.append(LSTMCell(hidden_size, hidden_size, bias, device, dtype))
        ### END YOUR SOLUTION

    def forward(self, X, h=None):
        ### BEGIN YOUR SOLUTION
        seq_len, bs, _ = X.shape
        num_layers = len(self.lstm_cells)
        hidden_size = self.lstm_cells[0].W_hh.shape[0]
        if h is None:
            h0 = init.zeros(num_layers, bs, hidden_size, device=X.device, dtype=X.dtype)
            c0 = init.zeros(num_layers, bs, hidden_size, device=X.device, dtype=X.dtype)
        else:
            h0, c0 = h
        h_input = list(ops.split(h0, 0))
        c_input = list(ops.split(c0, 0))
        X_input = list(ops.split(X, 0))
        for i in range(seq_len):
            for j in range(num_layers):
                X_input[i], c_input[j] = self.lstm_cells[j](X_input[i], (h_input[j], c_input[j]))
                h_input[j] = X_input[i]
        output = ops.stack(X_input, 0)
        h_n = ops.stack(h_input, 0)
        c_n = ops.stack(c_input, 0)
        return output, (h_n, c_n)
        
        ### END YOUR SOLUTION

Part 6: Penn Treebank dataset

Dictionary
这个类的作用是构建一个从 word 到 id 双向映射的字典，word2idx 通过读取 dict 来实现，idx2word 通过访问 list 来实现：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17


class Dictionary(object):
    def __init__(self):
        self.word2idx = {}
        self.idx2word = []

    def add_word(self, word):
        ### BEGIN YOUR SOLUTION
        if self.word2idx.get(word) is None:
            self.word2idx[word] = len(self.idx2word)
            self.idx2word.append(word)
        return self.word2idx[word]
        ### END YOUR SOLUTION

    def __len__(self):
        ### BEGIN YOUR SOLUTION
        return len(self.idx2word)
        ### END YOUR SOLUTION

Corpus
这个类的作用类似于 DataLoader，从文件读取原始数据，通过 Dictionary 将其 tokenize，提供 batchify 将其分割为 batch（这个 batch 指的是输入的 x 中同时存在好几个句子），提供 get_batch 方法将单个句子分割为 batch（这是由于 lstm 的水平深度有限，最多同时接受这么多输入）。

具体实现时参考 docstring 描述即可，由示意图，一目了然。完整代码为：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37


class Corpus(object):
    def __init__(self, base_dir, max_lines=None):
        self.dictionary = Dictionary()
        self.train = self.tokenize(os.path.join(base_dir, 'train.txt'), max_lines)
        self.test = self.tokenize(os.path.join(base_dir, 'test.txt'), max_lines)

    def tokenize(self, path, max_lines=None):
        ### BEGIN YOUR SOLUTION
        with open(path, 'r') as f:
            ids = []
            line_idx = 0
            for line in f:
                if max_lines is not None and line_idx >= max_lines:
                    break
                words = line.split() + ['']
                for word in words:
                    ids.append(self.dictionary.add_word(word))
                line_idx += 1
        return ids
        ### END YOUR SOLUTION


def batchify(data, batch_size, device, dtype):
    ### BEGIN YOUR SOLUTION
    data_len = len(data)
    nbatch = data_len // batch_size
    data = data[:nbatch * batch_size]
    return np.array(data).reshape(batch_size, -1).T
    ### END YOUR SOLUTION


def get_batch(batches, i, bptt, device=None, dtype=None):
    ### BEGIN YOUR SOLUTION
    data = batches[i: i + bptt, :]
    target = batches[i + 1: i + 1 + bptt, :]
    return Tensor(data, device=device, dtype=dtype), Tensor(target.flatten(), device=device, dtype=dtype)
    ### END YOUR SOLUTION

Part 7: Training a word-level language model

这里有个大坑，ndarray 实现的矩阵乘法不支持批量矩乘，如果由三维矩阵乘二维的情况，需要手动 reshape 再乘，再 reshape 回去。

Embedding
这个 Module 的作用是将 token 进行一次线性变换，这个操作涉及到批量矩乘：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15


class Embedding(Module):
    def __init__(self, num_embeddings, embedding_dim, device=None, dtype="float32"):
        super().__init__()
        ### BEGIN YOUR SOLUTION
        self.weight = Parameter(init.randn(num_embeddings, embedding_dim, device=device, dtype=dtype))
        ### END YOUR SOLUTION

    def forward(self, x: Tensor) -> Tensor:
        ### BEGIN YOUR SOLUTION
        one_hot = init.one_hot(self.weight.shape[0], x, device=x.device, dtype=x.dtype)
        seq_len, bs, num_embeddings = one_hot.shape
        one_hot = one_hot.reshape((seq_len*bs, num_embeddings))
        
        return ops.matmul(one_hot, self.weight).reshape((seq_len, bs, self.weight.shape[1]))
        ### END YOUR SOLUTION

LanguageModel
搭积木，同样设计批量矩乘：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22


class LanguageModel(nn.Module):
    def __init__(self, embedding_size, output_size, hidden_size, num_layers=1,
                 seq_model='rnn', device=None, dtype="float32"):
        super(LanguageModel, self).__init__()
        ### BEGIN YOUR SOLUTION
        self.embedding = nn.Embedding(output_size, embedding_size, device=device, dtype=dtype)
        if seq_model == 'rnn':
            self.model = nn.RNN(embedding_size, hidden_size, num_layers, device=device, dtype=dtype)
        elif seq_model == 'lstm':
            self.model = nn.LSTM(embedding_size, hidden_size, num_layers, device=device, dtype=dtype)
        self.linear = nn.Linear(hidden_size, output_size, device=device, dtype=dtype)
        ### END YOUR SOLUTION

    def forward(self, x, h=None):
        ### BEGIN YOUR SOLUTION
        x = self.embedding(x) # (seq_len, bs, embedding_size)
        out, h = self.model(x, h)
        seq_len, bs, hidden_size = out.shape
        out = out.reshape((seq_len * bs, hidden_size))
        out = self.linear(out)
        return out, h
        ### END YOUR SOLUTION

epoch_general_ptb
流程和 hw2 中实现的 epoch 很接近，iter_num = n_batch - seq_len 是因为每条句子长度为 n_batch，按照 seq_len 的滑动窗口加载数据集，同时句子的最后一个词不能作为输入（后面没有输出了）。

如果出现没有实现的异常，就从 hw2 中粘过来。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30


def epoch_general_ptb(data, model, seq_len=40, loss_fn=nn.SoftmaxLoss(), opt=None,
        clip=None, device=None, dtype="float32"):
    np.random.seed(4)
    ### BEGIN YOUR SOLUTION
    if opt:
        model.train()
    else:
        model.eval()
    total_loss = 0
    total_error = 0
    n_batch, batch_size = data.shape
    iter_num = n_batch - seq_len
    for iter_idx in range(iter_num):
        X, target = ndl.data.get_batch(data, iter_idx, seq_len, device=device, dtype=dtype)
        if opt:
            opt.reset_grad()
        pred, _ = model(X)
        loss = loss_fn(pred, target)
        if opt:
            opt.reset_grad()
            loss.backward()
            if clip:
                opt.clip_grad_norm(clip)
            opt.step()
        total_loss += loss.numpy()
        total_error += np.sum(pred.numpy().argmax(1)!=target.numpy())
    avg_loss = total_loss / iter_num
    avg_acc = 1 - total_error / (iter_num * seq_len)
    return avg_acc, avg_loss
    ### END YOUR SOLUTION

train/evaluate ptb
这里有个坑，这两个函数接受的损失函数传进来的是类，但是当我们要调用前面的 epoch 方法时要将其实例化。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17


def train_ptb(model, data, seq_len=40, n_epochs=1, optimizer=ndl.optim.SGD,
          lr=4.0, weight_decay=0.0, loss_fn=nn.SoftmaxLoss, clip=None,
          device=None, dtype="float32"):
    np.random.seed(4)
    ### BEGIN YOUR SOLUTION
    for epoch in range(n_epochs):
        avg_acc, avg_loss = epoch_general_ptb(data, model, seq_len, loss_fn(), optimizer(model.parameters(), lr=lr, weight_decay=weight_decay), clip=clip, device=device, dtype=dtype)
    return avg_acc, avg_loss
    ### END YOUR SOLUTION

def evaluate_ptb(model, data, seq_len=40, loss_fn=nn.SoftmaxLoss,
        device=None, dtype="float32"):
    np.random.seed(4)
    ### BEGIN YOUR SOLUTION
    avg_acc, avg_loss = epoch_general_ptb(data, model, seq_len, loss_fn(), device=device, dtype=dtype)
    return avg_acc, avg_loss
    ### END YOUR SOLUTION

hw4 小结

本节最大的难点在于卷积反向传播的推导，当时推导得头秃了。剩余内容基本都是在搭积木和对之前的实现小修小补，也挺烦躁。

总算是完结了，撒花🎉

hw4_extra

Fine，还有一个实验，继续！

Part 1: Implementing the Multi-Head Attention Activation Layer

这部分将完成一个多头自注意层的正向传播部分。在这个类中提供了一系列辅助函数，记得先浏览一遍。

文档中有两点没有提到：

self.causal 决定了是否要进行掩码
self.matmul 计算的是 A@B.T 而不是`A@B

之前实现的 dropout 算子有点问题，没有指定 dtype 和 device，需要修改：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12


class Dropout(Module):
    def __init__(self, p=0.5):
        super().__init__()
        self.p = p

    def forward(self, x: Tensor) -> Tensor:
        ### BEGIN YOUR SOLUTION
        if not self.training:
            return x
        mask = init.randb(*x.shape, p=1 - self.p, dtype="float32", device=x.device)
        return x * mask / (1 - self.p)
        ### END YOUR SOLUTION

由于输入的 KQV 在已经把“头”作为一个独立维度分离出来了，实现多头自注意力就简单很多，直接当作单头一样抄公式即可：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25


    def forward(
        self,
        q, k, v,
    ):
        batch_size, num_head, queries_len, q_dim = q.shape
        _, _, keys_values_len, k_dim = k.shape
        _, _, _, v_dim = v.shape

        assert q_dim == k_dim == v_dim

        result = None
        probs = None

        ### BEGIN YOUR SOLUTION
        sqrt_d = np.sqrt(q_dim)
        Z = self.matmul(q, k) / sqrt_d
        if self.causal:
            mask = self.create_causal_mask(queries_len, keys_values_len, self.device)
            Z = Z + mask.broadcast_to(Z.shape)
        probs = self.softmax(Z)
        probs = self.dropout(probs)
        result = self.matmul(probs, v.transpose((2, 3)))
        ### END YOUR SOLUTION

        return result, probs

Part 2 Implementing the Self-Attention Layer with trainable parameters

本部分将实现一个多头自注意力层，包括对 KQV 进行 preNorm、分头、调用之前实现的正向传播代码、合并、线性映射。

首先修改 class Matmul 的实现，使之支持当 A 为 batch 时的 batch matmul 计算：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14


class MatMul(TensorOp):
    def compute(self, a, b):
        ### BEGIN YOUR SOLUTION
        a_shape = a.shape
        if len(a.shape) > 2:
            batch_size = 1
            for i in range(0, len(a.shape) - 1):
                batch_size *= a.shape[i]
            a = a.reshape((batch_size, a_shape[-1]))
        out = a@b
        if len(a_shape) > 2:
            out = out.reshape((*a_shape[:-1], b.shape[-1]))
        return out
        ### END YOUR SOLUTION

之前实现的 layerNorm1D 只支持 (batch_size, hddien_size) 的格式，在调用 perNorm 之前要手动进行 reshape，或者直接修改 layerNorm 的实现。

之前实现的 Linear 模块有点问题，当不存在 bias 时仍旧会尝试对其访问，需要修改：

1
2
3
4
5
6
7
8
9


class Linear(Module):
    def forward(self, X: Tensor) -> Tensor:
        ### BEGIN YOUR SOLUTION
        y = ops.matmul(X, self.weight)
        if self.bias:
            if self.bias.shape != (1, self.out_features):
                self.bias = self.bias.reshape((1, self.out_features))
            y += self.bias.broadcast_to(y.shape)
        return y

分头行动就是先 reshape 再 permute，这一操作在前面的 hw 中已经出现多次，比较熟练。整体实现比较简单，不到十行代码即可：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27


def forward(
	self,
	q, k=None, v=None,
):
	if k is None:
		k = q
	if v is None:
		v = q

	batch_size, queries_len, q_dim = q.shape
	_, keys_values_len, k_dim = k.shape
	_, _, v_dim = v.shape

	result = None

	### BEGIN YOUR SOLUTION
	q, k, v = self.prenorm_q(q), self.prenorm_k(k), self.prenorm_v(v)
	q, k, v = self.q_projection(q), self.k_projection(k), self.v_projection(v)
	q = ops.permute(q.reshape((batch_size, queries_len, self.num_head, self.dim_head)), (0, 2, 1, 3))
	k = ops.permute(k.reshape((batch_size, keys_values_len, self.num_head, self.dim_head)), (0, 2, 1, 3))
	v = ops.permute(v.reshape((batch_size, keys_values_len, self.num_head, self.dim_head)), (0, 2, 1, 3))
	attn_res, _ = self.attn(q, k, v)
	attn_res = ops.permute(attn_res, (0, 2, 1, 3)).reshape((batch_size, keys_values_len, self.num_head * self.dim_head))
	result = self.out_projection(attn_res)
	### END YOUR SOLUTION

	return result

Part 3 Implementing a prenorm residual Transformer Layer

本节将完成一个残差 Transformer 层，本层没有难度，纯搭积木。搭积木之前照例对我们的积木块打个补丁，上个 Part 中修改的 Linear 层仍有问题，bias 不支持多 batch 维度，修改为一下内容：

1
2
3
4
5
6
7
8


def forward(self, X: Tensor) -> Tensor:
	### BEGIN YOUR SOLUTION
	y = ops.matmul(X, self.weight)
	if self.bias:
		boradcast_shape = [1] * (len(y.shape) - 1) + [self.out_features]
		bias = self.bias.reshape(boradcast_shape).broadcast_to(y.shape)
		y += bias
	return y

接下来就可以愉快地搭积木啦：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57


class TransformerLayer(Module):

    def __init__(
        self,
        q_features: int,
        num_head: int,
        dim_head: int,
        hidden_size: int,
        *,
        dropout = 0.,
        causal = True,
        device = None,
        dtype = "float32",
    ):

        super().__init__()

        self.device = device
        self.dtype = dtype

        ### BEGIN YOUR SOLUTION
        self.layer1 = Sequential(
            AttentionLayer(
                q_features=q_features,
                num_head=num_head,
                dim_head=dim_head,
                out_features=q_features,
                dropout=dropout,
                causal=causal,
                device=device,
                dtype=dtype
            ),
            Dropout(dropout),
        )
        self.layer2 = Sequential(
            LayerNorm1d(q_features, device=device, dtype=dtype),
            Linear(q_features, hidden_size, bias=True, device=device, dtype=dtype),
            ReLU(),
            Dropout(dropout),
            Linear(hidden_size, q_features, bias=True, device=device, dtype=dtype),
            Dropout(dropout),
        )
            
        ### END YOUR SOLUTION

    def forward(
        self,
        x
    ):
        batch_size, seq_len, x_dim = x.shape

        ### BEGIN YOUR SOLUTION
        x = self.layer1(x) + x
        x = self.layer2(x) + x
        ### END YOUR SOLUTION

        return x

Part 4 Implementing the Transformer model

本部分完成的是一个完整的 Transformer 网络。文档中提到，根据每个词在句子中的序号做一个 embed，所以在初始化时要额外初始化一个 embed 层，在数据进入 Transformer 前把这个 embed 加上去。其余部分搭积木：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66


class Transformer(Module):

    def __init__(
        self,
        embedding_size: int,
        hidden_size: int,
        num_layers: int, 
        *,
        num_head: int = 8,
        dim_head: int = 32,
        dropout = 0.,
        causal = True,
        device = None,
        dtype = "float32",
        batch_first = False,
        sequence_len = 2048
    ):

        super().__init__()

        self.device = device
        self.dtype = dtype
        self.batch_first = batch_first

        ### BEGIN YOUR SOLUTION
        self.embedding = Embedding(
            num_embeddings=sequence_len,
            embedding_dim=embedding_size,
            device=device,
            dtype=dtype
        )
        layers = [TransformerLayer(
            q_features=embedding_size,
            num_head=num_head,
            dim_head=dim_head,
            hidden_size=hidden_size,
            dropout=dropout,
            causal=causal,
            device=device,
            dtype=dtype
        ) for _ in range(num_layers)]
        self.model = Sequential(*layers)
        
        ### END YOUR SOLUTION

    def forward(
        self,
        x, h=None
    ):

        if not self.batch_first:
            x = ops.transpose(x, axes=(0, 1))

        ### BEGIN YOUR SOLUTION
        bs, seq_len, input_dim = x.shape
        time = np.repeat(np.arange(seq_len), bs).reshape((seq_len, bs)).T
        time = Tensor(time, device=self.device, dtype=self.dtype)
        time = self.embedding(time)
        x = x + time
        x = self.model(x)
        ### END YOUR SOLUTION

        if not self.batch_first:
            x = ops.transpose(x, axes=(0, 1))

        return x, init.zeros_like(x)

由于 ops.matmul 中对于 batch matmul 的坑太多了，之前只修改了正向传播部分，反向传播仍未支持 matmul，最后没能实现在数据集上进行训练 Transformer 网络，略有遗憾。

hw4_extra 小结

hw4_extra 难度相比 hw4 低了很多，毕竟没让我们自己手推 Transformer 的反向传播公式，不然又是一场腥风血雨。

这次是真的完结了，撒花🎉

参考文档

在Hugo中使用KATEX渲染数学公式

Wed, 05 Jun 2024 15:35:00 +0800

前言

在博文中插入公式是个挺常见的需求，不知道为啥 Hugo 对于公式渲染没有原生支持😞。网络上能找到两种解决方案：KATEX 和 MathJax，据说前者性能更好一点。本博客使用 KATEX 进行渲染。

网络上相关资料挺多，但大多浅尝辄止，我在将其整合进 Obsidian 的过程中遇到了不少错误，折腾了一个下午 + 一个晚上，目前终于跑通能用了。demo 参考博文：《CMU 10-414 deep learning system》学习笔记 | 周鑫的个人博客，其中含有大量公式。

技术方案

目前含有数学公式的工作流为：
Obsidian 编辑博文 -> Obsidian github publisher 插件进行正则替换 -> Obsidian github publisher 上传到 github -> 服务器进行部署

引入 KATEX 样式表和 JS 文件

为了在博文中渲染公式，需要引入 KATEX 的样式表 ¹，具体来说，在 /layouts/partials/ 文件夹下创建一个 math.html 文件，并写入以下内容：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23


<link
    rel="stylesheet"
    href="https://cdn.jsdelivr.net/npm/katex@0.16.10/dist/katex.min.css" 
    integrity="sha384-wcIxkf4k558AjM3Yz3BBFQUbk/zgIYC2R0QpeeYb+TwlBVMrlgLqwRjRtGZiK7ww" 
    crossorigin="anonymous"
/>

<script defer src="https://cdn.jsdelivr.net/npm/katex@0.16.10/dist/katex.min.js" integrity="sha384-hIoBPJpTUs74ddyc4bFZSM1TVlQDA60VBbJS0oA934VSz82sBx1X7kSx2ATBDIyd" crossorigin="anonymous">script>


<script defer src="https://cdn.jsdelivr.net/npm/katex@0.16.10/dist/contrib/auto-render.min.js" integrity="sha384-43gviWU0YVjaDtb/GhzOouOXtZMP/7XUzwPTstBeZFe/+rCMvRwr4yROQP43s0Xk" crossorigin="anonymous"
    onload="
    window.addEventListener('DOMContentLoaded', function() {
        renderMathInElement(document.body, {
            delimiters: [
                {left: '$$', right: '$$', display: true},
                {left: '$', right: '$', display: false},
                {left: '\\$$', right: '\\\\$$', display: false},
                {left: '\\$$', right: '\\\\$$', display: true}
            ]
        });
    });
">script>

然后在 /layouts/partials/extend_head.html 文件内追加以下内容：

1
2
3


{{ if or .Params.math .Site.Params.math }}
{{ partial "math.html" . }}
{{ end }}

上述代码的含义是：如果当前页面 math 属性或者全局 math 属性为真，则将我们之前写入的 math.html 模板文件包含至每个网页页面的 head 部分。

我们可以只将需要渲染数学公式的博文的 metadata 区域 math 字段设置为真，以引入 KATEX 相关文件，防止不必要的性能开销。

至此，理论上来说，含有数学公式的博文已经能被正确渲染了，许多教程也到此结束了。但是我碰到了公式没能被正确渲染的情况，如下图所示：

与 Obsidian 整合

上图中公式渲染出错的情况，有以下两个原因：

Markdown 语法和 KATEX 语法冲突，包括但不限于：符号转义、下划线含义冲突等
公式块和公式内容之间存在额外空格

第一个问题可以通过使用 div 块包围公式来解决，hugo 不会对 div 块内的代码进行二次转义。第二个问题可以通过正则表达式替换来解决。

事实上，第一个问题也是正则所擅长的领域，通过一次正则替换，就可以具体将 md 中的公式块使用 div 包裹，并且移除额外的空格。具体来说，需要将以下的 md 文档：

1
2
3
4
5
6
7


梯度下降，就是沿着梯度方向不断进行迭代，以求找到最佳的$\theta$使得目标函数值最小。
$$

\theta :=\theta _0-\alpha \nabla f\left( \theta _0 \right)

$$
上式中，$\alpha$被称为学习率或者步长。

替换为：

1
2
3
4
5


梯度下降，就是沿着梯度方向不断进行迭代，以求找到最佳的$\theta$使得目标函数值最小。
<div>$$
\theta :=\theta _0-\alpha \nabla f\left( \theta _0 \right)
$$div>
上式中，$\alpha$被称为学习率或者步长。

相应的模式串为 /\$\$(\s*)([\s\S]*?)(\s*)\$\$/gs，替换串为

$$$$\n$2\n$$$$

。使用 github publisher 插件进行替换即可。

One More Thing

推荐两个网站，分别用于 KATEX 和正则表达式的 debug：

参考文档

Browser · KaTeX ↩︎

《CMU 10-414 deep learning system》学习笔记

Tue, 28 May 2024 12:24:00 +0800

写在最前面

从 2024-04-28 到 2024-09-08，历时四个多月，总算把 DLSys 学完了。这门课的一些收获：

自动微分理论知识和在实践过程中衍生的包括计算图等知识
系统学习了 ML 中几个基本模型和组件
Tensor 的 strides 相关内容
基础 CUDA 编程

个人认为这门课一些没达到我预期的地方：

CUDA 编程的内容太浅
后续讲 CNN、RNN、Transformer 的部分没必要，可以继续深入 CUDA 或者压缩课时

本门课程的核心内容在 Lecture 0~15，对应的 homework 是 hw0~3，后面的内容没有时间可以跳过。

ps：全文章两万余字，Chrome 渲染图片时可能会很卡，建议使用 Microsoft Edge 浏览。

Lecture 1: Introduction and Logistics

课程的目标

本课程的目标是学习现代深度学习系统，了解包括自动微分、神经网络架构、优化以及 GPU 上的高效操作在内的技术的底层原理。作为实践，本课程将实现一个 needle（deep learning library）库，类似 PyTorch。

为什么学习深度学习系统？

为什么学习？深度学习这一概念很早就存在了，但直到 PyTorch、TensorFlow 此类现代深度学习框架发布，深度学习才开始迅速发展。简单易用的自动差分库是深度学习发展的最大动力。

除了使用这些库，我们为什么还要学习深度学习系统？

为了构建深度学习系统
如果想要从事深度学习系统的开发，那毫无疑问得先学习它。目前深度学习框架并没完全成熟，还有很多开发新功能，乃至新的框架的机会。
为了能够更高效地使用现有系统
了解现有系统的内部实现，可以帮助我们写出更加高效的深度学习代码。如果想要提高自定义算子的效率，那必须先了解相关操作是如何实现的。
深度学习系统本身就很有趣
尽管这个系统看上去很复杂，但是其核心算法的原理确实相当简单的。两千行左右的代码，就可以写出一个深度学习库。

预备知识

systems programming
线性代数
其他数学知识：计算、概率、简单的证明
Python 和 C++ 经验
机器学习的相关经验

Lecture 2: ML Refresher & Softmax Regression

机器学习基础

深度学习是由数据驱动的，所谓数据驱动，这意味着当我们想要写一个用于识别手写数字的模型时，我们关注的不是某个数字形状上有什么特点，如何通过编程识别该特点，而是直接将数据集喂给模型，模型自动训练并识别数字类别。

深度学习模型由三部分组成：

假说模型：模型的结构，包括一系列参数，其描述了模型从输入到输出的映射关系；
损失函数：指定了对模型的评价，损失函数值越小，说明该模型在指定任务上完成得更好；
优化方法：用于对模型中参数进行优化，使得损失函数最小的方法。

Softmax 回归

以经典的 softmax 回归模型为例，简单回顾一下 ML 模型。

考虑一个 k 分类任务，其中数据集为 $x^{(i)} \in R^n\ ,\ y^{(i)} \in { 1,…,k}\ \ \ i = 1,…,m$，$n$ 标识输入数据集的维度，$k$ 标识标签类别数，$m$ 标识数据集样本数量。

一个假说模型就是将一个 $n$ 维的输入映射到一个 $k$ 维的输出，即：$h: R^n \rightarrow R^k$。注意，模型并不会直接输出类别的序号，而是通过输出一个 $k$ 维向量 $h(x)$，其中第 $i$ 个元素 $h_i(x)$ 表示是第 $i$ 个类别的概率。

对于线性模型来说，使用 $\theta \in R^{n\times k}$ 这个模型中的参数，那么 $h_\theta(x) = \theta^T x$。

如果一次输入多个数据，那么输入数据就可以组织成一个矩阵，相比起多个向量操作，矩阵的操作通常效率更高，我们在代码实现中一般也是用矩阵操作。数据集可以表示为：

$$ X\in R^{m\times n}=\left[ \begin{array}{c} x^{(1)T}\\ \vdots\\ x^{\left( m \right) T}\\ \end{array} \right] , y\in \left\{ 1,...,k \right\} ^m=\left[ \begin{array}{c} y^{\left( 1 \right)}\\ \vdots\\ y^{\left( m \right)}\\ \end{array} \right] $$

数据集的矩阵是一个个样本转置后堆叠 stack 起来的。那么输出可以表示为：

$$ h_{\theta}\left( X \right) =\left[ \begin{array}{c} h_{\theta}\left( x^{\left( 1 \right)} \right) ^T\\ \vdots\\ h_{\theta}\left( x^{\left( m \right)} \right) ^T\\ \end{array} \right] =\left[ \begin{array}{c} x^{\left( 1 \right) T}\theta\\ \vdots\\ x^{\left( m \right) T}\theta\\ \end{array} \right] =X\theta $$

关于损失函数 $l_{err}$，一种朴素的想法是将模型预测错误的模型数据量作为损失函数，即如果模型预测的正确率最高的那个类别与真实类别不相同，则损失函数为 1，否则为 0：

$$ l_{err}\left( h\left( x \right) , y \right) \,\,=\,\,\left\{ \begin{align*} 0 \ &\mathrm{if} \ \mathrm{argmax} _i\,\,h_i\left( x \right) =y\\ 1 \ &\mathrm{otherwise}\\ \end{align*} \right. $$

遗憾的是，这个符合直觉函数是不可微分的，难以对参数进行优化。更合适的做法是使用交叉熵损失函数。

在此之前，我们将先讲输出过一个 softmax 函数，使之的行为更像一个概率——各个类别的概率之和为 1：

$$ z_i=p\left( \mathrm{label}=i \right) =\frac{\exp \left( h_i\left( x \right) \right)}{\sum_{j=1}^k{\exp \left( h_j\left( x \right) \right)}} $$

那么交叉熵损失函数就可以定义为：

$$ l_{ce}\left( h\left( x \right) ,y \right) =-\log p\left( \mathrm{label}=y \right) =-h_y\left( x \right) +\log \sum_{j=1}^k{\exp \left( h_j\left( x \right) \right)} $$

注意在计算交叉熵时，通过运算进行了化简，这使得我们可以省去计算 softmax 的过程，直接计算最终的结果。不但如此，交叉熵的计算中，如果 $h_i(x)$ 的值很小，那么取对数会出现很大的值，化简后的计算则避免了这种情况。

所有的深度学习问题，都可以归结为一下这个最优化问题：

$$ \mathop {\mathrm{minimize}} \limits_{\theta}\ \ \frac{1}{m}\sum_{i=1}^m{l(h_{\theta}(x^{(i)}),y^{(i)}))} $$

我们使用梯度下降法对该问题进行优化。在此之前，首先介绍一下关于梯度。我们的优化目标可以看作一个关于$\theta \in R^{n\times k}$的函数$f$，那么其在$\theta_0$处的梯度可以表示为：

$$ \nabla _{\theta}f\left( \theta _0 \right) \in R^{n\times k}=\left[ \begin{matrix} \frac{\partial f\left( \theta _0 \right)}{\partial \theta _{11}}& \cdots& \frac{\partial f\left( \theta _0 \right)}{\partial \theta _{k1}}\\ \vdots& \ddots& \vdots\\ \frac{\partial f\left( \theta _0 \right)}{\partial \theta _{n1}}& \cdots& \frac{\partial f\left( \theta _0 \right)}{\partial \theta _{nk}}\\ \end{matrix} \right] $$

其中，第$i$行第$j$个元素表示除$\theta_{ij}$之外的参数都被当作常数，对$\theta_{ij}$求偏导。

梯度下降，就是沿着梯度方向不断进行迭代，以求找到最佳的$\theta$使得目标函数值最小。

$$ \theta :=\theta _0-\alpha \nabla f\left( \theta _0 \right) $$

上式中，$\alpha$被称为学习率或者步长。

事实上，在现代深度学习中，并不是使用的传统梯度下降的方案，因为其无法将所有训练集一次性读入并计算梯度。现代使用的是随机梯度下降（Stochastic Gradient Descent，SGD）

首先将m个训练集样本划分一个个小batch，每个batch都有B条数据。那每一batch的数据表示为$X\in R^{B\times n}$，更新参数$\theta$的公式变为：

$$ \theta :=\theta _0-\frac{\alpha}{B}\nabla f\left( \theta _0 \right) $$

我们的梯度变成了每个小batch对全体样本梯度的估计。

那如何计算梯度表达式呢？梯度矩阵中每个元素都是一个偏导数，我们就先从计算偏导数开始。假设$h$是个向量，我们来计算偏导数$\frac{\partial l_{ce}\left( h,y \right)}{\partial h_i}$：

$$ \begin{align*} \frac{\partial l_{ce}\left( h,y \right)}{\partial h_i}&=\frac{\partial}{\partial h_i}\left( -h_y+\log \sum_{j=1}^k{\exp h_j} \right) \\ &=-1\left\{ i=y \right\} +\frac{\exp \left( h_j \right)}{\sum_{j=1}^k{\exp h_j}} \\ &=-1\left\{ i=y \right\} +\mathrm{softmax} \left( h \right) \\ &=z-e_y \end{align*} $$

如果$h$是个向量，那么梯度$\nabla_h l_{ce}(h,y)$就能够以向量的形式表示为：

$$ \nabla_h l_{ce}(h,y) = z-e_y $$

这里我们将对$h$进行softmax标准化记为$z$，$e_y$表示对应的单位向量。

事实上，我们要计算的梯度是关于$\theta$的，具体来说，表达式为$\nabla_\theta l_{ce}(\theta^Tx,y)$，其中，$\theta$是个矩阵。或许，可以使用链式法则进行求解，但是太麻烦了，这里还涉及矩阵对向量的求导。我们需要一种更加通用的求导方案。

有两个解决办法：

正确且官方的做法：使用矩阵微分学、雅可比矩阵、克罗内克积和向量化等知识进行求解。
一个hacky、登不上台面、但大家都在用的方案：将所有的矩阵和向量当作标量，使用链式法则求解，并进行转置操作使得结果的size符合预期，最后检查数值上结果是否正确。

按照第二个方法的逻辑，过程为：

$$ \begin{align*} \frac{\partial}{\partial \theta}l_{ce}\left( \theta ^Tx,y \right) &=\frac{\partial l_{ce}\left( \theta ^Tx,y \right)}{\partial \theta ^Tx}\cdot \frac{\partial \theta ^Tx}{\partial \theta} \\ &=\left[ z-e_y \right] _{k\times 1}\cdot x_{n\times 1} \\ &=x\cdot \left[ z-e_y \right] \end{align*} $$

其中，$z=\text{softmax}(\theta^Tx)$。注意，倒数第二步求出的结果是两个列向量相乘，不能运算。又已知结果应该是$n\times k$的矩阵，调整向量之间的顺序即可。

照猫画虎，可以写出batch的情况，$X\in R^{B\times n}$：

$$ \begin{align*} \frac{\partial}{\partial \theta}l_{ce}\left( \theta ^TX,y \right) &=\frac{\partial l_{ce}\left( \theta ^TX,y \right)}{\partial \theta ^TX}\cdot \frac{\partial \theta ^TX}{\partial \theta} \\ &=\left[ Z-E_y \right] _{B\times k}\cdot X_{B\times n} \\ &=X^T\cdot \left[ Z-E_y \right] \end{align*} $$

Lecture 3: Manual Neural Networks

这节课，我们将人工实现全连接神经网络，之后的课程，将引入自动微分技术。

从线性模型转变为非线性模型

如上图所示，线性模型本质上是将样本空间划分为线性的几个部分，这样的模型性能十分有限，因此很多不满足这样分布的实际问题就不能被解决。

一种解决方案是，在将样本输入到线性分类器前，先人工挑选出某些特征，即对$X$应用一个函数$\phi$，其将$X$映射到$\phi(X)$上，映射后的空间可以被线性划分。一方面，它确实是早期实践中行之有效的方案；另一方面，人工提取特征的泛化性能有限，受限于具体问题和研究人员的对问题的洞察程度。

如果我们使用线性网络提取特征，并直接接上一个线性分类头，这两个线性层等效为一个线性层，并不能做到非线性化的要求（基础知识，此处不再解释）。

因此，在使用线性网络提取特征后，需要再接上一个非线性函数$\sigma$，即$\phi = \sigma (W^T X)$。

神经网络

上文提到的使用非线性函数后的模型，就可以视作一种最简单的神经网络。所谓神经网络，值得是机器学习中某一类特定的假说模型，其由多层组成，每一层都有大量可以微分的参数。

神经网络最初的确起源于模拟人类神经元这一动机，但随着其发展，越来越多的神经网络模型出现，与人类大脑神经网络越来越不相关。

以双层神经网络为例，其形式化表示为$h_\theta(x) = W_2^T \sigma(W_1^T x)$，所有可学习的参数使用$\theta$表示。以batch的矩阵形式表示为：

$$ h_\theta(X) = \sigma(XW_1)W_2 $$

接下来给出L层多层感知机（a.k.a. MLP、前馈神经网络、全连接层）的形式化表达：

$$ \left\{\begin{array}{l} Z_{i+1} = \sigma_i(Z_iW_i), i=1,...,L \\ Z_1 = X\\ h_\theta(X) =Z_{L+1}\\ [Z_i\in R^{m\times n_i}, W_i \in R^{n_i\times n_{i+1}}]\\ \sigma_i:R\rightarrow R \end{array} \right. $$

每一层的输入为$Z_i$，输出为$Z_{i+1}$。

为什么要是用深度网络而不是宽度网络？没有很完美的解释，但最好并且最现实的解释是：经验证明，当参数量固定时，深度网络性能优于宽度网络。

反向传播（梯度计算）

与Lecture 2一致，使用交叉熵作为损失函数，使用SGD作为优化算法，唯一的区别是，这次要对MLP网络求解梯度。

对于两层神经网络$h_\theta(X) = \sigma(XW_1)W_2$，待求的梯度表达式为：

$$ \nabla_{\{W_1, W_2\}}l_{ce}(\sigma(XW_1)W_2,y) $$

对于$W_2$的梯度，其与Lecture 2的计算类似：

$$ \begin{align*} \frac{\partial l_{ce}(\sigma(XW_1)W_2,y)}{\partial W_2}&=\frac{\partial l_{ce}(\sigma(XW_1)W_2,y)}{\partial \sigma(XW_1)W_2} \cdot \frac{\partial\sigma(XW_1)W_2}{\partial W_2}\\ &=(S-I_y)_{m\times k}\cdot \sigma(XW_1)_{m\times d}\\ &=\sigma(XW_1)^T\cdot (S-I_y)\\ &[S=\text{softmax}(\sigma(XW_1))] \end{align*} $$

对于$W_1$的梯度，其需要多次应用链式法则，但并不难计算：

$$ \begin{align*} \frac{\partial l_{ce}(\sigma(XW_1)W_2,y)}{\partial W_1}&=\frac{\partial l_{ce}(\sigma(XW_1)W_2,y)}{\partial \sigma(XW_1)W_2} \cdot \frac{\partial\sigma(XW_1)W_2}{\partial \sigma(XW_1)}\cdot \frac{\partial \sigma(XW_1)}{\partial XW_1}\cdot\frac{\partial XW_1}{\partial X_1}\\ &=(S-I_y)_{m\times k}\cdot [W_2]_{d\times k}\cdot \sigma\prime(XW_1)_{m\times d}\cdot X_{m\times n}\\ &=X^T\cdot [\sigma\prime(XW_1)\odot((S-I_y)\cdot W_2^T)]\\ &[S=\text{softmax}(\sigma(XW_1))] \end{align*} $$

以上公式中$\odot$表示逐元素乘法。至于为啥这么算，俺也不知道。

接下来将其推广到一般情况，即$L$层的MLP中对$W_i$求导：

$$ \begin{align*} \frac{\partial l(Z_{l+1},y)}{\partial W_i} &=\frac{\partial l}{\partial Z_{l+1}}\cdot \frac{\partial Z_{l+1}}{\partial Z_{l}}\cdot...\cdot \frac{\partial Z_{i+2}}{\partial Z_{i+1}}\cdot\frac{\partial Z_{i+1}}{\partial W_{i}}\\ &=G_{i+1}\cdot\frac{\partial Z_{i+1}}{\partial W_{i}}=\frac{\partial l}{\partial Z_{i+1}}\cdot \frac{\partial Z_{i+1}}{W_i}\\ \end{align*} $$

由上述公式，我们可以得到一个反向迭代计算的$G_i$，即：

$$ \begin{align*} G_i &= G_{i+1}\cdot \frac{Z_{i+1}}{Z_i} \\ &=G_{i+1}\cdot \frac{\partial \sigma(Z_iW_i)}{\partial Z_iW_i}\cdot\frac{\partial Z_iW_i}{Z_i}\\ &=G_{i+1}\cdot \sigma\prime(Z_iW_i)\cdot W_i\\ \end{align*} $$

上面的计算都是将矩阵当作标量进行的，接下来我们考虑其维度。已知，$Z_i \in R^{m\times n_i}$是第$i$层的输入，$G_i = \frac{\partial l}{\partial Z_{i}}$，其维度如何呢？$G_i$每个元素表示损失函数$l$对第$i$层输入的每一项求偏导，也可以记作是$l$对$Z_i$求梯度，即$\nabla_{Z_i} l$，其维度显然是$m\times n_i$，继续计算前文$G_i$：

$$ \begin{align*} G_i &=[G_{i+1}]_{m\times n_{i+1}}\cdot \sigma\prime(Z_iW_i)_{m\times n_{i+1}}\cdot [W_i]_{n_i\times n_{i+1}}\\ &= [G_{i+1}\odot \sigma\prime(Z_iW_i)]W_i^T \end{align*} $$

有了$G_i$，就可以继续计算$l$对$W_i$的偏导数了：

$$ \begin{align*} \frac{\partial l(Z_{l+1},y)}{\partial W_i} &=G_{i+1}\cdot\frac{\partial Z_{i+1}}{\partial W_{i}} \\ &=G_{i+1}\cdot \frac{\partial\sigma(Z_iW_i)}{\partial Z_iW_i}\cdot\frac{\partial Z_iW_i}{\partial W_i}\\ &=[G_{i+1}]_{m\times n_{i+1}}\cdot \sigma\prime(Z_iW_i)_{m\times n_{i+1}}\cdot [Z_i]_{m\times n_i}\\ &=Z_i^T\cdot[G_{i+1}\odot\sigma\prime(Z_iW_i)] \end{align*} $$

至此，每个小组件都已制造完毕，让我们来把它装起来吧！

前向传播
- 初始化：$Z_1 = X$
- 迭代：$Z_{i+1} = \sigma(Z_iW_i)$ 直至$i=L$（注意，最后一层没有非线性部分，此处没有展示出来）
反向传播
- 初始化：$G_{L+1} = S-I_y$
- 迭代：$G_i=[G_{i+1}\odot \sigma\prime(Z_iW_i)]W_i^T$ 直至$i=1$ 值得注意的是，在反向传播中，需要用到前向传播的中间结果$Z_i$。为了更高效地计算梯度，不得不以牺牲内存空间为代价，即空间换时间。

许多课程，讲到这里就结束了，但对我们这门课来说，才刚刚开始…

Lecture 4: Automatic Differentiation

基本工具

计算图计算图是自动微分中常用的一种工具。计算图是一张有向无环图，每个节点表示（中间结果）值，每条边表示输入输出变量。例如，$y=f(x_1, x_2) = \ln(x_1)+x_1x_2-\sin x_2$对应的计算图为：按照拓扑序列遍历这张图，就可以得到对应表达式的值。

对自动微分方法的简单介绍

深度学习中，一个核心内容就是计算梯度。这里介绍集中计算梯度的方案：

偏导数定义

梯度是由一个个偏导数组成的，可以直接根据偏导数的定义来计算梯度：

$$ \frac{\partial f(\theta)}{\partial \theta_i} = \lim_{\epsilon \to 0}\frac{f(\theta + \epsilon e_i) - f(\theta)}{\epsilon} $$

其中，$e_i$是表示第$i$个方向上的单位向量。

数值求解根据上述定义，我们可以选取一个很小的量代入$\epsilon$，得到数值计算偏导的方法：
$$ \frac{\partial f(\theta)}{\partial \theta_i} = \frac{f(\theta + \epsilon e_i) - f(\theta - \epsilon e_i)}{2\epsilon} + o(\epsilon^2) $$
这里并不是直接使用第一项的公式，即分子不是$f(\theta + \epsilon e_i) - f(\theta)$，并且误差项是$\epsilon^2$，这是由于泰勒展开：
$$ \begin{align*} f(\theta+\delta) = f(\theta)+f^\prime (\theta)\delta+\frac{1}{2}f^{\prime \prime}(\theta)\delta^2+o(\delta^3)\\ f(\theta-\delta) = f(\theta)+f^\prime (\theta)\delta-\frac{1}{2}f^{\prime \prime}(\theta)\delta^2+o(\delta^3) \end{align*} $$
上述两式作差，即可得到数值计算$f^\prime(\theta)$的方法。

这个方法的问题在于存在误差，并且效率低下（这里要计算两次f），该方法常用于验证其它方法的具体实现是否出错。具体来说，验证如下等式是否成立：

$$ \delta^T \nabla_\theta f(\theta) = \frac{f(\theta + \epsilon \delta) - f(\theta - \epsilon \delta)}{2 \epsilon} + o(\epsilon^2) $$

其中$\delta$是单位球上的某个向量，$\nabla_\theta f(\theta)$是使用其它方法计算得到的梯度。等式左边是其它方法计算的梯度在$\delta$上的投影，右侧是使用数值求解得到的梯度值，验证该等式是否成立就可以判断左侧梯度是否计算错误。

符号微分符号微分，就是根据微分的计算规则使用符号手动计算微分。部分规则为：
$$ \begin{align*} &\frac{\partial (f(\theta) + g(\theta))}{\partial \theta} = \frac{\partial f(\theta)}{\partial \theta} + \frac{\partial g(\theta)}{\partial \theta}\\ &\frac{\partial (f(\theta) g(\theta))}{\partial \theta} = g(\theta) \frac{\partial f(\theta)}{\partial \theta} + f(\theta) \frac{\partial g(\theta)}{\partial \theta}\\ &\frac{\partial f(g(\theta))}{\partial\theta}=\frac{\partial f(g(\theta))}{\partial g(\theta)}\frac{\partial g(\theta)}{\partial\theta} \end{align*} $$
根据该公式，可以计算得到$f(\theta) = \prod_{i=1}^{n} \theta_i$的梯度表达式为：$\frac{\partial f(\theta)}{\partial \theta_k} = \prod_{j \neq k}^{n} \theta_j$。如果我们根据该公式来计算梯度，会发现需要计算$n(n-2)$次乘法才能得到结果。这是因为在符号运算的过程中，我们忽略了可以反复利用的中间结果。
正向模式自动微分 forward mode automatic differentiation 沿着计算图的拓扑序列，同样可以计算出输出关于输入的导数，还是以$y=f(x_1, x_2) = \ln(x_1)+x_1x_2-\sin x_2$为例，其计算图为：

整个梯度计算过程如下，在此过程中应用到了具体函数的求导公式：

$$ \begin{align*} &x_1 = 2\\ &x_2 = 5\\ &\dot v_{1} =1 \\ &\dot v_{2} =0 \\ &\dot{v}_{3} =\dot v_{1}/v_{1}=0.5 \\ &\dot{v}_{4} =\dot{v}_{1}v_{2}+\dot v_{2}v_{1}=1\times5+0\times2=5 \\ &\dot v{5} =\dot{v_{2}}\cos v_{2}=0\times\cos5=0 \\ &\dot{v}_{6} =\dot v_{3}+\dot v_{4}=0.5+5=5.5 \\ &\dot{v}_{7} =\dot{v_{6}}-\dot{v_{5}}=5.5-0=5.5 \end{align*} $$

对于$f:\mathbb{R}^n \to \mathbb{R}^k$，前向传播需要$n$次前向计算才能得到关于每个输入的梯度，这就意味前向传播适合$n$比较小、$k$比较大的情况。但是在深度学习中，通常$n$比较大、$k$比较小。

反向模式自动微分定义$\text{adjoint}:\overline{v_i}=\frac{\partial y}{\partial v_i}$,其表示损失函数对于参数$v_i$的偏导。整个计算过程如下所示，需要注意的是$\overline{v_2}$的计算过程，其在计算图上延伸出了两个节点，因此梯度也由两部分相加：
$$ \begin{align*} &\overline{v_{7}}=\frac{\partial y}{\partial v_{7}}=1\\ &\overline{v_{6}}=\overline{v_{7}}\frac{\partial v_{7}}{\partial v_{6}}=\overline{v_{7}}\times1=1\\ &\overline{v_{5}}=\overline{v_{7}}\frac{\partial v_{7}}{\partial v_{5}}=\overline{v_{7}}\times(-1)=-1\\ &\overline{v_{4}}=\overline{v_{6}}\frac{\partial v_{6}}{\partial v_{4}}=\overline{v_{6}}\times1=1\\ &\overline{v_{3}}=\overline{v_{6}}\frac{\partial v_{6}}{\partial v_{3}}=\overline{v_{6}}\times1=1\\ &\overline{v_{2}}=\overline{v_{5}}\frac{\partial v_{5}}{\partial v_{2}}+\overline{v_{4}}\frac{\partial v_{4}}{\partial v_{2}}=\overline{v_{5}}\times\cos v_{2}+\overline{v_{4}}\times v_{1}\\ &\overline{v_{1}}=\overline{v_{4}} \frac{\partial v_{4}}{\partial v_{1}}+\overline{v_{3}} \frac{\partial v_{3}}{\partial v_{1}}=\overline{v_{4}}\times v_{2}+ \overline{v_{3}} \frac{1}{v_{1}}=5+\frac{1}{2}=5.5 \end{align*} $$

接下来我们讨论一下为什么前文中$\overline{v_2}$由两部分组成。考虑如下一个计算图：

$y$可以被视作关于$v_2$和$v_3$的函数，即$y = f(v_2, v_3)$，那么：

$$ \overline{v_{1}}=\frac{\partial y}{\partial v_{1}}=\frac{\partial f(v_{2},v_{3})}{\partial v_{2}}\frac{\partial v_{2}}{\partial v_{1}}+\frac{\partial f(v_{2},v_{3})}{\partial v_{3}} \frac{\partial v_{3}}{\partial v_{1}}=\overline{v_{2}} \frac{\partial v_{2}}{\partial v_{1}}+\overline{v_{3}} \frac{\partial v_{3}}{\partial v_{1}} $$

因此，定义partial adjoint $\overline{v_{i\to j}} = \overline{v_j} \frac{\partial v_j}{\partial v_i}$，那么$\overline{v_i}$可以表示为：

$$ \overline{\nu_i}=\sum_{j\in next(i)}\overline{\nu_{i\rightarrow j}} $$

反向模式微分算法的实现

基于以上分析，可以写出如下的实现反向模式微分算法的伪代码：

其中node_to_grad是一个字典，保存着每个节点的partial adjoint值。由于是按照逆拓扑序列遍历的节点，因此可以保证当遍历到$i$时，所有以$i$为输入的节点（k节点所在的集合）都已被遍历完毕，即$\overline{v_k}$已经计算出来。

那么partial adjoint值使用什么数据结构保存呢？一个常见的思路是使用邻接矩阵，但是这个矩阵中有大量元素是不存在了，空间浪费很大。我们可以在原有计算图的基础上进行拓展来保存partial adjoint和adjonitzhi之间的计算关系。

如下图所示，黑色部分是原表达式的计算图，红色部分是将adjoint和partial adjount的计算图：

使用计算图，除了能够节省内存外，还能清楚的看到正向计算的中间结果和反向计算之间的依赖关系，进而优化计算。

反向模式ad和反向传播的区别

反向传播：

在反向计算过程中使用与前向传播完全相同的计算图
应用于第一代深度学习框架

反向AD：

为adjoint在计算图中创建独立的节点
被应用于现代深度学习框架

现代普遍应用反向AD的原因：

某些损失函数是关于梯度的函数，这种情况下需要计算梯度的梯度，但反向传播就不能计算此类情况，而在反向AD中只要增加一个节点后在此计算梯度即可；
反向AD优化空间更大。

考虑Tensor的反向模式AD

前面都是在假设中间变量是标量的基础上讨论的，接下来我们将其推广到Tensor上。

首先推广adjoint，定义对于一个Tensor$Z$，其adjoint$\overline{Z}$为：

$$ =\begin{bmatrix}\frac{\partial y}{\partial Z_{1,1}}&...&\frac{\partial y}{\partial Z_{1,n}}\\...&...&...\\\frac{\partial y}{\partial Z_{m,1}}&...&\frac{\partial y}{\partial Z_{m,n}}\end{bmatrix} $$

鉴于

$$ \begin{align*}Z_{ij}&=\sum_kX_{ik}W_{kj}\\v&=f(Z)\end{align*} $$

那么在计算$\overline{X_{i,k}}$时，需要将所有计算图上以$X_{i,k}$为输入的节点都找出来，即$Z$的第$i$行的每个元素。因此$\overline{X_{i,k}}$的计算公式为：

$$ \overline{X_{i,k}}=\sum_{j}\frac{\partial Z_{i,j}}{\partial X_{i,k}}\bar{Z}_{i,j}=\sum_{j}W_{k,j}\bar{Z}_{i,j} $$

上述公式记为矩阵形式为：

$$ \overline X = \overline Z W^T $$

Lecture 5: Automatic Differentiation Implementation

这讲主要介绍我们hw中要实现的needle的总体框架，项目中已给出了约1000行代码。

autograd.py

autograd保存与实现自动微分相关的代码。

Value类对应计算图上的节点，其数据成员包括：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10


class Value:
    """A value in the computational graph."""

    # trace of computational graph
    op: Optional[Op]
    inputs: List["Value"]
    # The following fields are cached fields for
    # dynamic computation
    cached_data: NDArray
    requires_grad: bool

op用于保存该节点的运算符，inputs保存该运算符的操作数，cached_data保存该节点的数值，其数据结构因平台不同而区别。

ops

本节主要介绍needle库的代码结构，笔记相当草率，建议看原视频。

ops文件夹（2023版本）或者op.py（2022）版本保存各种算子的实现。 Op类规定了两个必须要实现的接口：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39


class Op:
    """Operator definition."""

    def compute(self, *args: Tuple[NDArray]):
        """Calculate forward pass of operator.

        Parameters
        ----------
        input: np.ndarray
            A list of input arrays to the function

        Returns
        -------
        output: nd.array
            Array output of the operation

        """
        raise NotImplementedError()

    def gradient(
        self, out_grad: "Value", node: "Value"
    ) -> Union["Value", Tuple["Value"]]:
        """Compute partial adjoint for each input value for a given output adjoint.

        Parameters
        ----------
        out_grad: Value
            The adjoint wrt to the output value.

        node: Value
            The value node of forward evaluation.

        Returns
        -------
        input_grads: Value or Tuple[Value]
            A list containing partial gradient adjoints to be propagated to
            each of the input node.
        """
        raise NotImplementedError()

compute接口用于描述该运算符实施的运算，gradient描述该运算符对应的梯度计算方式。

Lecture 6: Fully connected network, optimization, initialization

全连接网络

之前我们讨论的全连接网络都是不含偏执项的（为了方便进行手动微分），本章将介绍真正的MLP。其通过迭代的过程进行定义：

$$ \begin{align*} &z_{i+1} = \sigma_i(W_i^Tz_i+b_i), \ \ \ i=1,...,L\\ &h_\theta(x) = z_{L+1}\\ &z_1 = x \end{align*} $$

上述模型中，可优化的参数集合为$\theta = {W_{1:L}, b_{1:L} }$。$\sigma_i(x)$是非线性的激活函数，特别的，最后一层没有激活函数，即$\sigma_L (x)= x$。

迭代的表达式写成矩阵形式为：

$$ \begin{align*} Z_{i+1} = \sigma_i(Z_iW_i+1b_i^T) \end{align*} $$

其中，$1$表示一个表示一个全1的列向量，用于将列向量$b_i^T$广播到与矩阵$Z_iW_i$相匹配的形状。

在实际实现过程中，我们不用浪费空间去构造这样一个全1列向量，而是直接使用广播算子。在NumPy有许多自动的广播操作，但是在我们实现的needle库中，这一操作更加显式，例如对于$(n\times 1) \to (m \times n)$，要执行的操作为A.reshape((1, n)).broadcast_to((m, n))。

优化

对于有监督的深度学习任务，一般的优化目标为：

$$ \mathop{\text{minimize}}_{\theta} \ \ f(\theta) = \frac{1}{m}\sum_{i=1}^m{l(h_\theta(x^{(i)},y^{(i)}))} $$

接下来将介绍几常用的优化算法。

梯度下降 gradient desecent 梯度下降法之前几节课讲过了，这里直接给出其数学表达式：
$$ \theta_{t+1} = \theta_t - \alpha \nabla_\theta f(\theta_t) $$
其中，$t$表示迭代次数。

学习率这一参数对于该方法格外重要，不同的学习率的表现相差很大很大：

上图展示了大学习率和小学习率的迭代过程，如果目标函数再复杂一点，那么确定合适的学习率就会变得更加复杂。接下来将介绍一些不同的方法，它们各有其收敛行为。

对于梯度下降法的改进，有两种方案：梯度计算的变种和随机的变种。首先介绍第一类。

牛顿法 Newton’s Method 牛顿发使用二次曲面对一个高维函数做近似，因此其收敛速度显著快于一阶逼近的梯度下降法。其迭代公式为：
$$ \theta_{t+1} = \theta_t - \alpha(\nabla_\theta^2f(\theta_t))^{-1}\nabla_\theta f(\theta_t) $$
其中，$(\nabla_\theta^2f(\theta_t))^{-1}$是Hessian矩阵的逆矩阵。Hessian矩阵每个元素都是二阶导数，其具体定义为：
$$ \nabla_\theta^2f(\theta_t) = H=\begin{bmatrix}\frac{\partial^2f}{\partial x_1^2}&\frac{\partial^2f}{\partial x_1\partial x_2}&\cdots&\frac{\partial^2f}{\partial x_1\partial x_n}\\\frac{\partial^2f}{\partial x_2\partial x_1}&\frac{\partial^2f}{\partial x_2^2}&\cdots&\frac{\partial^2f}{\partial x_2\partial x_n}\\\vdots&\vdots&\ddots&\vdots\\\frac{\partial^2f}{\partial x_n\partial x_1}&\frac{\partial^2f}{\partial x_n\partial x_2}&\cdots&\frac{\partial^2f}{\partial x_n^2}\end{bmatrix} $$
对于二次函数，牛顿法可以一次给出指向最优点的方向

这一方法广泛用于传统凸优化领域，但是很少用于深度学习优化。有两个主要原因：1) Hessian矩阵是$n\times n$的，因此参数量稍微大一点其计算代码都非常非常恐怖；2) 对于非凸优化，二阶方法是否更有效还有待商榷。

动量梯度下降法 Momentum 在普通梯度下降法中，如果学习率太大，就会出现来回横跳的情况，如果对前几次梯度取平均，则可能改善这一情况。

动量法正是对梯度取指数移动平均¹的方案，具体来说有：

$$ \begin{align*} &u_{t+1} = \beta u_t +(1-\beta)\nabla_\theta f(\theta_t)\\ &\theta_{t+1} = \theta_t - \alpha u_{t+1} \end{align*} $$

该方法可视化过程如下图所示，在较大学习率的情况下，其相比梯度下降法优化曲线更为平滑。

无偏动量法 Unbiasing momentum 前一章节实际上有一个小瑕疵。如果$u_0$初始化为0，那么第一次进行更新是的梯度值是正常更新的$(1-\beta)$倍，因此其前期的收敛过程会稍慢，随着迭代的进行，其效应会逐渐减弱。

为了修正其影响，我们可以在参数更新过程中对动量进行缩放，具体来说：

$$ \theta_{t+1} = \theta_{t} - \frac{\alpha u_{t+1}}{1-\beta^{t+1}} $$

如下图所示，修正以后其前期的更新速度要快了不少。

Nesterov momentum Nesterov是梯度下降中一个非常有效的“trick”，其在传统momentum的基础上，将计算当前位置的梯度改为计算下一步位置的梯度。即：
$$ u_{t+1} = \beta u_t +(1-\beta)\nabla_\theta f(\theta_t - \alpha u_t) $$
关于其为啥有效，看到了两篇文章。第一篇²通过推导认为该方案对二阶导数进行了近似，因此其收敛速度更快；第二篇³认为其能够更好地感知未来位置的梯度，在未来梯度很大时放慢步子。

不看广告看疗效，对比普通Momentum，该方法的收敛速度要快得多。据说其也更适合一个深度网络。

Adam Adam是一种自适应的梯度下降算法。不同参数其对应的梯度之间的大小差异可能很大，Adam对此的解决方案是提供一个缩放因子，梯度值小则将其缩放得大一点，即：
$$ \begin{align*} &u_{t+1} = \beta_1 u_t + (1-\beta_1)\nabla_\theta f(\theta_t)\\ &v_{t+1} = \beta_2 v_t + (1-\beta_2)(\nabla_\theta f(\theta_t))^2 &\text{平方为逐元素运算}\\ &\theta_{t+1} = \theta_t - \frac{\alpha u_{t+1}}{\sqrt{v_{t+1}}+\epsilon} & \text{所有元素均为逐元素运算}\\ \end{align*} $$
Adam在实践中得到了广泛应用，在特定任务上，其可能不是最佳的优化器（如下图），但在大部分任务上，其都能有不错的可以作为基线的表现。

接下来将介绍随机变种。随机变种是在优化过程中加入了随机变量（噪声），例如每次使用数据集的一个子集对参数进行更新。

随机梯度下降 Stochastic gradient descent 随机梯度下降正是每次使用数据集的一个子集对参数进行更新，即：
$$ \theta_{t+1} = \theta_t - \frac{\alpha}{|B|}\sum_{i\in B}\nabla_\theta l(h_\theta(x^{(i)},y^{i})) $$

看上去SGD的迭代次数比梯度下降要多得多，但是其每轮迭代的计算代价都要小的多，同时

尽管在凸优化上可视化训练过程给了很直观的感受，但需要注意的是，深度学习并不是凸优化或者二次函数，这些优化方法在深度学习上的应用与在凸优化上的效果可能完全不同。

初始化

参数的初始值如何确定？这是个好问题。

在凸优化中，尝尝将所有参数初始化为0，如果在神经网络中也这么做，那么每一层的输出都是0，求得的梯度也都是0🙁。全0是这个模型的一个不动点，模型将永远得不到更新。

初始化参数对梯度的影响很大一种自然的想法是对参数进行随机初始化，例如按照多元正态分布进行初始化。但是，分布中参数的选择对于梯度的影响可能会相当大，如下图所示：随着层数的增加，如果激活值范数变化的太剧烈，会导致梯度爆炸或者消失问题，如果梯度值过大或者过小，也会导致这些问题。
权重的在训练过程的变化可能很小可能存在这样一个误区：无论初始值如何选择，这些参数最终都会收敛到某个区域附近。事实并非如此，整个训练过程中权重的变化并非如此剧烈。
为什么2/n在前面是个合适的初始化参数这里直接使用gpt对这页ppt的解释

考虑独立的随机变量 𝑥∼𝑁(0,1)x∼N(0,1) 和 𝑤∼𝑁(0,1𝑛)w∼N(0,n1)，其中 𝑥x 是输入，𝑤w 是权重。

期望和方差

𝐸[𝑥⋅𝑤𝑖]=0E[x⋅wi]=0

Var[𝑥⋅𝑤𝑖]=1𝑛Var[x⋅wi]=n1

因此，对于 𝑤𝑇𝑥wTx：

𝐸[𝑤𝑇𝑥]=0E[wTx]=0

Var[𝑤𝑇𝑥]=1Var[wTx]=1（根据中心极限定理，𝑤𝑇𝑥wTx 服从 𝑁(0,1)N(0,1)）

激活值的方差

如果使用线性激活函数，并且 𝑧𝑖∼𝑁(0,𝐼)zi∼N(0,I)，则 𝑊𝑖∼𝑁(0,1𝑛𝐼)Wi∼N(0,n1I)，那么：

𝑧𝑖+1=𝑊𝑖𝑧𝑖zi+1=Wizi

ReLU 非线性

如果使用 ReLU 非线性激活函数，由于 ReLU 会将一半的 𝑧𝑖zi 分量设为零，因此为了达到相同的最终方差，需要将 𝑊𝑖Wi 的方差增加一倍。因此：

𝑊𝑖∼𝑁(0,2𝑛𝐼)Wi∼N(0,n2I)

这就是所谓的 Kaiming 正态初始化（He 初始化），它特别适用于 ReLU 激活函数。

Lecture 7: Neural Network Library Abstractions

这节课主要介绍如何使用我们的needle库来实现一些简单的深度学习模型，构造一些小组件。

程序抽象

现代成熟的深度学习库提供了一些API，站在今天的视角，这些API都是都是恰到好处的。通过思考为什么要这样设计接口，可以让我们更好地理解深度学习库在进行程序抽象时的内部逻辑。

首先几个经典的深度学习框架进行分析，包括Caffe、TensorFlow和PyTorch。

Caffe 1.0 （2014）在Caffe中，使用Layer这一概念来表示神经网络中的一个个小模块，通过拼接和替换Layer，可以实现快速构造和修改神经网络，并使用同一套代码进行训练。

Layer类提供了forward和backward两个接口：

1
2
3
4
5
6


class Layer:
	def forward(bottom, top):
		pass

	def backward(top, propagate_down, bottom):
		pass

forward负责将来自bottom的数据进行前向传播，然后将数据保存到top中。在backward接口中，top保存来自输出的梯度，propagate_down用以指示是否要对其求梯度，bottom用于存放梯度。

在Caffe中，计算梯度是“就地”完成的，而非在计算图上新增额外的节点。作为第一代深度学习框架，直接计算梯度的思想是朴素但是符合直觉的。

TensorFlow 1.0 （2015）作为第二代深度学习框架，其在引入了计算图的概念。在计算图中，只要定义前向计算的计算方式，当需要计算梯度时，直接对计算图进行拓展即可。一个简短实例为：

1
2
3
4
5
6
7
8
9


import tensorflow as tf

v1 = tf.Variable()
v2 = tf.exp(v1)
v3 = v2 + 1
v4 = v2 * v3

sess = tf.Session()
value4 = sess.run(v4, feed_dict = {v1: numpy.array([1])})

以上代码v1~4仅仅是占位符，用于构建计算图，在没有输入传入前并没有值。通过会话来获取某个输入的情况下输出的值。

上述过程被称为声明式编程。即计算图在定义时并不会立即执行，而是等到会话（session）运行时才执行。这种方式的优点有：代码分区，可读性高；运行前计算图已知，可以针对性优化；通过会话便于实现分布式计算

PyTorch (needle) PyTorch使用的是命令式编程，相比声明式编程，命令式编程在构建计算图时就已经指定其值。

1
2
3
4
5
6


import needle as ndl

v1 = ndl.Tensor([1])
v2 = ndl.exp(v1)
v3 = v2 + 1
v4 = v2 * v3

命令式编程可以很方便地与Python原生控制流语句结合在一起，例如：

1
2
3
4


if v4.numpy() > 0.5:
	v5 = v4 * 2
else:
	v5 = v4

tf1.0的效率更高，适合推理和部署。PyTorch1.0则更适合开发和debug。

高级模块化库组件

如何使用深度学习库来实现深度学习呢？在hw1中我们使用一个个底层算子来搭建模型和实现训练过程，但这样开发太低效了。深度学习本身是很模块化的：由模型、损失函数和优化方法三部分组成。不但如此，模型本身也是高度模块化的。因此，我们在实现深度学习库时，必须精心设计好接口，以便支持该模块化的特性。

在PyTorch中，有一类叫做nn.Module，对应的就是模型中一个个小的子模块，其特点是以Tensor同时作为输入和输出。损失函数也满足这一特性，其可以被视为一个模块。

对于优化器，其作用是输入一个模型，对该模型中的参数按照某一规则进行更新。

为了防止过拟合，有些模型还具有正则项，其有两种实现方式：

作为损失函数的一部分进行实现
直接整合进优化器中

参数初始化同样很重要，其一般在构建nn.Module中指定。

数据加载也是一个很重要的模块。数据加载中还经常对数据进行预处理和增强。

各组件之间数据流图如下所示：

Lecture 8: Neural Network Implementation

修改Tensor的data域

在实现SGD时，由于存在多个batch，可能会在一个循环里对待学习参数进行更新，即：

1
2


for _ in range(iterations):
	w -= lr * grad

正如在CMU 10-414 Assignments 实验笔记 > SGD for a two-layer neural network踩过的坑那样，直接使用Tensor之间的算子进行参数更新会导致每次更新都会在计算图上增加一个新的节点w，这个节点具有Op和inputs，严重拖累反向传播速度。

为了避免每次更新参数时都在计算图上留下一个需要求梯度的节点，needle库提供了Tensor.data()方法，用于创建一个与Tensor共享同一个底层data的节点，但其不存在Op和inputs，也不用对其进行求导。

因此，可以使用Tensor.data方法，在不干扰计算图反向传播的前提下对参数进行正常的更新，即：

1

w.data -= lr * grad.data

数值稳定性

每个数值在内存中的存储空间都是有限的，因此保存的数值的范围和精度都是有限的，计算过程中难免出现溢出或者精度丢失的情况，在实现算子时，必须考虑到数值稳定性的问题。

例如，在softmax公式中，由于指数运算的存在，数值很有可能就上溢了，一个修正方式是在进行softmax运算前，每个元素都减去输入的最大值，以防止上溢。即：

$$ z_i = \text{softmax}(x_i) = \frac{\exp(x_i -c)}{\sum_k {\exp(x_k-c)}} $$

其中，$c = \max(x)$。

类似的，其它算子也要考虑相应的稳定性问题。

Parameter 类

Parameter类用于表示可学习的参数，其是Tensor的子类。相比Tensor类，这个类不必再引入新的行为或者接口，因此其实现很简单：

1
2


class Parameter(ndl.Tensor):
    """parameter"""

Module 类

Module类用于表示神经网络中一个个子模块。其具有如下接口：

parameters：获取模块中所有可学习参数
__call__：进行前向传播在实现时，定义了一个辅助函数_get_params用于提取一个模块中的所有可学习参数。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18


def _get_params(value):
    if isinstance(value, Parameter):
        return [value]
    if isinstance(value, dict):
        params = []
        for k, v in value.items():
            params += _get_params(v)
        return params
    if isinstance(value, Module):
        return value.parameters()
    return []

class Module:
    def parameters(self):
        return _get_params(self.__dict__)

    def __call__(self, *args, **kwargs):
        return self.forward(*args, **kwargs)

Optimizer 类

Optimizer类用于优化模型中可学习参数，其有两个关键接口：

reset_grad：重置模型中可学习参数的grad字段
step：更新参数值 reset_grad实现比较简单，step方法则依赖于优化算法的具体实现：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10


class Optimizer:
    def __init__(self, params):
        self.params = params

    def reset_grad(self):
        for p in self.params:
            p.grad = None

    def step(self):
        raise NotImplemented()

Lecture 9: Normalization and Regularization

Normalization

在前面几讲提到过，参数初始值的选择对于模型的训练很重要，不恰当的初始值参数会导致梯度消失或者爆炸💥。更重要的是，当训练完成后，这些梯度和参数值大小仍有初始值差不多，这更强调了初始值的重要性。

为了修复这一问题，引入了layer normalization。其思想就是对激活层的输出进行标准化，即将输出减去期望后除以标准差：

$$ \begin{align*} \hat{z}_{i+1} &= \sigma_i (W_i^Tz_i+b_i)\\ z_{i+1} &=\frac{\hat{z}_{i+1} - E(\hat{z}_{i+1})}{Var(\hat{z}_{i+1})+\epsilon} \end{align*} $$

上述技巧目前已经得到广泛应用，但在实践中，应用layer norm会导致模型难以收敛到一个很小的loss值。

另外一种技巧是batch norm。layer norm是对每一个sample（z的每一行）做归一化，而batch norm对每一列归一化。这一方法使得每个batch的所有样本都会对该batch中某个样本的推理结果有影响，因此在进行推理时，batch norm中的归一化的参数应该使用整个训练集上的参数，而非推理时输入样本的batch参数。

Regularization

正则化用于对抗过拟合，所谓过拟合是指模型在训练集上性能非常好，但在测试机上泛化性能很差。正则化就是限制参数复杂度的过程，可以分为显式正则和隐式正则。

隐式正则化是指现有算法或架构在不显式添加正则化项的情况下，自然地对函数类进行限制。具体来说，隐式正则化通过以下方式实现：

算法的固有特性：例如，随机梯度下降（SGD）等优化算法在训练过程中自带某些正则化效果。虽然我们并没有显式地优化所有可能的神经网络，而是通过SGD优化那些在特定权重初始化下的神经网络。这种优化过程本身对模型的复杂度进行了限制。
架构的设计：某些网络架构设计本身就具有正则化效果。例如，卷积神经网络（CNN）的共享权重机制和局部连接特性，自然地减少了模型参数的数量，从而降低了模型复杂度。

显式正则化指的是通过显式得修改模型使其能够避免对训练集过拟合。

一种最常见的应用于参数的正则化方案是l2正则化，即l2 regularization a.k.a weight decay。传统认为，模型参数值的大小可以在一定程度上指示出模型的复杂度，因此通过在优化目标中引入l2正则项来控制模型的大小。一般地，引入l2 regularization的机器学习优化问题可以表示为：

$$ \mathrm{minimize} \quad \frac{1}{m}\sum_i^m{l(h_{w_{1:L}}(x^{(i)}, y^{(i)}))}+\frac{\lambda}{2}\sum_{i=1}^L{||w_i||_F^2} $$

其中，$||w_i||_F$是Frobenius范数，其表示矩阵每个元素的平方和的平方根。

得益于这里的系数是$1/2$，在对$w_i$求导时正则项恰好为$\lambda w_i$。梯度更新的公式相应变为：

$$ W_i :=(1-\alpha \lambda)W_i-\alpha \nabla \frac{1}{m}l $$

注意，引入l2正则化后，每轮迭代都会将参数缩小至原来的$1-\alpha \lambda$。很多地方不将l2正则化作为损失函数的一部分，而是将其作为优化器的一部分，即直接将参数进行缩小，这种方法被称为weight decay，显然二者是等价的。

另外一种正则化方法是dropout，其思想是在训练过程中随机地将一些激活层的输出置为0，并对其它输出放大，以确保整层输出的数学期望不变，形式化表示为：

$$ \begin{align*} \hat{z}_{i+1} &= \sigma_i(W^T_i z_i)+b_i\\ (z_{i+1})_j &= \begin{cases} ((\hat{z}_{i+1} )_j)/(1-p) \quad &\text{以概率}1-p\\ 0 &\text{以概率}p \end{cases} \end{align*} $$

在推理时，则不需要进行dropout。

直观地说，dropout能够提升模型在激活层部分缺失时进行推理的能力，但显然这一能力没什么卵用。另一种解释是dropout提升了模型训练过程中的随机性，类似SGD。

Lecture 10: Convolutional Networks

Convolutional operators in deep networks

在hw2中，我们通过flatten操作将图片视作一个序列进行计算，这对于小尺寸的图片是可行的，但对于大尺寸的图片，例如256×256的图片，将会导致输入异常庞大，网络也随之变大。这种简单粗暴的处理方式不利于提取图片的内在特征，例如，如果对图片进行平移，其输入序列的变化相当大。

卷积网络出于以下两个动机：

层之间的激活以局部的方式发生，并且隐藏层的输出也被视为图像
在所有的空间位置共享权重

卷积网络有以下两个优点：

使用的参数很少。参数量由卷积网络的大小决定，而和输入的shape无关；
能够很好地捕获图片的内在不变形。

卷积的计算示意如下图所示，卷积核在原图上滑动，从而产生一张新的图片。

在深度学习中，输入和隐藏层都很少是一个1D的矩阵，一般而言，其是由多个通道的。例如，一张彩色图片由RGB三通道组成，而中间的隐藏层，通常会有比较大的通道数，如下图所示：记卷积层的输入$x\in \mathbb{R}^{h\times w \times c_{in}}$，输出$z\in \mathbb{R}^{h\times w \times c_{out}}$。从上图可以发现，卷积输出的某个通道，都是由输入在同一个局部的所有通道共同决定的，因此，卷积核$W\in \mathbb{R}^{c_{in}\times c_{out}\times k \times k}$，卷积过程可以形式化表示为：

$$ z[:,:,s] = \sum_{r=1}^{c_{in}}x[:,:,r] \cdot W[r,s,:,:] $$

关于多通道卷积，另外一种更符合直觉的理解是将相同位置的各通道的组合看作是一个向量，即下图中，$x$每一格都是一个向量，$W$每一格都是$c_{out} \times c_{in}$的矩阵，卷积的输出由对应位置的$z$和$W$按矩阵乘法并求和得到。

Elements of practical convolutions

在实际的卷积操作中，通常还会应用一些别的技术。

Padding 原始的卷积操作，会将输出的长宽变小$k-1$个长度，通过在周围填充$(k-1)/2$个0元可以保证输出的shape与输入一致。为了避免两侧填充不一致这个别扭的情况，我们一般选取卷积核大小为奇数。
Strided Convolutions / Pooling 经过padding之后的卷积操作，不改变图片的shape，但在实际应用中，通常会对图片进行下采样。用两种解决方案：

使用最大/平均池化来聚合信息，例如，使用一个2×2的核进行池化操作，每次移动的步长为2，就可以将整张图片长宽各放缩至原来一半；
卷积操作时，卷积核移动的步长大于1。

Grouped Convolutions 当输入和输出的通道数很大时，卷积核的参数量仍可能非常非常大。一种解决方案是，使用分组卷积，即将输入通道分为多个组，每个组独立进行卷积操作，如下图所示。如果分为G组，则参数量可减少为原来的1/G。
Dilations 传统卷积的感受野和卷积核一样大，扩张卷积的思路是在卷积区域中插入间隔，能够扩大卷积核的感受野。下图表示的很形象。

Differentiating convolutions

正如前文所提到的，我们可以通过一系列矩阵向量乘法和求和运算来实现卷积操作，但这么做效率太低了，我们的计算图上有很多中间节点，这些中间变量将消耗大量的内存空间。因此，我们不应该使用微分库中的算子来计算卷子，而是将其作为一个算子来实现，并手动计算其微分。

首先定义卷积操作：

$$ z = \operatorname{conv}(x,W) $$

$z$的梯度怎么与adjoints乘呢？这是个问题。$z$的梯度有以下二者：$\frac{\partial z}{\partial x}$和$\frac{\partial z}{\partial W}$，从形式上看，他们是3阶张量初以四阶张量，相当复杂。

首先考虑最简单的矩阵和向量相乘的情况，即：

$$ z = Wx $$

那么$z$对$x$的导数就是$W$，即其与adjoint的乘法计算公式为：

$$ W^T\bar{v} $$

也就是说如果在前向传播中我们计算一个矩阵和向量的乘积，那么在反向传播中，我们要计算这个矩阵的转置和adjoint的乘积。那对于卷积来说，它的“转置”是什么呢？

将卷积视为矩阵运算I 以1d卷积为例，我们考虑如下的一个卷积运算，其中每个格子都是一个向量或者矩阵。将上面这个矩阵运算展开，可以得到：
$$ \begin{bmatrix}z_1\\z_2\\z_3\\z_4\\z_5\end{bmatrix}=x*w=\begin{bmatrix}w_2&w_3&0&0&0\\w_1&w_2&w_3&0&0\\0&w_1&w_2&w_3&0\\0&0&w_1&w_2&w_3\\0&0&0&w_1&w_2\end{bmatrix}\begin{bmatrix}x_1\\x_2\\x_3\\x_4\\x_5\end{bmatrix} $$
有了$\hat{W}$，我们可以很容易地写出$\hat{W}^T$,即：
$$ \hat W^T=\begin{bmatrix}w_2&w_1&0&0&0\\w_3&w_2&w_1&0&0\\0&w_3&w_2&w_1&0\\0&0&w_3&w_2&w_1\\0&0&0&w_3&w_2\end{bmatrix} $$
不难发现，这个算子实际上是$[w_3, w_2, w_1]$这个卷积核，即原始卷积核翻转后的卷积核。也就是说，梯度和adjoint的乘积可以表示为：
$$ \hat{v}\frac{\partial \operatorname{conv}(x,w)}{\partial x} = \operatorname{conv}(\hat{v},\operatorname{flip}(w)) $$
将卷积视为矩阵运算II 接下来我们考虑卷积对于参数$w$的导数。同样，我们将矩阵运算展开，可以得到：
$$ \begin{bmatrix}z_1\\z_2\\z_3\\z_4\\z_5\end{bmatrix}=x*w=\begin{bmatrix}0&x_1&x_2\\x_1&x_2&x_3\\x_2&x_3&x_4\\x_3&x_4&x_5\\x_4&x_5&0\end{bmatrix}\begin{bmatrix}w_1\\w_2\\w_3\end{bmatrix} $$
相比矩阵运算I，我们构造出的$\hat{X}$矩阵是一个密集矩阵，在实现卷积算子时，我们常常采用这个方案来运算。这个$\hat{X}$矩阵被称为“im2col”矩阵（image to column）。

Lecture 11: Hardware acceleration

General acceleration techniques

现代机器学习框架可以视为两层：上层是计算图，用于前向推理、自动微分和反向传播；下层是张量线性代数库，其负责底层的张量计算。在needle中，我们目前使用numpy作为线性代数库。本节我们将介绍一些常见的加速技术。

Vectorization 向量化如果我们要将两个256长度的array相加，一种标量的处理方式是256个元素逐个相加，但是很多硬件都提供了批量从内存读取、向量运算指令，即优化为如下代码：

1
2
3
4
5
6
7
8


void vecadd(float* A, float* B, float* C){
	for(int i=0; i<64; i++){
		float4 a = load_float4(A + i*4);
		float4 b = load_float4(B + i*4);
		float4 c = add_float4(a, b);
		store_float4(C + i*4, c);
	}
}

这里要求ABC所在的内存块要是按照128 bit对齐的。

Data layout & strides 数据布局&步幅在内存中，数据是线性排列的，因此一个矩阵在内存中有两种布局方式：行优先和列优先。一些古老的语言使用列优先，现代的语言偏向使用行优先。

在许多库中，还引入了一种stride格式布局，即在保存张量时，额外保存一个数据，用于标识每个维度上需要移动的步长。在这种情况下，a[i, j] = a_data[i * strides[0] + j * strides[1]]

这个方案可以在不用复制数据的情况下实现很多操作：通过改变offset和shape来实现切片；通过交换strides来实现转置；通过插入等于0的stride来实现广播。

其缺点是访存操作可能不再连续，因此向量化技术不可用，很多库也需要先把他们拼接之后再使用。

Parallelization 并行化使用openmp可以将计算分配给多个核并行处理：

1
2
3
4
5
6
7
8
9


void vecadd(float* A, float* B, float* C){
	#pragma omp parallel for
	for(int i=0; i<64; i++){
		float4 a = load_float4(A + i*4);
		float4 b = load_float4(B + i*4);
		float4 c = add_float4(a, b);
		store_float4(C + i*4, c);
	}
}

Case study: matrix multiplication

本节我们将讨论如何优化矩阵乘法。

Vanilla matrix multiplication 朴素矩阵乘法最朴素的想法是使用三重循环完成，其复杂度是$O(n^3)$，即如下代码：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10


float A[n][n], B[n][n], C[n][n];

for(int i=0; i<n; i++){
	for(int j=0; j<n; j++){
		c[i][j] = 0;
		for(int k=0; k<n; k++){
		c[i][j] += A[i][k] * B[k][j];
		}
	}
}

在现代存储器中，L1 cache的速度比DRAM快200倍，通过优化数据的读取就可以显著提升计算速度，考虑到这一点，我们可以将中间变量保存到寄存器中，即：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13


dram float A[n][n], B[n][n], C[n][n];

for(int i=0; i<n; i++){
	for(int j=0; j<n; j++){
		register float c = 0;
		for(int k=0; k<n; k++){
		register float a = A[i][k];
		register float b = B[k][j];
		c += a*b;
		}
		C[i][j] = c;
	}
}

上述代码中，从读取A、B到寄存器的操作分别进行了$n^3$次，需要3个寄存器来完成该操作。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15


dram float A[n/v1][n/v3][v1][v3];
dram float B[n/v2][n/v3][v2][v3];
dram float C[n/v1][n/v2][v1][v2];

for (int i = 0; i < n/v1; ++i) {
    for (int j = 0; j < n/v2; ++j) {
        register float c[v1][v2] = 0;
        for (int k = 0; k < n/v3; ++k) {
            register float a[v1][v3] = A[i][k];
            register float b[v2][v3] = B[j][k];
            c += dot(a, b.T);
        }
        C[i][j] = c;
    }
}

上述代码中，要计算的矩阵C被分为$v_1\times v_2$的小矩阵，为了计算出每一块，每次必须从A中选出$v_1$行，从B中选出$v_2$列，这两组子矩阵可以按照长度$v_3$再次划分。在计算中，前两个循环依次遍历C中的一小块，然后初始化$v_1 \times v_2$个寄存器用于保存该块内容，然后再根据$v_3$的大小二次划分，进行矩阵运算，将这些结果加到对应的寄存器上，第三个循环结束后就计算出C的一个子块。

A的数据加载开销是$n^3/v_2$，B的数据加载开销是$n^3/v_1$，A的寄存器开销是$v_1 \times v_3$，B的寄存器开销是$v_2\times v_3$，C的寄存器开销是$v_1\times v_2$。注意到$v_3$不影响数据加载的开销，因此可以取$v_3$为1，然后在满足寄存器总数约束的情况下，最大化$v_1$和$v_2$。

之所以能够减小开销是因为在矩阵计算中，元素被重复使用，通过每次计算一个分块的方式，可以保证这个分块内用到的重复数据只要加载一次。

Cache line aware tiling 缓存行感知分块前面我们使用寄存器来进行加速，本节我们考虑使用cache来加速。我们的实现代码为：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12


dram float A[n/b1][b1][n];
dram float B[n/b2][b2][n];
dram float C[n/b1][n/b2][b1][b2];

for (int i = 0; i < n/b1; ++i) {
    l1cache float a[b1][n] = A[i];
    for (int j = 0; j < n/b2; ++j) {
        l1cache float b[b2][n] = B[j];
        
        C[i][j] = dot(a, b.T);
    }
}

上述代码中，结果矩阵C被分块为$b_1 \times b_2$，A和B分别按行和按列分块，通过两层循环遍历计算C中的每个子块，计算子块的过程可以使用寄存器分块进行加速。

上述代码中，A的加载开销是$n^2$，B的加载开销是$n^3/b1$。有两个约束，一个是$b_1n+b_2n < \text{l1 chche size}$，另一个是$b_1 % v_1=b_2 % v_2 = 0$。

Put it together 将缓存版本的dot运算使用寄存器版本展开，可以得到最终的分块乘法实现：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18


dram float A[n/b1][b1/v1][n][v1];
dram float B[n/b2][b2/v2][n][v2];

for (int i = 0; i < n/b1; ++i) {
    l1cache float a[b1/v1][n][v1] = A[i];
    for (int j = 0; j < n/b2; ++j) {
        l1cache b[b2/v2][n][v2] = B[j];
        for (int x = 0; x < b1/v1; ++x)
            for (int y = 0; y < b2/v2; ++y) {
                register float c[v1][v2] = 0;
                for (int k = 0; k < n; ++k) {
                    register float ar[v1] = a[x][k][:];
                    register float br[v2] = b[y][k][:];
                    C += dot(ar, br.T)
                }
            }
    }
}

上述代码的数据加载开销是：

$$ speed_{l1}\cdot(\frac{n^3}{v_2}+\frac{n^3}{v1})+speed_{dram}\cdot(n^2+\frac{n^3}{b_1}) $$

Lecture 12: GPU acceleration

GPU programming

如下图所示，CPU是一种通用处理器，其可以灵活地处理不同的任务，每个核都有独立的控制器。但在某些任务，例如图形渲染中，可能存在大量的重复工作，例如给每个像素都进行相同的处理。GPU正是擅长处理此类任务，其有大量的执行单元，可以批量执行同一指令。将GPU应用于深度学习，可以带来10X ~ 100X的加速倍率。

GPU programming model: SIMT 在本章节，我们将使用CUDA中的术语，但是在别的模型中，通常也有对应的概念。

SIMT中所有的线程都执行相同的指令，但是具有不同的数据通路。线程被分组为block，每个block共享内存。block被分组为launch grid，当启动一个kernel时，实际上就是在一个grid上执行。

Example: vector add 以下代码演示了在CPU和GPU上执行向量加法的过程：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12


void VecAddCPU(float* A, float *B, float* C, int n) {
    for (int i = 0; i < n; ++i) {
        C[i] = A[i] + B[i];
    }
}

__global__ void VecAddKernel(float* A, float *B, float* C, int n) {
    int i = blockDim.x * blockIdx.x + threadIdx.x;
    if (i < n) {
        C[i] = A[i] + B[i];
    }
}

从GPU版本我们可以看到，每个线程执行的指令都是相同，不同的是每个线程具有不同的环境变量。

为了执行上述GPU代码，在主机端要执行以下内容：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19


void VecAddCUDA(float *Acpu, float *Bcpu, float *Ccpu, int n) {
    float *dA, *dB, *dC;
    cudaMalloc(&dA, n * sizeof(float));
    cudaMalloc(&dB, n * sizeof(float));
    cudaMalloc(&dC, n * sizeof(float));

    cudaMemcpy(dA, Acpu, n * sizeof(float), cudaMemcpyHostToDevice);
    cudaMemcpy(dB, Bcpu, n * sizeof(float), cudaMemcpyHostToDevice);

    int threads_per_block = 512;
    int nblocks = (n + threads_per_block - 1) / threads_per_block;
    VecAddKernel<<<nblocks, threads_per_block>>>(dA, dB, dC, n);

    cudaMemcpy(Ccpu, dC, n * sizeof(float), cudaMemcpyDeviceToHost);

    cudaFree(dA);
    cudaFree(dB);
    cudaFree(dC);
}

函数的输入是来自cpu内存上的三个数组，在GPU上分配出对应大小的显存，然后将两个加数拷贝到设备中。根据数据的规模确定要启用的block数量，然后执行GPU代码，最后将结果拷贝会CPU内存并释放相应显存。

在实际中，内存拷贝是一个非常耗时的过程，因此我们希望将数据一直保留在显存中进行计算，而非频繁地来回拷贝。

Example: window sum window sum是一种权重全为1的卷积，一种朴素的想法是这么些的：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12


#define RADIUS 2

__global__ void WindowSumSimpleKernel(float* A, float *B, int n) {
    int out_idx = blockDim.x * blockIdx.x + threadIdx.x;
    if (out_idx < n) {
        float sum = 0;
        for (int dx = -RADIUS; dx <= RADIUS; ++dx) {
            sum += A[dx + out_idx + RADIUS];
        }
        B[out_idx] = sum;
    }
}

但显然，这个算法并不高效，将重复访问数据，要加载$5n$次数据。

这时候可以引入共享内存进行优化，将一个block内要要用到的数据全部读取到共享内存中。数据加载的任务可以分给每个线程并行完成，显著降低了内存加载时间开销。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19


__global__ void WindowSumSharedKernel(float* A, float* B, int n) {
    __shared__ float temp[THREADS_PER_BLOCK + 2 * RADIUS];
    int base = blockDim.x * blockIdx.x;
    int out_idx = base + threadIdx.x;
    if (base + threadIdx.x < n) {
        temp[threadIdx.x] = A[base + threadIdx.x];
    }
    if (threadIdx.x < 2 * RADIUS && base + THREADS_PER_BLOCK + threadIdx.x < n) {
        temp[threadIdx.x + THREADS_PER_BLOCK] = A[base + THREADS_PER_BLOCK + threadIdx.x];
    }
    __syncthreads();
    if (out_idx < n) {
        float sum = 0;
        for (int dx = -RADIUS; dx <= RADIUS; ++dx) {
            sum += temp[threadIdx.x + dx + RADIUS];
        }
        B[out_idx] = sum;
    }
}

通过__syncthreads同步，确保所有线程都将数据加载完毕，然后再计算window sum。

Case study: matrix multiplication on GPU

从线程的细粒度来说，我们可以在GPU上实现一个寄存器分块版本的矩阵乘法：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17


__global__ void mm(float A[N][N], float B[N][N], float C[N][N]) {
    int ybase = blockIdx.y * blockDim.y + threadIdx.y;
    int xbase = blockIdx.x * blockDim.x + threadIdx.x;

    float c[V][V] = {0};
    float a[V], b[V];
    for (int k = 0; k < N; ++k) {
        a[:] = A[k, ybase*V : ybase*V + V];
        b[:] = B[k, xbase*V : xbase*V + V];
        for (int y = 0; y < V; ++y) {
            for (int x = 0; x < V; ++x) {
                c[y][x] += a[y] * b[x];
            }
        }
    }
    C[ybase * V : ybase * V + V, xbase * V : xbase * V + V] = c[:,:];
}

每个线程负责计算一个分块的结果，即每次计算下图中的一块。还可以将计算一块的任务交给一个block，这样就可以使用共享内存技术有block内的线程共同加载要用到的数据。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29


__global__ void mm(float A[N][N], float B[N][N], float C[N][N]) {
    __shared__ float sA[S][L], sB[S][L];
    float c[V][V] = {0};
    float a[V], b[V];
    int yblock = blockIdx.y;
    int xblock = blockIdx.x;

    for (int ko = 0; ko < N; ko += S) {
        __syncthreads();
        // needs to be implemented by thread cooperative fetching
        sA[:, :] = A[ko + S, yblock * L : yblock * L + L];
        sB[:, :] = B[ko + S, xblock * L : xblock * L + L];
        __syncthreads();

        for (int ki = 0; ki < S; ++ki) {
            a[:] = sA[ki, threadIdx.x * V + V];
            b[:] = sB[ki, threadIdx.x * V + V];
            for (int y = 0; y < V; ++y) {
                for (int x = 0; x < V; ++x) {
                    c[y][x] += a[y] * b[x];
                }
            }
        }
    }

    int ybase = blockIdx.y * blockDim.y + threadIdx.y;
    int xbase = blockIdx.x * blockDim.x + threadIdx.x;
    C[ybase * V : ybase * V + V, xbase * V : xbase * V + V] = c[:, :];
}

上述代码从全部内存到共享内存的加载过程被复用L次（计算每个分块矩阵都要读取L次AB的行列向量），从共享内存到寄存器被复用V次（在分块矩阵中按照长度V进行了二次分块计算）各线程读取数据到共享内存的过程为：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10


sA[:, :] = A[k : k + S, yblock * L : yblock * L + L];


int nthreads = blockDim.y * blockDim.x;
int tid = threadIdx.y * blockDim.x + threadIdx.x;
for(int j = 0; j < L * S / nthreads; ++j) {
    int y = (j * nthreads + tid) / L;
    int x = (j * nthreads + tid) % L;
    s[y, x] = A[k + y, yblock * L + x];
}

Lecture 13: Hardware Acceleration Implemetation

这节是实验课，在这节课中，我们将学习needle库中CPU和GPU底端具体实现的代码骨架。

这节课不做笔记，本节课内容可通过完成hw3学习。

Lecture 14: Implementing Convolutions

本节课将学习卷积算子的具体实现。

存储格式 Storage Order

对于图片数据或者隐藏层，我们需要存储batch_size*channel*height*width即B*C*H*W个元素，本课程中，我们选取的存储格式为：

1

float Z[BATCHES][HEIGHT][WIDTH][CHANNELS];

上述格式被称为NHWC格式（N代表number）。PyTorch默认格式为NCHW，其在后期版本也支持NHWC。不同的格式会影响操作的性能：卷积在NHWC上更快，Batch Norm在NCHW上更快。

对于卷积核，其需要存储k*k*C_in*C_out个元素，本课程我们选取的存储格式为：

1

float weights[KERNEL_SIZE][KERNEL_SIZE][IN_CHANNELS][OUT_CHANNELS];

PyTorch选择的格式为(C_out, C_in, k, k)。

for循环实现卷积 Convolutions with simple loops

通过循环来实现卷积操作的过程，从外到内，循环迭代的参数依次为：batch、channel_in、channel_out、out_row、out_column，还有两个循环用于实现卷积，共七个循环：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13


def conv_naive(Z, weight):
    N,H,W,C_in = Z.shape
    K,_,_,C_out = weight.shape
    
    out = np.zeros((N,H-K+1,W-K+1,C_out));
    for n in range(N):
        for c_in in range(C_in):
            for c_out in range(C_out):
                for y in range(H-K+1):
                    for x in range(W-K+1):
                        for i in range(K):
                            for j in range(K):
                                out[n,y,x,c_out] += Z[n,y+i,x+j,c_in] * weight[i,j,c_in,c_out]

该七重循环实现的卷积耗时3秒，而PyTorch仅需1.2毫秒，约2500倍的性能差距。

矩阵乘法实现卷积 Convolutions as matrix multiplications

卷积核中任意一个元素[ i, j, :, : ]都是一个shape为(c_in, c_out)的矩阵，当其作用在输入图片的某个元素(p,q,m,:)即作用在一个长度为c_in的向量上时，这个过程就是一个矩阵乘法运算。

特别的，对于卷积核大小为1×1的情况，整个卷积过程可以直接用一个矩阵乘法来表示：

1
2


W1 = np.random.randn(1,1,8,16)
out = conv_reference(Z,W1)

怎么将1×1的卷积核推广到一般情况呢？可以把卷积核看成由一个个1×1的小卷积核组成的，不断迭代这些卷积核即可。需要注意的是，每个小卷积核在图片上作用的范围都不一样，要做好切片：

1
2
3
4
5
6
7
8
9


def conv_matrix_mult(Z, weight):
    N,H,W,C_in = Z.shape
    K,_,_,C_out = weight.shape
    out = np.zeros((N,H-K+1,W-K+1,C_out))
    
    for i in range(K):
        for j in range(K):
            out += Z[:,i:i+H-K+1,j:j+W-K+1,:] @ weight[i,j]
    return out

该版本卷积耗时17毫秒，相比PyTorch1.2毫秒，约14倍性能差距。

通过strides来操作矩阵 Manipulating matrices via strides

在内存中，通常将矩阵按照二维数组的形式在内存中存储：

1

float A[M][N];

但是，我们在实现一些高效算子时，经常会把矩阵分块，如果将其分块存储，那么这些算子将会具有更好的空间局部性：

1

float A[M/TILE][N/TILE][TILE][TILE]

NumPy提供了一个函数用于实现从二维数组转变为分块矩阵的格式：np.lib.stride_tricks.as_strided⁴。

具体来说，as_strided这个函数用于创建一个具有不同shape和strides，但与原array具有相同底层数据的视图（view）。

举个例子，如下图所示，一个6×6的矩阵，对于按照2×2进行分块，我们从strides[3]倒着写出其值。

strides [3]表示在子矩阵内部移动到下一列的元素的步长，即从0移动到1的步长，数据在内存中是按行连续排列的，因此其值为1；
strides [2]表示在子矩阵中移动到下一行元素的步长，即从0移动到6的所需步长，观察图片可以看到该步步长等于矩阵的列数N，即6；
strides [1]表示从一个子矩阵移动到同行下一个子矩阵的对应位置的步长，即从0移动到2的步长，可以看到移动的步长等于分块的列长度TILE，即2；
strides [0]表示从一个子矩阵移动到同列下一个子矩阵对应位置的步长，即从0移动到12的步长，可以看到移动的步长等于TILE*N，即12。

确定了strides之后，就可以使用as_strided为原矩阵创建一个分块矩阵的视图，并使用np.ascontiguousarray创建一个内存连续版本的副本：

1
2
3
4
5
6


import numpy as np
n = 6
A = np.arange(n**2, dtype=np.float32).reshape(n,n)

B = np.lib.stride_tricks.as_strided(A, shape=(3,3,2,2), strides=np.array((12,2,6,1))*4)  #numpy中strides以字节为单位
C = np.ascontiguousarray(B)

—————-以下非课程内容—————- 这里插一嘴，这里实现分块的方式非常不优雅，毕竟numpy并不建议使用这么底层的API来直接修改数据，我问了下GPT，他提供了一种更优雅的方案。

我们首先可以将原矩阵(M, N)reshape为(M//TILE, TILE, N//TILE, TILE)，这一步相当于将原矩阵在行和列上进行分块，并且(p,m,q,n)表示第p行第q列的子矩阵中第m行第n列个元素。然后使用transpose(0, 2, 1, 3)重新排列维度即可。

至于为什么reshape那一步后索引仍是正确的，我略微理解的，但难以表达出来，有点只可意会的意思：reshape那个操作可以分成两步完成，分别是在行和列上进行切片，这两个步骤又不冲突，合并后的结果就是如下的代码：

1
2
3
4
5
6


def block_matrix(A, TILE):
    M, N = A.shape
    assert M % TILE == 0 and N % TILE == 0, "矩阵维度必须能被TILE整除"
    A_reshaped = A.reshape(M//TILE, TILE, N//TILE, TILE)
    A_blocked = A_reshaped.transpose(0, 2, 1, 3)
    return np.ascontiguousarray(A_blocked)

—————-以上非课程内容—————-

通过 im2col 来实现卷积 Convolutions via im2col

在Lecture 10中提到，我们可以使用im2col技术，将一维卷积运算转换为矩阵运算：

$$ \begin{bmatrix}z_1\\z_2\\z_3\\z_4\\z_5\end{bmatrix}=x*w=\begin{bmatrix}0&x_1&x_2\\x_1&x_2&x_3\\x_2&x_3&x_4\\x_3&x_4&x_5\\x_4&x_5&0\end{bmatrix}\begin{bmatrix}w_1\\w_2\\w_3\end{bmatrix} $$

对于二维卷积来说，同样也是可以的。以卷积核大小为3×3为例，对6×6的矩阵进行卷积，其结果矩阵为4×4。首先，我们找出每次运算的感受野，将其单独拿出来，那么所有这些感受野就组成了一个4×4×3×3的Tensor。

如下图所示，第[0,0]个感受野就是[0,1,2;6,7,8;12,13,14]。怎么将原始矩阵转变为Tensor呢？这里就可以用到上节提到的as_strided方法。strides[0]表示到同列下一个感受野的相同位置的元素的步长，为列长6；strides[1]表示到同行下一个感受野的步长，为1；strides[2]表示同一个感受野内部同列下一个元素的步长，为原始列长6；strides[3]表示同一个感受野内部同行下一个元素的步长，为1。即，使用B = np.lib.stride_tricks.as_strided(A, shape=(4,4,3,3), strides=4*(np.array((6,1,6,1))))可以将原始待卷积矩阵A转变为感受野张量B。

下一步，通过reshape操作将单个感受野和卷积核都转变为向量，通过内积运算计算卷积值：

1

(B.reshape(16,9) @ W.reshape(9)).reshape(4,4)

需要注意的是，B的reshape的操作并不是free的，无法通过原始的A的数据来表示reshape后的B，该reshape操作会分配出一块$O(K^2)$的内存空间，当K比较大时，这个操作将相当耗费内存。因此，在现代版本中，常常会使用lazy技术或者其它技术，但这不在本课程讨论范围之内。

通过 im2col 来实现多通道卷积

对于多通道并且考虑batch的卷积，其输入shape为N×H×W×C_in，感受野Tensor为N×(W-K+1)×(H-K+1)×K×K×C_in，需要将K×K×C_in展开为一维，卷积核也要将对应位置展开，即reshape后shape为(K×K×C_in)×C_out。

代码实现为：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10


def conv_im2col(Z, weight):
    N,H,W,C_in = Z.shape
    K,_,_,C_out = weight.shape
    Ns, Hs, Ws, Cs = Z.strides
    
    inner_dim = K * K * C_in
    A = np.lib.stride_tricks.as_strided(Z, shape = (N, H-K+1, W-K+1, K, K, C_in),
                                        strides = (Ns, Hs, Ws, Hs, Ws, Cs)).reshape(-1,inner_dim)
    out = A @ weight.reshape(-1, C_out)
    return out.reshape(N,H-K+1,W-K+1,C_out)

Lecture 15: Training Large Models

内存节省技术 Techniques for memory saving

一直以来，GPU的全局内存大小都是模型大小的制约瓶颈，通过一些内存节省技术可以训练更大的一些模型。

模型内存消耗主要有如下几个方面：模型权重、优化器状态（动量值等等）、中间激活层的值。

对于推理来说，保存激活层的内存只需要两块，分别用来保存一层的输入和输出，下一层的输入为上一层的输出，下一层的输出覆盖上一层的输入。其不需要保存中间激活层的值。

而在训练中，由于在计算每一层的梯度时都用到了该层的输入，所每一个激活层都要一片内存保存下来，即激活层的内存数量为$O(N)$，如下图所示：

一种减少激活层内存使用的技术叫做checkpoint，就是每隔一个激活层才保存该层的值，如下图所示：在反向传播时，如果需要用到未保存的隐藏层，则通过上一个隐藏层计算出该层的值即可。这是一种时间换空间的思路。对于一个N层的网络，每隔K个隐藏层保存一次结果，则隐藏层占用的内存空间大小为$O(N/K)+O(K)$，当$K=\sqrt{N}$时可取到最小值。

并行和分布式训练 Parallel and distributed training

计算图划分

当有多个GPU时，可以进行并行分布式训练。一种思路是将计算图进行划分，并分配给不同的worker进行执行，通过通讯协议在worker中间传递数据。如下图所示，整个计算图被划分为两部分。仅仅将计算图划分并不会带来多少的并行性，但是当worker1计算来自worker0的数据时，worker0可以并行计算下一个minibatch的数据，从而实现高并行。

数据并行训练

数据并行训练是的是将一个minibatch分割成更小的smaller batch，每个GPU负责一个smaller batch的计算，这样做每隔GPU上都在跑相同的模型。

在分布式和并行计算中，有一个allreduce原语，其作用是将分布在多个进程或节点上的数据进行规约（reduction）操作，然后将结果广播回所有参与的进程或节点。运用这个原语，我们可以在多GPU上计算出smaller batch的梯度，然后利用该原语将计算出整个minibatch的梯度并进行梯度下降。

我们还可以将参数使用专门的参数服务器保存，其它设备需要访问或者更新参数时，只需要调用相应API即可。参数服务器的好处是其不需要等待所有的worker都计算结束再更新，支持动态增减worker数量，提高了系统的鲁棒性。

通信计算重叠 communication computation overlap

通信计算重叠，就是指在通信同步时使用非阻塞的方式，在等待IO时继续计算。

Lecture 16 Generative Adversarial Network

生成对抗训练 Generative adversarial training

对于无监督学习，或者称生成式模型，其任务是通过随机向量生成符合数据集分布的样本。这就引入了一个问题：如何评估样本和目标分布之间的距离。这一评价指标作为我们的目标函数，其必须是可微的，以便后续对模型进行优化。

对抗训练的思路是构造一个oracle classfier D，其作用是辨别生成数据和原始数据，D的输出是输入为生成数据为生成数据的概率。那对于任意一个输入z，生成网络G的输出为G(z)，D对其的判别结果为D(G(z))。那生成器的目标就是尽可能让判别器判别错误，即其损失函数为：

$$ \max_G\{-E_{z\sim Noise}\log{(1-D(G(z)))}\} $$

需要注意的是，这里并没有现成的辨别器D。我们同样可以用一个神经网络来构造这个辨别器，那这个辨别器的目标就是尽可能判断正确，即其损失函数为：

$$ \min_D\{-E_{z\sim Noise}\log{(1-D(G(z)))}-E_{x\sim Data}\log{D(x)}\} $$

将对抗训练作为深度学习中的一个模块 Adversarial training as a module in deep learning models

接下来我们考虑如何将对抗模型模块化。我们可以将整个判别器作为一个损失函数来实现，当然，其和我们之前实现的损失函数是不一样的，判别器的参数在每轮反向传播时都要更新。

【这一节课似乎没有具体说明如何模块化，后边似乎在介绍GAN网络的各个变种】

在DCGAN中，使用了一种被称为反卷积（转置卷积、Conv2dTranspose）的模块，其作用是进行上采样。

CycleGAN是一个用于风格迁移的模型。对于风格迁移模型来说，一种有监督的训练思路是收集风格迁移前后的图片配对数据集，进行有监督训练。然而，此类配对数据集是很难获取的。如何通过未配对的数据集进行无监督训练呢？可以使用GAN网络，一个生成器G用于升成风格迁移后的图片，使用一个判别器进行对抗训练。另外有一个生成器F，用于还原图片，其也使用一个判别器进行对抗训练。而整个CycleGAN模型还需要保证循环一致性，即将数据集中的一个图片经过G之后，再经过F，应当还原成原始图片，故循环一致性的损失函数就是两个图片之间的L2 Norm。

在下节课中，将讨论GAN系列网络的具体实现。

Lecture 17: Generative Adversarial Networks implementations

本节课中，我们将学习GAN网络的具体实现。

在课程中，使用二维高斯分布作为真实数据集，训练一个生成器用于升成该分布的数据。训练集数据准备如下：

1
2
3
4
5


A = np.array([[1, 2], [-0.2, 0.5]])
mu = np.array([2, 1])
# total number of sample data to generated
num_sample = 3200
data = np.random.normal(0, 1, (num_sample, 2)) @ A + mu

生成器使用一个简单的全连接层即可：

1
2
3
4
5
6


model_G = nn.Sequential(nn.Linear(2, 2))

def sample_G(model_G, num_samples):
    Z = ndl.Tensor(np.random.normal(0, 1, (num_samples, 2)))
    fake_X = model_G(Z)
    return fake_X.numpy()

判别器是一个三层的感知机，损失函数为softmax loss：

1
2
3
4
5
6
7
8


model_D = nn.Sequential(
    nn.Linear(2, 20),
    nn.ReLU(),
    nn.Linear(20, 10),
    nn.ReLU(),
    nn.Linear(10, 2)
)
loss_D = nn.SoftmaxLoss()

优化生成器G的过程就是使用G随机生成一些数据G(z)，计算D(G(z))的输出和label 1之间的损失：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10


opt_G = ndl.optim.Adam(model_G.parameters(), lr=0.01)、

def update_G(Z, model_G, model_D, loss_D, opt_G):
    fake_X = model_G(Z)
    fake_Y = model_D(fake_X)
    batch_size = Z.shape[0]
    ones = ndl.ones(batch_size, dtype="int32")
    loss = loss_D(fake_Y, ones)
    loss.backward()
    opt_G.step()

同样，判别器的更新过程就是计算D(x)和label 1之间的损失，D(G(z))和label 0之间的损失，x是真实数据：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13


opt_D = ndl.optim.Adam(model_D.parameters(), lr=0.01)

def update_D(X, Z, model_G, model_D, loss_D, opt_D):
    fake_X = model_G(Z).detach()
    fake_Y = model_D(fake_X)
    real_Y = model_D(X)
    assert X.shape[0] == Z.shape[0]
    batch_size = X.shape[0]
    ones = ndl.ones(batch_size, dtype="int32")
    zeros = ndl.zeros(batch_size, dtype="int32")
    loss = loss_D(real_Y, ones) + loss_D(fake_Y, zeros)
    loss.backward()
    opt_D.step()

训练过程则是每次迭代中，将随机向量送入生成器，再将生成器的输出喂给判别器，然后分别更新二者的参数即可，注意以下代码中epoch指的是训练了几个batch，而不是指在训练集上完整训练了几轮：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13


def train_gan(data, batch_size, num_epochs):
    assert data.shape[0] % batch_size == 0
    data.astype(np.float32)
    for epoch in range(num_epochs):
        begin = (batch_size * epoch) % data.shape[0]
        X = data[begin: begin+batch_size, :]
        Z = np.random.normal(0, 1, (batch_size, 2))
        X = ndl.Tensor(X)
        Z = ndl.Tensor(Z)
        update_D(X, Z, model_G, model_D, loss_D, opt_D) 
        update_G(Z, model_G, model_D, loss_D, opt_G)

train_gan(data, 32, 2000)

以上就是训练一个GAN网络的全过程，接下来我们考虑如何GAN Loss模块化。GAN Loss的作用是给定一个生成器的输出，返回一个损失值。此外，当生成器拿到损失值后就会直接进行生成器的参数更新，因此GAN Loss内部必须隐式更新自身的参数，即：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23


class GANLoss:
    def __init__(self, model_D, opt_D):
        self.model_D = model_D
        self.opt_D = opt_D
        self.loss_D = nn.SoftmaxLoss()

    def _update_D(self, real_X, fake_X):
        real_Y = self.model_D(real_X)
        fake_Y = self.model_D(fake_X.detach())
        batch_size = real_X.shape[0]
        ones = ndl.ones(batch_size, dtype="float32")
        zeros = ndl.zeros(batch_size, dtype="float32")
        loss = self.loss_D(real_Y, ones) + self.loss_D(fake_Y, zeros)
        loss.backward()
        self.opt_D.step()

    def forward(self, fake_X, real_X):
        self._update_D(real_X, fake_X)
        fake_Y = self.model_D(fake_X)
        batch_size = real_X.shape[0]
        ones = ndl.ones(batch_size, dtype="float32")
        loss = self.loss_D(fake_Y, ones)
        return loss

Lecture 18: Sequence Modeling and Recurrent Networks

序列建模 Sequence modeling

在前面的模型中，我们都做了一个隐式假设：x和y之间是独立同分布的，但是在实践中，很多任务的y都是与x相关的，尤其是当y是一个时间序列数据。

对于序列数据来说，有一类预测模型是自回归模型，其基本思想是利用序列自身的历史值来预测未来值。

循环神经网络 Recurrent neural networks

循环网络也能用于解决序列数据的建模问题。RNN网络的思想是构建一个网络模型用于模拟输入序列中的时序信息。

如下图所示，h表示模型中的隐藏层，隐藏层的输入为前一个隐藏层的状态和当前输入x，经过非线性变换后得到该隐藏层，当前输入的对应输出则由对应隐藏层经过非线性变换后得到。即：

$$ \begin{align*} h_t &= f(h_{t-1},x_t)\\ y_t &=g(h) \end{align*} $$

理论上来说，如果建模得当，这种模式在预测$y_t$时可以获取前面所有时刻的时序信息。

RNN的训练时需要配对的x和y作为数据集，损失函数由每一个预测值和真实值之间的损失累加得到。显然，这个损失函数很难通过笔纸进行推导，但得益于我们之前构建的自动微分系统，我们不需要手动计算任何梯度。

可以将多个RNN堆叠在一起，得到stacking RNN，如下图所示：

RNN在训练过程中很容易出现梯度/激活层爆炸和梯度/激活层消失问题。之前的lecture提到，当训练很深的网络时，初始化参数是很重要的。在RNN上，这个问题更加严重，因为RNN的模型通常很深很深。

一个解决梯度问题的方法是着眼于激活函数。ReLU作为激活函数其一个问题是其输出可以无限大。然而，将激活函数修改为有界函数，例如sigmoid或者tanh并不能解决这一问题，尤其是，其不能解决激活层/梯度消失问题。如下所示，对于tanh，当x在0附近时，其输出仍在0附近，这会导致隐藏层消失；但于两个函数，当输入在-5和5附近时，其梯度很小，这会导致梯度消失。

LSTMs

LSTM一定程度上减轻了RNN中存在的梯度消失和爆炸问题。LSTM在原版RNN的基础上对隐藏层进行了一定改进。如下图所示，LSTM将原始hidden state分裂为两个组件hidden state和cell state。

其次，LSTM中具体定义了hidden state和cell state的具体更新公式。LSTM中定义了一些中间变量用于更简洁地描述这一公式，中间变量有forget gate、input gate、output gate，还有一个候选状态g_t。这些中间变量和状态的更新公式如下所示：

$$ \begin{align*} &\begin{bmatrix}i_t\\f_t\\g_t\\o_t\end{bmatrix}=\begin{pmatrix}\text{sigmoid}\\\text{sigmoid}\\\text{tanh}\\\text{sigmoid}\end{pmatrix}(W_{hh}h_{t-1}+\text{W}_{hx}x_t+b_h) \\ &c_t=c_{t-1}\circ f_t+i_t\circ g_t \\ &h_t=\tanh(c_t)\circ o_t\\ &i_t,f_t,g_t,o_t,c_t,h_t \in \mathbb{R}^d\\ &W_{hh},W_{hx}\in \mathbb{R}^{4d\times d} \end{align*} $$

$W_{hh},W_{hx}\in \mathbb{R}^{4d\times d}$意味着，计算中间变量的权重彼此都是独立的。

？？？？！！！这公式怎么来的，为啥子这个公式管用？有很多工作试图对此进行解释，但大多是一家之言。Zico Kolter教授对此的解释是：$g_t$在经过sigmoid以后是一个0-1变量，用于决定是否要保留前一状态对应位置的cell state信息，$i_t$同样是个0-1变量，而$g_t$是个有界项，这一组合决定了是否要在cell state的位置上添加一些额外的信息；$h_t$的更新公式则是一个有界变量，其作用是防止梯度爆炸或者消失。

Beyond “simple” sequential models

除了对序列数据进行建模，RNN能做的还有很多。例如，翻译句子，有一种sequence to sequence架构采用了两个RNN模型，一个用于输入原始句子，提取中间状态，另一个用于根据最后一个中间状态，输出翻译后的句子。

这意味着，RNN可以作为一个encoder对语义信息进行提取和编码，也可以作为decoder对语义信息进行解码。

RNN有一种变体是双向RNN，其作用是$x_i$时刻的输出与前后都相关，在一些任务，例如完形填空中可以有较好的表现。

Lecture 19: LSTM Implementation

LSTM cell

本节课，我们将在NumPy实现LSTM。首先来实现LSTM cell，一个cell是hidden state和cell state的集合，其状态更新公式为：

$$ \begin{align*} \\ i_t &= \sigma(W_{ii} x_t + b_{ii} + W_{hi} h_{t-1} + b_{hi}) \\ f_t &= \sigma(W_{if} x_t + b_{if} + W_{hf} h_{t-1} + b_{hf}) \\ g_t &= \tanh(W_{ig} x_t + b_{ig} + W_{hg} h_{t-1} + b_{hg}) \\ o_t &= \sigma(W_{io} x_t + b_{io} + W_{ho} h_{t-1} + b_{ho}) \\ c_t &= f_t \odot c_{t-1} + i_t \odot g_t \\ h_t &= o_t \odot \tanh(c_t) \\ \end{align*} $$

上述公式在上节课中，可以记为矩阵的形式，即：

在PyTorch中，已经有LSTM的具体实现，当我们实例化一个$20\times100$的cell，即输入向量长度为20，中间状态特征长度为100，那$W_{hh}$和$W_{hx}$的形状就是$400\times 100$和$400\times 20$。

根据上述更新公式，可以得到计算一个LSTM cell 的方法：

1
2
3
4
5
6
7
8
9


def sigmoid(x):
    return 1/(1+np.exp(-x))

def lstm_cell(x, h, c, W_hh, W_ih, b):
    i,f,g,o = np.split(W_ih@x + W_hh@h + b, 4)
    i,f,g,o = sigmoid(i), sigmoid(f), np.tanh(g), sigmoid(o)
    c_out = f*c + i*g, 
    h_out = o * np.tanh(c_out)
    return h_out, c_out

Full sequence LSTM

基于PyTorch的传统，在实现LSTM时，返回所有的hidden state以及最后一个cell state。前面没有提到，LSTM中各个cell的参数的权重是共享的。那LSTM实际上就是根据序列的长度重复执行lstm_cell即可：

1
2
3
4
5
6


def lstm(X, h, c, W_hh, W_ih, b):
    H = np.zeros((X.shape[0], h.shape[0]))
    for t in range(X.shape[0]):
        h, c = lstm_cell(X[t], h, c, W_hh, W_ih, b)
        H[t,:] = h
    return H, c

Batching efficiently

接下来我们考虑如何实现batch LSTM，一种符合习惯的做法是将batch作为第一个维度将输入X堆叠起来，即X[NUM_BATCHES][NUM_TIMESTEPS][INPUT_SIZE]，这种格式被称为NTC格式。如果采用改格式，那么在经过lstm时，第i个cell访问的元素为X[:,i,:]，注意，这些元素在内存中不是紧密排列的，cache命中率较低。

如果将时间维度放在第一个，即采用TNC格式，则能够解决该问题。

其余代码几乎不需要改动，矩阵乘法时要注意将三维的X放到@运算符前面：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13


def lstm_cell(x, h, c, W_hh, W_ih, b):
    i,f,g,o = np.split(x@W_ih + h@W_hh + b[None,:], 4, axis=1)
    i,f,g,o = sigmoid(i), sigmoid(f), np.tanh(g), sigmoid(o)
    c_out = f*c + i*g
    h_out = o * np.tanh(c_out)
    return h_out, c_out

def lstm(X, h, c, W_hh, W_ih, b):
    H = np.zeros((X.shape[0], X.shape[1], h.shape[1]))
    for t in range(X.shape[0]):
        h, c = lstm_cell(X[t], h, c, W_hh, W_ih, b)
        H[t,:,:] = h
    return H, c

Training LSTMs

训练一个单层LSTM很简单，不赘述，直接看代码：

1
2
3
4
5


def train_lstm(X, Y, h0, c0, parameters)
    H, cn = lstm(X, h0, c0, parameters)
    l = loss(H, Y)
    l.backward()
    opt.step()

训练一个多层LSTM也不难，可以选择先在深度或者时间维度上正向传播，再在另一个维度上正向传播。示例代码采用先时间再深度的形式：

1
2
3
4
5
6
7


def train_lstm(X, Y, h0, c0, parameters)
    H = X
    for i in range(depth):
        H, cn = lstm(H, h0[i], c0[i], parameters[i])
    l = loss(H, Y)
    l.backward()
    opt.step()

接下来重头戏来了。如果我们的序列长度很长，那么进行一次正向传播需要保存的中间变量就很多很多，显存可能不够，怎么解决这个问题？

我们可以把这个序列按照某个固定长度进行截断，首先计算第一段中的loss，并进行反向传播，然后对后一段继续进行正向传播，同时将第一段的最后一个cell state作为第二段的初始state传入，然后反向传播…

一直等到整个序列处理完毕，再更新参数。理解这个过程后，不难发现，阶段版本和完整版本是完全等价的，这也是为什么lstm需要返回最后一个cell state。上述过程可描述为：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10


def train_lstm(X, Y, h0, c0, parameters)
    H, cn = lstm(X, h0, c0, parameters)
    l = loss(H, Y)
    l.backward()
    opt.step()
    return H[-1].data, cn.data

h0, c0 = zeros()
for i in range(0,X.shape[0],BLOCK_SIZE):
    h0, c0 = train_lstm(X[i:i+BLOCK_SIZE], Y[i:i+BLOCK_SIZE], h0, c0, parameters)

Lecture 20: Transformers and Attention

两种为时间序列建模的方法 The two approaches to time series modeling

RNN在对时间序列建模时采用了一种被称为潜在状态latent state的方式，具体来说，其使用t时刻的hidden state来描述t及t时刻往前的所有信息。这种方法的优点是其理论上可以聚合无限长时刻的信息，缺点是其难以有效记住较远时刻的信息，并且存在梯度爆炸和消失问题。

而另一种建模方式被称为直接预测 direct prediction，具体来说，直接使用t和t时刻之前的sequence来预测t时刻的输出。这种方式的优点时，对于大部分输出，其计算路径要短的，缺点是没有明确的状态表示，在实践中往往序列长度有限。Transformer就属于这种直接预测方式对时间序列进行建模。

【此处跳过对CNN用于时间序列建模及其优缺点的介绍】

自注意力机制和Transformer Self-attention and transformers

Attention机制本质上指的是任何对状态进行加权求和的机制，这个权重显然不应该由我们自己决定，而是可学习的参数，再经过一层softmax后得到的权重。

而自注意力机制，顾名思义，就是由状态自己来决定权重，然后对状态按权重求和的机制。

在自注意力中，KQV是三个shape相同的矩阵，即$K,Q,V\in \mathbb{R}^{T\times d}$ ，KQV都是由输入$X$乘上不同的权重得到的$W_K W_Q W_V$得到，self-attention算子的定义为：

$$ \text{SelfAttention}(K,Q,V) = \text{softmax}(\frac{KQ^T}{\sqrt{d}})V $$

其中，softmax操作是对每一行进行的。

接下来我们尝试理解这个式子在做什么。首先我们要明确，KQV的每一行都是由X对应行加权求和得到的，也就是说，KQV每一行并没有其它行的时序信息（X的每一行表示一个时间的输入）。$KQ^T$是一个T×T的矩阵，其第i行第j个元素是由K的第i行和j的第i列作内积得到，在这里，时序信息进行了交换。对于$KQ^T$的第i行，其每个元素的值大小在一定程度上反应了Q中每一列与之的相似度，然后对这一行进行了softmax操作，得到权重。接下来将这个权重矩阵乘上V，得到自注意力的值。最后得到的结果矩阵中，每一行结果都是根据权重矩阵对V进行加权求和得到的，也正是在这里，发生了时序信息的混合。

自注意力有如下几个特点

对KQV的排列具有不变性（实际上是等价性）。也就是说，如果按行重排KQV，自注意力的结果不会因此改变，只会因此发生对应的重排。
自注意力机制会在所有的时间步上起作用，也就是自注意力可以混合时序信息。
计算开销为$O(T^2d)$。

一个Transformer Block结构如下图所示：

这个流程用公式表示为：

$$ \begin{align*} \tilde{Z} &:= \text{SelfAttention}\big(Z^{(i)}W_K,Z^{(i)}W_Q,Z^{(i)}W_V\big) \\ &= \mathrm{softmax}\left(\frac{Z^{(i)}W_KW_V^T(Z^{(i)})^T}{d^{1/2}}\right)Z^{(i)}W_V \\ \tilde{Z} &:= \text{LayerNorm}\bigg(Z^{(i)} \boldsymbol{+}\tilde{Z}\bigg) \\ Z^{(i+1)} &:= \text{LayerNorm}(\mathrm{ReLU}(\tilde{Z}W)+\tilde{Z}) \end{align*} $$

Transformer的优点是：

可以在一个block中混合所有时间步的时序信息；
随着时间步的增加，Transformer不需要额外引入新的参数。

其缺点是：

每个输出都依赖于所有时间步的输入；
输入没有时序，也就是说可以将时序打乱再输入给Transformer，结果还是一样的。

接下来介绍两种技术针对缺点进行改进。

首先是掩码自注意力，即masked self-attention。之前提到，在自注意力的计算公式中，softmax后的$KQ^T$是一个密集矩阵，每一行都是表示一个权重，会将所有时刻的状态加权求和。而掩码自注意力的做法是，将让$KQ^T$的上三角部分减去无穷大，这样权重矩阵的上三角部分为0，即只对t之前的时刻加权求和，以防止获取未来信息。

为了解决输入时序的问题，引入了位置编码position encoding技术，给输入加上一个用于表示时间信息的矩阵，如下所示：

$$ X\in\mathbb{R}^n= \begin{bmatrix}-&x_1^\top&-\\-&x_2^\top&-\\&\vdots&\\-&x_T^\top&-\end{bmatrix}+\begin{bmatrix}\sin(\omega_1\cdot1)&\cdots&\sin(\omega_n\cdot1)\\\sin(\omega_1\cdot2)&\cdots&\sin(\omega_n\cdot2)\\\vdots&\ddots&\vdots\\\sin(\omega_1\cdot T)&\cdots&\sin(\omega_n\cdot T)\end{bmatrix} $$

通常，其中的$w_i$根据对数函数的变化趋势来选择。

Lecture 21: Transformer Implementation

本节课中，我们将使用NumPy来实现Transformer。

自注意力机制 Self-attention

自注意力的公式为：

$$ Y = \left(\mathrm{softmax}\left(\frac{X W_K W_Q^T X^T}{\sqrt{d}}\right)X W_V \right) W_o $$

与上一讲有些许不同之处在于在输出前进行了一次额外的线性变换。

注意到公式中我们需要将X与三个W分别相乘以得到KQV，可以将这三次矩阵运算变为一个运算，即将三个矩阵concat在一起，然后与X相乘，一下子得到concat在一起的KQV。一个自注意力模块为：

1
2
3
4


def self_attention(X, mask, W_KQV, W_out):
    K,Q,V = np.split(X@W_KQV, 3, axis=-1)
    attn = softmax(K@Q.swapaxes(-1,-2) / np.sqrt(X.shape[-1]) + mask)
    return attn@V@W_out, attn

Minibatching with batch matrix multiply

自注意力不是按照时间循序进行前向传播的，因此X仍按照正常BTD的顺序在内存中组织。当我们实现批量self-attention时，就涉及到了批量矩阵乘法的概念。

具体来说，公式中$K@Q^T$这一步的矩阵乘法，K和Q的shape都是B×T×T，这就涉及到了批量矩阵乘法。对我们都自注意力来说，想要的应该是K[i,:,:]与Q.T[i,:,:]相乘，碰巧，批量矩阵乘法正是这么定义的，也就是说，批量矩阵乘法要求两个矩阵之间除了倒数两个维度符合矩阵乘法要求，剩余其它维度要么不存在或为1进行广播，要么就是要相等的。

Multihead attention 多头注意力

多头自注意力的动机来自于$K@Q^T$这一步，结果每个元素都是长度为d的两个向量内积得到的。为了降低计算成本，提出了一种多头注意力机制。即，将KQV的每一行分为h个部分，进行注意力操作，然后再拼接起来。这样，$K@Q^T$每个值都是长度为d/h向量进行内积得到的。

1
2
3
4
5
6
7


def multihead_attention(X, mask, heads, W_KQV, W_out):
    N,T,d = X.shape
    K,Q,V = np.split(X@W_KQV, 3, axis=-1)
    K,Q,V = [a.reshape(N,T,heads,d//heads).swapaxes(1,2) for a in (K,Q,V)]
    
    attn = softmax(K@Q.swapaxes(-1,-2) / np.sqrt(d//heads) + mask)
    return (attn@V).swapaxes(1,2).reshape(N,T,d) @ W_out, attn

Transformer block

一个Transformer Block结构如下图所示：

应用已经实现的各个组件，我们可以轻松地写出一个支持多头自注意力的Transformer块：

1
2
3
4
5
6
7
8
9


def layer_norm(Z, eps):
    return (Z - Z.mean(axis=-1, keepdims=True)) / np.sqrt(Z.var(axis=-1, keepdims=True) + eps)
    
def relu(Z):
    return np.maximum(Z,0)

def transformer(X, mask, heads, W_KQV, W_out, W_ff1, W_ff2, eps):
    Z = layer_norm(multihead_attention(X, mask, heads, W_KQV, W_out)[0] + X, eps)
    return layer_norm(Z + relu(Z@W_ff1)@W_ff2, eps)

Lecture 23 Moel Deployment

模型部署概览 Model deployment overview

在特定的设备上部署训练好的模型是一件比较麻烦的事情，其受设备的影响很大。现在有一些用于部署推理的框架，例如NVIDIA设备上的TensorRT，在嵌入式设备上有ARMComputeLib和TFLite，苹果有CoreML。

上述框架都需要一种推理模型格式的输入，这个输入能够描述模型的计算流程，这种格式目前有ONNX、CoreML和TFLite。模型通过Python编写，其好处是提高了编码效率，带来的缺点就是可能某些模型没办法完美转换为上述通用格式。

许多推理框架都是以计算图解释器的形式组织的，其通过预分配和重用内存、算子融合、精度量化等优化手段，实现更高效的推理。但同样，其也有很多限制，例如他们支持的算子类别是有限的。

机器学习编译 Machine learning compilation

机器学习编译试图打破需要为每种设备定制推理库的现状，其目标是将输入的深度学习模型转换为可以直接在终端上运行的代码。

一个ML程序可以被称为一个模块，这个模块由多个函数构成，函数之间互相调用。下图这种格式被称为中间状态表示IR，下图这一模块被称为IR模块。

ML编译的流程大致有：

从深度学习框架中导入模型；
对IR模块进行变换，算子融合
将中间状态翻译为更低级的循环代码
进行更低级的变换，进行算子融合
进行代码生成本讲后续内容和下一讲均为介绍MLC，计划后面继续学习MLC，这里就不浅尝辄止了。

全文完。

参考文档

科目一考试知识点

Mon, 29 Apr 2024 16:00:00 +0800

考证相关常识

小型客车：18 周岁 +，可初次申领
大型货车：20 周岁 +，可初次申领
中型客车、大型货车：20 周岁 +，货车可初次申领，客车要增驾
大型客车、重型牵引挂车：22 周岁 +，只可增驾

增驾

大型货车增驾重型牵引挂车和中型客车，两年且两年内无 12 分扣满

驾驶证相关常识

到期前90日内，向驾驶证核发地或以外车管所申请换证，否则会被注销。
驾驶人记分未达到满分，有罚款尚未缴纳的，记分转入下一记分周期。
实习期记满 12 分，注销准驾车型资格。
实习期上高速，应当有3 年以上驾驶人陪同。
一次有两个以上违法行为记分的，应分别计算累加分值
小型汽车驾驶人发生交通事故造成人员死亡，承担同等以上责任未被吊销驾驶证的，记分周期结束 30 天内要审验。
一个周期累计记满 36 分或者三次记满 12 分，要重新参加科目二和科目三

禁止考证

考试过程作弊（未取得），二千元以下罚款，一年内不得再考
作弊取得了驾驶证，三年内不得再考
无证驾驶造成重伤或者死亡，十年不得考证

车辆代号

A1：大型客车
A2：牵引车
A3：城市公交车
B1：中型客车
B2：大型货车
C1：小型汽车
C2：自动挡汽车
C3：低速载货汽车
C4：三轮汽车

满分学习

现场 + 网络不少于五天
现场不少于两天
每日不少于三小时
一个积分周期内两次记满 12 分，理论考试合格后重新参加道路考试
30日内拒绝参加，公告其驾驶证停止使用

知识教育

机动车驾驶人发生人身伤亡交通事故负有同等以上责任，参加为期两天的学习

记分扣免

现场学习一小时切考试合格，减 2 分
弄虚作假罚款 1000 以下

赔偿责任

行人故意碰撞机动车，机动车无需担责。

罚款扣分相关

扣分

一分
- 不按规定使用灯光
- 没带驾驶证
- 不按规定会车
- 违反禁令标志、禁止标线
- 驾驶未按规定定期进行安全技术检验的非特殊车辆
- 没系安全带
- 非高速掉头、倒车
- 载货汽车超重 30% 以下
三分
- 不避让校车
- 高速公路上行驶低于规定最低时速的记 3 分
- 不按规定超车、让行
- 在非高速逆行
- 校车、客运汽车超载 20% 以下
- 不按规定安装车牌
- 发生故障不按规定使用灯光和警告标志
- 高速上不按规定车道行驶
- 普通车超载20-50%
六分
- 造成致人轻微伤或者财产损失的交通事故后逃逸
- 普通车辆高速超速 20%~50%
- 运载爆炸物品未标识、未按照指定路线行驶
- 普通汽车超载 50%-100%
- 驾驶证被扣期间驾车
- 普通汽车在普通道路超速 50%
- 载货汽车超重 50% 以上
九分
- 未悬挂机动车号牌或者故意遮挡、污损机动车号牌
- 驾驶与准驾车型不符的汽车
- 七座以上汽车超载50%-100%
十二分
- 造成致人轻伤以上或者死亡的交通事故后逃逸
- 普通车高速超速 50%
- 普通车超载100%以上
- 校车超载20%以上
- 中型以上客车高速超速20%

罚款

考试过程作弊（未取得），二千元以下罚款，一年内不得再考。
逾期不参加审验仍然驾驶机动车，罚 200-500。
超过驾驶证有效期驾驶，200-1000原罚款
酒后构成重大事故犯罪，吊销驾驶证，终生不得再申请
不按规定停放150
与准驾车型不符200-1000
记分满12分仍驾驶200-1000

刑事责任

重伤、死亡：三年以下
死亡且逃逸：三年以上，七年以下
因逃逸而死亡：七年以上
追逐竞驶：拘役和罚金

车辆速度与距离

车辆速度

公路无中心线 40，有中心线 70，双车道为90
城市无中心线 30，有中心线 50，双车道为60
单位院内20
限速 30：通过铁路口、急弯路、掉头、下坡、能见度 50 米、冰雪泥泞、牵引其他车辆
两道高速：左侧 100-120，右侧 60-120
三道高速：左侧 110-120，中间 90-120，右侧 60-120
能见度小于200m：50速度，100距离
能见度小于100米：40速度，50距离
能见度小于50米：20速度，驶出高速路

车辆距离

高速路车速大于等于 100，安全距离 100m+
高速路车速小于 100，安全距离 50m+

停车距离

50米：交叉路口、铁路口、急弯路、窄路、隧道、陡坡、桥梁
30米：公交站、急救站、加油站、消防栓

灯光使用

夜晚会车150m外将远光灯改为近光灯

其他

收到事故认定书10日内提出书面调解申请
现场未报警，事后要求处理，应当在10日内提供证据
自适应巡航：Adaptive Cruise Control，ACC

Effective Cpp 第三版学习笔记

Wed, 17 Apr 2024 18:23:00 +0800

前言

本文是我在学习 Scott Meyers 的著作《Effective C++》第三版的笔记，鉴于豆瓣对于本书中文翻译褒贬不一，我直接看的英文原著。PDF 链接：Books-3/Effective C++ 3rd ed.pdf at master · GunterMueller/Books-3 · GitHub

For Nancy, without whom nothing would be much worth doing.
Wisdom and beauty form a very rare combination.

作者在扉页留下了这句话，打破了我内心对程序员的一点点小刻板印象，我本以为这类话只会在文青写的书里出现呢。

正文

Introduction

lhs & rhs

Two of my favorite parameter names, for example, are lhs and rhs. They stand for “left-hand side” and “right- hand side,” respectively.

lhs 和 rhs 是作者常用的二元运算符的形参命名，分别表示运算符左边和右边的参数。

Accustoming yourself to C++

Item 1: View C++ as a federation of languages.

✦ Rules for effective C++ programming vary, depending on the part of C++ you are using.

C++ 诞生于 C，但很快成长为一门“联合”的语言。它支持多种编程范式，包括面向过程、面向对象、泛型、函数式和元编程。

GPT 对以上几种编程范式的介绍：

面向过程编程 (Procedural Programming)
面向过程编程是一种编程范式，它侧重于编写一系列计算步骤或过程的方法。这种范式通过函数或过程来操作数据，强调的是程序的动作而非数据的表现形式。这种方式适合于简单的任务，能够让程序员更直接地控制程序流和状态。

优点：简单直接，容易理解和实现。
缺点：随着程序规模的扩大，维护和扩展变得困难，难以管理大量的数据和函数。

面向对象编程 (Object-Oriented Programming, OOP)
面向对象编程是基于“对象”的概念，其中对象是数据和操作这些数据的函数（称为方法）的集合。OOP 强调将现实世界的实体模型化为程序中的对象，每个对象都有其属性和行为。

优点：提高了代码的复用性、封装性和可维护性。
缺点：可能会导致程序结构和实现过于复杂，性能上有时也不如面向过程编程。

泛型编程 (Generic Programming)
泛型编程是一种编程风格，通过抽象和重用来增强代码的灵活性和可重用性。它允许程序员编写与数据类型无关的代码。在泛型编程中，数据类型作为参数传递给算法或数据结构。

优点：代码复用性高，类型安全。
缺点：可能增加编程的复杂性，理解和设计泛型结构需要更深的抽象思维。

函数式编程 (Functional Programming, FP)
函数式编程是一种把计算视为数学函数的求值，并避免使用程序状态及可变数据的编程范式。FP 强调无副作用的函数，支持高阶函数和函数组合，以及懒计算等特性。

优点：代码更简洁，更容易推理，便于并行计算。
缺点：与传统的命令式编程思维差异大，学习曲线较陡峭。

元编程 (Metaprogramming)
元编程是一种编程技术，允许程序在运行时或编译时改变其自身结构。这通常涉及到代码生成代码的情况。

优点：极大的灵活性和动态性。
缺点：可能导致代码难以理解、维护和调试。

模板元编程 (Template Metaprogramming)
模板元编程是一种在编译时执行计算的技术，常见于 C++ 的模板机制中。它通过模板实例化时的类型推导来执行算法，从而在编译时生成高度优化的代码。

优点：生成高度优化的代码，无运行时开销。

可以认为 C++ 由四门语言构成，每一门子语言本身都很简单：

C。C++ 兼容 C 的语法，因此使用 C 语言完成的大多数任务都可以用 C++ 来完成，但得益于另外三个 C 不具备的子语言，C++ 可以完成得更得心应手。
Object-Oriented C++。这指的就是我们熟悉的“C with class”，即在 C++ 中引入的面向对象模块。
Template C++。这指的是 C++ 中泛型编程的部分，这还催生了一种全新的编程范式：模板元编程。
STL。STL 对于容器、迭代器、算法和函数对象的实现有其自洽的一套逻辑，如果我们要使用 STL 的内容，那也要遵循这套逻辑。

不同子语言之间可能有不同的行为准则，例如 C 的内建类型按值传递相比引用传递更高效，但对于对象而言恰恰相反；又例如 STL 的迭代器行为类似于 C 中的指针，这种情况下又要使用值传递。

Item 2: Prefer consts, enums, and inlines to defines.

✦ For simple constants, prefer const objects or enums to #defines.

✦ For function-like macros, prefer inline functions to #defines.

这一条可以简写为：尽量让编译器去处理而非在预处理阶段替换。

一个理由是，对于编译器而言，其可能无法得知在预处理阶段被替换的常量符号，因而这些符号不会出现在符号表中。如果这些常量导致了出错或者警告，在错误信息中提示的就是常量的值而非代码中给定的常量名，这降低了错误信息的可读性。

第二个理由是，const 关键字定义的常量可以控制作用域，而 #define 关键字则不可以。

关于把 #define 替换为常量，有几点需要注意：

如果需要定义一个指向常量的指针，大部分情况这个这个指针本身也是不可更改指向的，即指向常量的常量指针，需要两个 const 关键字，即：const char* const name = "Name"。
对于类成员是常量的情况，还要声明为静态变量以防止在内存中存在多个常量拷贝，即：

1
2
3
4
5
6


class GamePlayer{
private:
	static const  int NumTurns = 5;
	int scores[NumTurns]; 
	...
};

部分很老的编译器可能不允许在类声明中定义静态变量的值，更加通用的做法是在类实现的文件中给出静态成员的值。但有例外：即编译器在编译这个类时就需要知道其静态变量的值，例如上述代码中，编译器需要知道 scores 数组的长度，因此要么在声明时就给出静态变量的值，要么使用曲线救国的方案：

1
2
3
4
5
6


class GamePlayer{ 
	private: 
		enum { NumTurns = 5 };
		int scores[NumTurns];
		...
};

上述方案被称为“the enum hack”，了解它的价值在于：

the enum hack 相比 const 更像传统的 #define，其不能取地址。
出于实践的考虑：确实有很多代码使用了这个技巧

另一个“尽量让编译器去处理而非在预处理阶段替换”的理由是：人们使用宏在不需要函数调用开销的情况下实现类似函数的功能，然而这种宏函数无法执行类型检查并且每个变量都要用括号扩起来。C++ 提供了 inline 关键字用于实现类似的效果，inline 函数会在原地展开，免去了函数调用的开销；同时，其又支持像常规函数一样的语法和类型检查。

Item 3: Use const whenever possible.

✦ Declaring something const helps compilers detect usage errors. const can be applied to objects at any scope, to function parameters and return types, and to member functions as a whole.

✦ Compilers enforce bitwise constness, but you should program using logical constness.

✦ When const and non-const member functions have essentially identi- cal implementations, code duplication can be avoided by having the non-const version call the const version.

尽可能使用 const 关键字，它可以让编译器帮助防止变量被调用者或者其他代码修改。

当 const 关键字和指针相遇，有多种情况：

1
2
3
4
5


char greeting[] = "Hello";
char *p = greeting; // non-const pointer, non-const data
const char *p = greeting; // non-const pointer, const data
char * const p = greeting; // const pointer, non-const data
const char * const p = greeting; // const pointer, const data

上述规则可以总结为：如果 const 出现在 * 的左边，那么指向的数据本身是不可变的；如果 const 出现在 * 的右边，那么指针是不可变的。

对于 const 在 * 的左边的情况，其相对类型的位置又有两种情况，二者是完全等价的，即：

1
2
3


const int a;
int const b;
// a和b均表示一个不可修改的int

STL 中的迭代器如果被声明为 const，那么说明这个迭代器本身是不可修改的，而非这个迭代器指向了不可修改的数据。如果需要一个指向不可修改数据的迭代器，需要使用 const_iterator 类型。

在函数声明中，const 关键字可以用来修饰返回值类型、参数类型和整个函数（仅限成员函数）。

通常而言，没有理由将返回值声明为 const，但有的时候这么做也可能减少调用者的错误。例如，假设实现了一个实数类 Rational 并重载了其 operator * 以实现乘法，如果不将返回值声明为 const，那么下列代码就是符合语法但无意义的：

1
2
3


Rational a, b, c;
(a*b) = c; // 将c的值赋给临时变量(a*b)
if(a*b = c); // 漏打了一个等号

将一个成员函数声明为 const 有助于提高编码效率，一方面它可以帮助调用者区分哪些方法会修改对象哪些不会，另一方面，在使用 const 引用传参的情况下，只能调用该对象的 const 方法。此外，除了声明为 const 之外其他签名均相同的两个成员函数在 C++ 中也被视为重载。

对于 const 有两种哲学理念：

bitwise constness：const 成员函数不得修改对象内的任何数据，这是一种比较严格其方便编译器实现的理念，也是 C++ 所采用的。
logic constness: const 成员函数允许以客户无法感知的形式修改对象内的数据，例如私有变量。

logic constness 的存在也是合理的。例如，如果我们想实现一个 String 类及其 size() 方法，我们使用一个私有变量 length 缓存其长度，那么将 size() 声明为 const 显然是合理的（否则 const String 将无法获取长度），但在实现 size() 的过程中，第一次访问 size() 不可避免要修改 length 值，这违反了 bitwise constness 理念，但又是符合程序员直觉的一个需求。这种情况下，我们可以使用 mutable 来修饰变量，这样就可以在 const 成员函数中修改他们。

前面提到，const 可以用来重载成员函数，那我们可能会有如下两个重载函数的声明：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12


class Vector {
...
	const Element& operator [](size_t index) const{
	...// 越界检查、身份校验等
	return data[i];
	}
	
	Element& operator [](size_t index){
	...// 越界检查、身份校验等
	return data[i];
	}
}

不难发现，const 和非 const 版本的两个 [] 下边访问方法的实现完全相同，但为了让 const 对象可以获取可修改的数据引用和非 const 对象获取不可修改的引用，我们不得不重复两次。

为了减少这种无意义的重复，我们可以在非 const 方法中调用 const 方法，并使用 const_cast 关键字将其转换为非 const 对象。即：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12


class Vector {
...
	const Element& operator [](size_t index) const{
	...// 越界检查、身份校验等
	return data[i];
	}
	
	Element& operator [](size_t index){
	return const_cast<Element&>( // 将const element& 转换为 element&
		static_cast<const Vector&>(*this)[index]) // 将this转换为const对象，以调用const方法
	}
}

Item 4: Make sure that objects are initialized before they’re used.

✦ Manually initialize objects of built-in type, because C++ only some- times initializes them itself.

✦ In a constructor, prefer use of the member initialization list to as- signment inside the body of the constructor. List data members in the initialization list in the same order they’re declared in the class.

✦ Avoid initialization order problems across translation units by re- placing non-local static objects with local static objects.

在 C++ 中，当你定义一个变量时，有一套复杂的规则来决定编译器是否会为你进行默认初始化。然而，试图读取一个未被初始化的变量是一个未定义行为，可能导致程序崩溃或者复杂的 debug。最好的方案是每次在定义时就进行初始化。

对于非成员的内建变量类型，需要手动进行初始化：

1
2
3
4


int x=0;
const char* text = "Hello World!";
double d;
cin >> d;

除此以外几乎所有的情况，初始化的任务由构造函数完成。规则很简单：每一个成员变量都要在构造函数中被初始化。

注意区分构造函数中的初始化和赋值：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17


class PhoneNumber { ... };
class ABEntry { // ABEntry = “Address Book Entry” 
public: 
	ABEntry(const std::string& name, const std::string& address, const std::list<PhoneNumber>& phones); 
private:
	std::string theName; 
	std::string theAddress; 
	std::list<PhoneNumber> thePhones; 
	int numTimesConsulted; 
};
ABEntry::ABEntry(const std::string& name, const std::string& address, const std::list<PhoneNumber>& phones){ 
	theName = name;
	theAddress = address;
	thePhones = phones;
	numTimesConsulted = 0;
	// 以上都是赋值而非初始化
}

C++ 的类成员的初始化必须在构造函数主体前的初始化列表中完成。上述的赋值方法会先调用各个类的默认构造函数进行隐式初始化，然后再调用拷贝构造函数，使用初始化列表则可以直接调用拷贝构造函数进行初始化，省去了默认构造的时间。此外，内建类型的变量并不会进行默认初始化，必须在初始化列表或者构造函数主体中显式初始化。

类初始化的顺序为：基类先于派生类，类成员按照声明的顺序进行初始化。即便在初始化列表中指定了其它顺序，类内成员仍将按照声明的顺序进行初始化。

接下来讨论静态对象的初始化问题，静态对象包括：全局对象、命名空间中定义的对象、类/函数/文件内被声明为静态的对象。其中，函数内的静态对象被称为局部静态对象，其余被称为非局部静态对象。所有的静态对象在程序结束运行时销毁。

一个翻译单元指的是生成一个目标文件的源码，即单个源文件加上其包含的所有头文件。

接下来作者举了一个例子，可以抽象为：一个翻译单元 A 的非静态局部对象的初始化过程引用了来自另一个翻译单元 B 的非局部静态对象，但是编译器并不能保证当 A 初始化时 B 中的非局部静态变量已经初始化。为了解决这个问题，我们可以引入设计模式中的单例模式，在 B 中定义一个全局函数或者在类定义中定义一个成员函数，用于初始化一个局部静态对象并返回其引用。

但是，上述解决方案并不适用于多线程环境：同个线程可能同时初始化一个局部静态对象。可以通过在线程启动前手动调用每个返回局部静态对象的函数以完成初始化。

Constructors, Destructors, and Assignment Operators

Item 5: Know what functions C++ silently writes and calls.

✦ Compilers may implicitly generate a class’s default constructor, copy constructor, copy assignment operator, and destructor.

默认情况下，编译器在必要时会生成 public 且 inline 的默认构造函数、析构函数、拷贝构造函数和拷贝赋值函数。编译器为一个类生成的所有函数都是非虚函数，唯一的例外是一个派生类的基类有一个虚析构函数，那么编译器会为其生成一个虚析构函数。否则，将无法通过基类指针/引用销毁派生对象。

生成拷贝构造函数时，编译器会拷贝所有非静态成员。拷贝赋值函数原理与之类似，但是并非所有对象都可以被拷贝，例如私有对象、const 对象或者引用对象，这种情况下编译器就会拒绝生成拷贝构造函数。

Item 6: Explicitly disallow the use of compiler- generated functions you do not want.

✦ Compilers may implicitly generate a class’s default constructor, copy constructor, copy assignment operator, and destructor.

有些类可能不允许有两个相同的对象，但语法/编译器并没有提供禁用生成拷贝构造和拷贝赋值的关键字。一种可能得实现是，将二者声明为私有的，这可以防止用户调用拷贝构造和赋值；此外，不要实现这两个私有函数，这可以防止友元函数和类成员函数调用。

调用声明但没有定义的函数会在链接期出错，一种将其提前到编译器的办法是，定义一个描述不可拷贝的类 Uncopyable，其它类派生于它：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12


class Uncopyable { 
protected: // allow construction and destruction of derived objects... 
	Uncopyable() {}
	~Uncopyable() {}
private: // ...but prevent copying 
	Uncopyable(const Uncopyable&); 
	Uncopyable& operator=(const Uncopyable&); 
};

class UncopyableThing: private Uncopyable{
...
};

UncopyableThing 中并没有 Uncopyable 对象，但上述方法可以其作用是因为：当编译器尝试生成拷贝函数时，其会调用基类拷贝函数（无论有无该对象）。

Item 7: Declare destructors virtual in polymorphic base classes.

✦ Polymorphic base classes should declare virtual destructors. If a class has any virtual functions, it should have a virtual destructor.

✦ Classes not designed to be base classes or not designed to be used polymorphically should not declare virtual destructors.

如果我们使用基类指针释放派生对象，并且基类没有虚析构函数，那么会造成 partially destroyed 问题，即派生对象的基类被释放，而其派生部分内存泄漏。

解决这个问题很简单，将基类析构函数声明为虚函数即可。含有虚方法的类大概率都是基类——这些方法都会在派生类中被重写，因此他们的析构函数必须为虚函数。

为不含虚方法的类声明虚析构函数不是个好主意。虚函数在实现时需要额外占用内存（虚函数表指针指向虚函数表），导致原本可以正好装入寄存器的增大一倍（指针长度通常等于机器字长），同时还失去了与 C 语言的兼容性。

值得注意的是，STL 中所有的容器的析构函数都是非虚的，因此不要把他们当做基类（C++11 中引入了 final 关键字）。

如果将析构函数声明为纯虚函数，则必须要在派生类中实现抽象基类的析构函数，这是由于当派生类析构调用结束后，会调用基类的析构函数。

Item 8: Prevent exceptions from leaving destructors.

✦ Destructors should never emit exceptions. If functions called in a destructor may throw, the destructor should catch any exceptions, then swallow them or terminate the program.

✦ If class clients need to be able to react to exceptions thrown during an operation, the class should provide a regular (i.e., non-destruc- tor) function that performs the operation.

在析构函数中不应该引发异常，否则就会导致当销毁一个类数组，轮流调用对象的析构函数时，引发多个 active exception，这是未定义的行为，会导致程序终止。

但很多时候析构函数执行的代码（释放资源等）就是会抛出异常，如果在析构过程中捕获异常，有两种方案：

使用 std::abort() 终止程序，并记录日志。这可以避免程序出现未定义行为。
继续运行，并记录日志。这可能导致程序异常，毕竟有操作执行失败了。

上述两种方案都无法让用户根据异常信息做出反应，可以显式提供一个资源释放的接口，让用户手动释放资源并根据异常做出反应，析构函数同样可以帮用户“擦屁股”释放资源，但如果有异常不能转发给用户，使用前文的两种处理办法之一。

Item 9: Never call virtual functions during construction or destruction.

✦ Don’t call virtual functions during construction or destruction, be- cause such calls will never go to a more derived class than that of the currently executing constructor or destructor.

不要在构造函数中调用析构函数。假设有个业务类 Transtraction 及其纯虚成员函数 Transtraction::log，在业务基类中调用这个日志函数，然后根据具体业务派生业务类。如果创建一个具体业务类，其会调用业务基类的日志函数，进而调用日志函数。但是，调用的日志函数并非具体业务中的日志，而是 Transtraction::log。这是由于，派生类的构造函数还没执行，其成员都还没进行初始化，因此如果虚函数被绑定在派生类上，那么其对于派生成员的调用都是未定义行为。

事实上，派生类在调用基类构造函数过程中，如果使用 runtime type 技术获取其类型，它不是派生类而是基类。

析构的过程也是如此，当进入基类的析构函数，这个对象类型就将被认为是基类而非派生类。

那怎么实现这个需求呢？将 log 声明为非虚函数，并要求传入 string 类型的日志信息，基类构造函数需要日志信息作为参数，并显式调用 log，派生类构造函数显式调用基类日志信息。这个日志信息可以使用派生类的静态私有函数生成，要求是静态函数是为了防止访问非静态成员（此时派生类成员还没有初始化）。

Item 10: Have assignment operators return a reference to *this.

✦ Have assignment operators return a reference to *this.

在重载赋值运算符时通过返回 *this，可以实现等号传递。这条比较简单，不赘述。

Item 11: Handle assignment to self in operator=.

✦ Make sure operator= is well-behaved when an object is assigned to itself. Techniques include comparing addresses of source and target objects, careful statement ordering, and copy-and-swap.

✦ Make sure that any function operating on more than one object be- haves correctly if two or more of the objects are the same.

自己赋值自己看似是个很蠢的想法，但它确实经常出现，例如：

1
2
3
4
5
6
7
8


vector<Widget> widgets;
...
for(int i=0; i<widgets.size(); i++){
	for(int j=0; j<widgets.size(); j++){
	...
	widgets[i] = widgets[j]
	}
}

当 i=j 时，就出现了自己赋值自己的情况。

自己赋值自己可能会出现很多意想不到的情况：如果类的赋值函数的逻辑是先释放资源，再复制资源，这种情况下就会出现复制已经被释放的资源的操作。

为了解决该问题，在赋值运算符实现前先判断两个资源地址是否相同即可：

1
2
3
4


Widget& Widget::operator=(const Widget& rhs){
	if(this == &rhs)    return *this;
	...
}

Item 12: Copy all parts of an object.

✦ Copying functions should be sure to copy all of an object’s data members and all of its base class parts.

✦ Don’t try to implement one of the copying functions in terms of the other. Instead, put common functionality in a third function that both call.

如果我们手动实现了一个类的拷贝函数，又处于某种原因添加了成员，记得及时更新拷贝函数和构造函数，编译器不会给出任何警告。

此外，对于派生类的拷贝函数必须显式调用基类的拷贝函数，否则会调用默认构造函数（对于拷贝构造）或者不拷贝基类成员（对于拷贝赋值）。

两个拷贝函数之间一方调用一方都是无意义的，一个用于初始化一个对象，一个用于拷贝一个对象。可以将重复的代码封装为一个成员函数再调用。

题外话，整本书作者都写得挺幽默的，也很喜欢把编译器拟人化。看下面这段，编译器就跟怨妇一样会抱怨你没听它的话：

When you declare your own copying functions, you are indicating to compilers that there is something about the default implementations you don’t like. Compilers seem to take offense at this, and they retaliate in a curious fashion: they don’t tell you when your implementations are almost certainly wrong.

That’s their revenge for your writing the copying functions yourself. You reject the copying functions they’d write, so they don’t tell you if your code is incomplete

Resource Management

Resource Management A resource is something that, once you’re done using it, you need to return to the system. If you don’t, bad things happen.

Item 13: Use objects to manage resources.

✦ To prevent resource leaks, use RAII objects that acquire resources in their constructors and release them in their destructors.

✦ Two commonly useful RAII classes are tr1::shared_ptr and auto_ptr. tr1::shared_ptr is usually the better choice, because its behavior when copied is intuitive. Copying an auto_ptr sets it to null.

假设我们有个类用于使用资源，其有一个工厂函数用于得到一个资源对象，该函数的调用者 f() 负责释放该对象。即：

1
2
3
4
5
6
7
8
9


class Investment { ... }; // 资源使用类

Investment* createInvestment(); // 工厂函数

void f() { 
	Investment *pInv = createInvestment(); 
	..
	delete pInv;
}

然而，世事并不遂人愿。f 在执行过程中，可能由于 return 语句、异常等导致控制流走不到指针释放的语句，导致对象内存泄漏和资源得不到释放。光凭借人力来手动维护是费时且易出错的。

因此，我们可以把资源交由一个对象来管理，当对象创建，资源随之申请，当对象析构，资源随之释放，即 RAII 模式。可以使用智能指针来管理该资源，即：

1
2
3
4


void f() {
	std::unique_ptr<Investment> pInv(createInvestment());
	...
}

上述代码阐明了使用对象管理资源的两个要点：

一旦资源成功获取，立即移交给管理者对象。
管理者对象通过析构函数来确保资源被正确释放。如果资源在释放过程中引发了异常，参考 > Item 8 Prevent exceptions from leaving destructors.

Item 14: Think carefully about copying behavior in resource-managing classes.

✦ Copying an RAII object entails copying the resource it manages, so the copying behavior of the resource determines the copying behav- ior of the RAII object.

✦ Common RAII class copying behaviors are disallowing copying and performing reference counting, but other behaviors are possible.

对于使用一个资源管理对象来拷贝/构造另一个资源管理对象，可以有如下几种行为：

禁止拷贝。
引用计数。例如 shared_ptr。单个资源被多个管理类管理，他们共享一个引用计数器。存在的问题是，shared_ptr 当引用计数为 0 时默认行为是调用资源的析构函数，但像 mutex 锁这类的资源，正确的行为是释放这个锁。好在 shared_ptr 提供了设置删除函数的接口，即在初始化时额外传入一个删除函数。
拷贝资源。有些资源是可拷贝的（例如内存），这种情况也能深拷贝这些资源。
移交所有权。

Item 15: Provide access to raw resources in resource-managing classes.

✦ APIs often require access to raw resources, so each RAII class should offer a way to get at the resource it manages.

✦ Access may be via explicit conversion or implicit conversion. In gen- eral, explicit conversion is safer, but implicit conversion is more con- venient for clients.

围绕一个资源，会有许许多多可以调用的 API，我们不可能在管理类中封装这些 API，因此管理类必须提供一个用于获取原始资源的显式或者隐式方法。

显式方法可以是提供一个接口用户获取被管理资源，或者重载 * 或者 -> 运算符，使得可以直接通过这两个运算符访问资源。

隐式方法是提供类型转换函数，使得资源管理对象可以隐式转换为资源对象，这使得程序员可以像使用资源一样直接把资源管理对象传入资源 API，但与此同时的隐式类型转换也带了一些隐藏疑难的问题。

有人可能会觉得直接访问资源破坏了资源管理类对资源的封装，这点我觉得作者解释得很好：并非所有类都是用来封装的，资源管理类是用来管理资源的获取和释放的。

AII classes don’t exist to encapsulate something; they exist to ensure that a particular action — resource release — takes place.

Item 16: Use the same form in corresponding uses of new and delete.

✦ If you use [] in a new expression, you must use [] in the correspond- ing delete expression. If you don’t use [] in a new expression, you mustn’t use [] in the corresponding delete expression.

new 做的事情：申请一片空间，调用构造函数。delete 做的事情：调用析构函数，释放一片空间。

对于创建一个对象数组，编译器会将数组长度记录在某个位置（许多保存在空间前的地址），在释放对象数组时，必须使用 delete [] 显式告知编译器要删除的是数组，否则是未定义行为（编译器大概率会将其视为单个对象）。

因此 new 和 delete、new [] 和 delete [] 要配套使用。

Item 17: Store newed objects in smart pointers in standalone statements.

✦ Store newed objects in smart pointers in standalone statements. Failure to do this can lead to subtle resource leaks when exceptions are thrown.

即便使用了智能指针，也可能由于意外导致内存泄漏：

1

processWidget(std::tr1::shared_ptr<Widget>(new Widget), priority());

编译器在对上述函数调用的参数求值的时候，标准并未规定其顺序，因此可能先 new Widget，并在 priority() 中引发异常，只能指针此时还没构造函数调用就异常结束了，进而导致内存泄漏。

解决这个问题的方案也很简单，使用单独的语句保存构造这个智能指针，然后再传入函数调用。

Designs and Declarations

这一章主要讨论如何设计和实现 C++ 接口。

Item 18: Make interfaces easy to use correctly and hard to use incorrectly.

✦ Good interfaces are easy to use correctly and hard to use incorrectly. You should strive for these characteristics in all your interfaces.

✦ Ways to facilitate correct use include consistency in interfaces and behavioral compatibility with built-in types.

✦ Ways to prevent errors include creating new types, restricting opera- tions on types, constraining object values, and eliminating client re- source management responsibilities.

✦ tr1::shared_ptr supports custom deleters. This prevents the cross - DLL problem, can be used to automatically unlock mutexes (see Item 14), etc.

一个理想的接口实现是：如果接口调用正常运行，说明一切都按照调用者预期进行，否则给出相应反馈。

例如，如果实现一个日期类，构造函数需要传入年月日，相比直接接收三个 int 参数，一种更好的方案是分别定义年月日的类，这样可以防止用户混淆了月和日。此外，还可以定义 12 个月常量，不要使用枚举定义，而是在月份的类里定义 12 个静态函数，返回这 12 个月的常量。使用静态函数而非静态常量是为了避免 > Item 4 Make sure that objects are initialized before they’re used. 提到的初始化非局部静态常量的问题。

为了防止用户犯错，另一个方案是严格约束一个类可以支持的操作，例如将 operator * 的返回值声明为 const，或者尽可能用 const 修饰函数。这样编译器就可以识别出如下的笔误：

1
2
3
4


if (obj1 + obj2 = obj3){ // 本意是obj1 + obj2 == obj3
						//但写成了将一个变量赋值给另一个临时变量
	...
}

我们定义的类最好与内建的类型表现出一致的行为，上面这条规则实际上是本条的特例。尽量与内建类型表现一致有助于减少用户的记忆量和犯错的几率。

接口不应该让用户一定要做什么收尾的事情（例如释放资源），因此工厂函数最好不要返回野指针，让用户自行封装，而是直接返回智能指针。该方案还能避免 cross dll 问题（申请和释放内容的代码不在同一个 dll），所有资源都是由申请者进行释放。

Item 19: Treat class design as type design.

✦ Class design is type design. Before defining a new type, be sure to consider all the issues discussed in this Item.

好的类型应该有自然的语法、符合直觉的语义和高效的实现。设计类时，要回答好这几个问题：

你的对象要怎么构造和销毁？这个问题决定了如何实现构造和析构函数，以及相关的内存申请和释放的函数。
对象的初始化和对象赋值有什么区别？这个问题回答了构造函数和拷贝运算符的区别，不要混淆二者。
如果你的对象按值传递，会发生什么？按值传递将调用拷贝构造函数，这一过程应该符合预期。
你的对象的有效取值有哪些？根据有效值，可以在构造、setter 方法、成员函数中检查是否为有效值。
你的类能否正确处理继承关系和被继承？作为派生类，你需要实现虚函数；作为基类，你需要声明虚函数。
你的类可以转换为什么类型？如果你的类可以隐式转为其它类型，你要么在那个类中声明一个接受你的类的非显式构造函数，或者在你的类中声明一个那个类的类型转换函数。如果你的类只能显式转换为其它类型，你就不能声明类型转换函数或者声明只有一个参数的非显式构造函数，你要么提供一个方法用于转换为其它类型，或者将其他类型的相对应的构造函数声明为 explicit。
哪些函数和运算符对你的类来说是有意义的？这个问题回答了你要实现哪些运算符和函数。
你应该禁用哪些编译器可能会生成的函数？如果你不想让编译器生成某些函数，应该显式将其声明为私有的。
你的成员访问权限应该是怎么样的？这决定了成员的访问权限，以及友元函数和友元类。
你的类有哪些“未声明的接口”？所谓未声明的接口，就是指出了表现出的接口之外，你的类还做出了哪些承诺和保证？例如性能、异常、资源使用等。
你的类泛化性能如何？如果你的类想要泛化出一系列类，那你应该定义模板类。
你真的需要一个类嘛？如果几个函数就能解决你的问题，那你实际上并不需要一个类。

Item 20: Prefer pass-by-reference-to-const to pass-by- value.

✦ Prefer pass-by-reference-to-const over pass-by-value. It’s typically more efficient and it avoids the slicing problem.

✦ The rule doesn’t apply to built-in types and STL iterator and func- tion object types. For them, pass-by-value is usually appropriate.

默认情况下，函数参数的传递方式为值传递，即实参通过拷贝构造作为形参传递给函数，当函数调用结束时，还需要调用形参的析构函数。这一过程需要浪费大量的时间。

使用 const 引用传递可以避免上述重复的操作，即：

1

int foo(const class_name& param);

const 关键字可以确保调用者传入的参数不被修改。引用则可以实现虚函数的动态绑定。

对于大部分编译器而言，引用传递是通过指针来实现的，因此，对于一些内建类型，使用值传递的性能可能要优于引用传递。同样，对于 STL 中的迭代器，按值传递的性能优于引用传递。

并不是说，一个类很小，所以它就适合按值传递。一个很小的类其拷贝构造函数也可能很耗时。例如，一个 vector 的指针，拷贝构造函数可能要执行深拷贝，它的运行代价是非常非常昂贵的。

即便拷贝构造函数执行得很快，也并不意味着它适合按值传递。一些编译器区别对待内建类型和用户定义的类，后者即便再小也不允许被保存在一个寄存器中，这就隐含了性能问题。

Item 21: Don’t try to return a reference when you must return an object.

✦ Never return a pointer or reference to a local stack object, a refer- ence to a heap-allocated object, or a pointer or reference to a local static object if there is a chance that more than one such object will be needed. (Item 4 provides an example of a design where returning a reference to a local static is reasonable, at least in single-threaded environments.)

引用传递可以提高传递效率，但这并不意味着所有的函数传递都应该使用引用传递。使用引用传递的前提是被传递的对象确实存在。假设实现了一个有理数类 Rational，如果将 operator * 的返回类型定义为引用传递，那么在调用 operator * 前这个对象肯定是不存在的，这就要让函数来创建这个对象。

函数有两种方式来创建一个对象：在栈上或者在堆上，前者会导致返回的引用对象会被销毁，后者会导致需要调用者手动销毁。即便用户记得销毁，如下代码仍然存在内存泄露：

1
2
3
4


Rational x, y, z, product;
product = x * y * z; // x*y返回的临时对象（在堆上）没有被释放
...
delete product;

接下来介绍一种奇淫巧技，通过静态变量来解决内存泄露问题：

1
2
3
4
5


const Rational& operator*(const Rational& lhs, const Rational& rhs){
	static Rational result;
	result = ...
	return result;
}

上面这段代码很“巧妙”地规避了内存泄露问题，但除了很常见的静态变量多线程不安全问题外，(a * b) == (c * d) 这个表达式结果是恒 true 的！！

Item 22: Declare data members private.

✦ Declare data members private. It gives clients syntactically uniform access to data, affords fine-grained access control, allows invariants to be enforced, and offers class authors implementation flexibility.

✦ protected is no more encapsulated than public.

为什么不把数据类型声明为 public/protected：

语法一致性：用户在调用接口/数据时，无需区分调用的是函数还是直接获取了成员变量。
读写权限设置：通过函数获取/写入成员变量时，可以控制每个成员变量的读写权限。
封装：通过对 getter 进行封装，如果需要修改 getter 的实现，用户代码也不需要更改。
便于维护数据：可以防止客户程序直接修改数据变量，破坏结构。
保留了修改的余地：如果后期需要重构这个类，只要保证仍提供相关接口即可，而不需要确保数据成员一定要存在。

Item 23: Prefer non-member non-friend functions to member functions.

✦ Prefer non-member non-friend functions to member functions. Do- ing so increases encapsulation, packaging flexibility, and functional extensibility.

先聊聊封装。一个类封装程度越高，意味着其对外暴露的内容越少，同时意味着我们修改一个类的灵活性也就越高（因为只需要维护对外暴露的内容）。提高我们的灵活性，这就是为什么我们要进行封装。

一个数据成员的封装程度越高，意味着它对外暴露得越少。评判一个数据成员对外暴露的程度，就是统计有类成员方法和友元方法引用了这个成员。

因此，当一个需求既可以使用成员函数实现也可以使用非成员且非友元函数实现，最好使用后者，因为这不会降低数据成员的封装程度。

假设我们实现了一个浏览器类 WebBrowser，及相应的清理历史记录、cookies、下载的文件等成员函数。如果我们想些一个 clearAll 函数，根据上面的原则，不应该使用成员函数来实现。

就是说，我们可以定义一个函数来实现 clearAll，或者定义一个工具类并实现一个静态函数 clearAll，这在 Java 中更为常见。在 C++ 中，更地道的方法是将 clearAll 和 WebBrowser 定义在同一个 namespace 中：

1
2
3
4
5


namespace WebBrowserStuff { 
	class WebBrowser { ... }; 
	void clearBrowser(WebBrowser& wb); 
	... 
}

得益于 namespace 跨文件的特性，可以将不同的类似 clearAll 的工具函数声明在不同的头文件中。

Item 24: Declare non-member functions when type conversions should apply to all parameters.

✦ If you need type conversions on all parameters to a function (includ- ing the one that would otherwise be pointed to by the this pointer), the function must be a non-member.

一般来说，让类支持隐式类型转换并不是个好主意，但凡事都有例外。例如，一个数值型的类要支持来自 int 的隐式转换是合理的。

接下来，当我们实现加法时，多个选项摆在了面前：重载定义成员函数、定义非成员函数、定义友元函数。

如果我们把他定义成一个成员函数，那么允许来自 int 的隐式转换时，Rational * int 是可以通过编译的，但是 int * Rational 是不可以的，因为 int 类型的 operator * 并不支持类型 Rational 的参数。这显然不够优雅，违反了乘法的交换律。

一种解决方案定义非成员函数 const Rational operator*(const Rational& lhs, const Rational& rhs)，当任意一个参数为 int 时，编译器会将其隐式转换为 Rational。

需求实现了，那么问题来了，要不要声明其为友元函数呢？如果可以，就不要声明为友元，因为友元会降低类的封装程度。

Item 25: Consider support for a non-throwing swap.

✦ Provide a swap member function when std::swap would be inefficient for your type. Make sure your swap doesn’t throw exceptions.

✦ If you offer a member swap, also offer a non-member swap that calls the member. For classes (not templates), specialize std::swap, too.

✦ When calling swap, employ a using declaration for std::swap, then call swap without namespace qualification.

✦ It’s fine to totally specialize std templates for user-defined types, but never try to add something completely new to std.

swap 自从在 STL 中引入，就是一个异常安全的函数。其一种经典的实现是：

1
2
3
4
5
6
7
8


namespace std { 
	template<typename T> 
	void swap(T& a, T& b){ 
		T temp(a); 
		a = b; 
		b = temp; 
	} 
}

只要类实现了构造函数和拷贝构造函数，上面这个模板函数就用于该类的交换。然而，默认的 swap 函数调用了一次拷贝构造函数和两次拷贝赋值函数，我们可能想根据自己的类定制一个更 fancy 的交换函数。

对于存在类指针数据成员的类来说，拷贝函数进行的深拷贝是不必要的，我们可以在自定义交换函数中执行浅交换，即只要交换指针。注意，这一过程可以通过模板特化进行，而不是完全自定义一个 swap 函数。

但是，模板特化也不能访问私有指针，一种做法是将特化的版本声明为友元函数。然而，更传统的做法是在类中声明一个公有接口 swap，并在模板特化中调用该接口。STL 的容器就是这么实现的。

但是，上述方案并不适用于模板类。具体来说，模板类中存在模板类型 T，在对 swap 进行特化时只能进行部分特化，但 C++ 中模板函数不支持部分特化：

1
2
3
4
5
6


namespace std{
	template<typename T>
	void swap<Widget<T>>(Widget<T>& a, Widget<T>& b){  // 对swap部分特化是不允许的
		a.swap(b);
	}
}

一种方案是对 swap 进行重载（删除 > 即可），但很遗憾，C++ 标准规定 std 命名空间只能由 C++ 标准委员会进行修改，而重载属于修改，是不被允许的。

似乎所有路都被堵死了？其实没有！别忘记，我们不一定要重载或者特化 std::swap，我们可以直接在 Widget 的命名空间中声明 swap 并使用。得益于 ADL 机制，编译器会自动调用 Widget 所在命名空间的 swap。

上述方案是万能的嘛？很遗憾，又不是。如下的一段代码，当执行交换时，调用的是哪个函数呢？std::swap 还是使用 T 特化的版本？又或者某个命名空间中针对类型 T 的 swap。

1
2
3
4
5
6


template<typename T> 
void doSomething(T& obj1, T& obj2) {
	... 
	swap(obj1, obj2); 
	... 
}

你可能想的是：如果有针对类型 T 的 swap，则优先调用，如果没有则回落到 std::swap，在 doSomething 中添加一行就能实现你的需求：

1
2
3
4
5
6
7


template<typename T> 
void doSomething(T& obj1, T& obj2) {
	using std::swap;
	... 
	swap(obj1, obj2); 
	... 
}

当调用 swap 时，编译器首先会在全局空间或者 T 所在的命名空间寻找参数为 Tswap 函数，如果找不到，则会在 std 空间中寻找特化的 swap，如果还是没有，则使用通用的 swap 实现。

本节内容有点多，小结一下：

如果通用的 swap 性能可以接受，则没必要自己实现。
如果要自己实现，步骤为：
- 提供一个 swap 成员接口
- 在类所在的明明空间提供一个 swap 非成员函数，调用 swap 成员函数接口
- 如果你写的是类不是模板类，则为其特化一个 std::swap
当调用 swap 时，确保使用 using 语句，使得 std::swap 是可见的。

最后一点忠告：swap 成员函数不应该抛出异常。这是因为 swap 一个很重要的应用就是帮助类提供强异常安全的保证。这一约束仅用于成员函数，非成员函数不受此限制。

Implementations

Item 26: Postpone variable definitions as long as possible.

✦ Postpone variable definitions as long as possible. It increases pro- gram clarity and improves program efficiency.

对象的构造和析构过程需要时间，因此，尽可能推延变量的定义，知道接下来必须要使用这个变量。例如下面代码中，提前定义了需要返回的 ret 再判断异常逻辑。当触发异常时，s 的构造和析构是不必要的：

1
2
3
4
5
6
7
8
9


std::string foo(string s){
	...
	string ret;
	if(s.size() == 0){
		throw logic_error("s is empty");
	}
	...
	return ret;
}

此外，上述代码会将 ret 初始化空串，这也是不必要的，之后对其赋值还会调用拷贝构造函数。更合适的做法是直接把计算出的返回值赋给 ret。

所谓“as long as possible”，不仅仅指的是延迟变量的定义，而是当明确了变量的值之后再定义这个变量。

对于循环中要使用的对象，一般在循环外定义更好，这可以避免多次调用构造和析构函数。

Item 27: Minimize casting.

✦ Avoid casts whenever practical, especially dynamic_casts in perfor- mance-sensitive code. If a design requires casting, try to develop a cast-free alternative.

✦ When casting is necessary, try to hide it inside a function. Clients can then call the function instead of putting casts in their own code.

✦ Prefer C++-style casts to old-style casts. They are easier to see, and they are more specific about what they do.

C++ 支持如下格式的类型转换：

C 风格：(T) expression
函数风格：T(expression)
C++ 形式：
- const_cast(expression)：移除一个变量的 const 修饰，只有 const_cast 运算符支持该转换。
- dynamic_cast(expression)：进行“safe downcasting”，即判断一个基类对象能否安全转换为派生对象，该运算符有较大的运行时开销。
- reinterpret_cast(expression)：进行两个无关类型之间的转换，即按照比特位重新解析为另外一个对象。该转换除非是面向低层编码，否则不应该使用。
- static_cast(expression)：进行强制隐式类型转换
  建议使用新版的 C++ 形式进行类型转换，一方面这些类型转换语句在代码中更容易识别，另一方面新的四种类型转换功能更加细化，方便查找错误。

不同编译器和不同平台的内存排布可能不同，因此不要根据内存排布进行低层的类型转换。

static_cast 如果传入的派生类对象，会返回基类对象的拷贝；如果传入派生类指针或引用，会返回基类对象指针或引用。因此，如果要调用基类非 const 成员函数，需要先转换为基类引用或者基类指针，再调用，否则该函数对该对象的修改是不起作用的。

dynamic_cast 开销并不小，能避免就避免。可以使用虚函数的动态绑定机制，在不进行类型转换的情况下通过基类指针访问派生类的函数。

Item 28: Avoid returning “handles” to object internals.

✦ Avoid returning handles (references, pointers, or iterators) to object internals. Not returning handles increases encapsulation, helps const member functions act const, and minimizes the creation of dangling handles.

一个成员变量的封装程度也与返回该对象的引用的成员函数的访问权限有关，如果公有函数返回了私有变量，那么这个变量的封装就被破坏为公有的。

如果一个对象内部的数据成员以指针的形式指向外部空间，并且该指针也可以被外部访问，那么即便这个对象被 const 修饰，其成员的内容还是会被修改。

指针、引用、迭代器等都会存在上述问题，他们可以统称为用于用于访问对象的句柄。

上面的两个问题指出了要遵守的规则：成员函数不得返回访问权限比自身更严格的成员变量/函数的句柄，除非有意为之并将返回值声明为 const。

此外，如果一个类的成员函数返回了类内部成员的引用，还可能诱发临时对象销毁后访问问题，即这个类的临时对象调用了这个成员函数，其返回值将在返回后被销毁。例如：

1
2
3
4
5
6
7
8


class A{
	Data data_;
	const Data& get_data() const {
		return data_;
	}
};

const Data* const p_data = &(A().get_data());

Item 29: Strive for exception-safe code.

✦ Exception-safe functions leak no resources and allow no data struc- tures to become corrupted, even when exceptions are thrown. Such functions offer the basic, strong, or nothrow guarantees.

✦ The strong guarantee can often be implemented via copy-and-swap, but the strong guarantee is not practical for all functions.

✦ A function can usually offer a guarantee no stronger than the weak- est guarantee of the functions it calls.

当一个异常被跑出，异常安全的函数应该做到：

没有资源泄露。资源泄露不仅仅是内存泄露，还包括锁等资源。这一点可以通过 > Item 13 Use objects to manage resources. 中的 RAII 做到。
数据结构没有被破坏。即需要维护的数据结构仍然保持维护的状态。

异常安全的函数满足以下三种特性之一：

最基本的保证：如果抛出异常，程序内的所有状态都是合法且有效的，但无法预知这些状态的取值。
强力保证：如果抛出异常，程序内所有的状态和函数调用前相同。这样的函数我们称之为原子函数。
不抛出异常保证：函数保证在执行过程中不会抛出异常。内建类型的所有操作都是这样的函数。

需要注意的是，类似 void foo() noexcept; 这样的函数声明并不意味着该函数保证不会抛出异常，这个声明意味着如果抛出了异常，那是致命的错误。相反，该函数甚至可能无法提供任何级别的异常安全保证。

函数是否是异常安全的并不取决于它的函数声明，而是取决于其具体实现。确保不抛出异常是很困难的，尤其是当使用 C++ 的各种库时，通常只要实现稍弱的两种保证即可。

要想提供异常安全的强力保证，通常会使用到 swap and copy 技术，即先对要修改的对象的拷贝进行修改，没有异常再交换二者。

一旦涉及到函数彼此调用，想要实现强力保证就很快困难，即便被调用的函数能够提供强力保证。在下面的代码中，foo 调用了 f1 和 f2，如果 f1 正常调用结束，但 f2 发生了异常而回退，此时需要由 foo 追踪 f1 的修改内容并进行回退——这显然相当困难。

1
2
3
4
5
6


void foo(){
	...
	f1();
	f2();
	...
}

异常安全的强力保证需要消耗大量的资源和性能，并不适用于所有的场景。这种情况下，我们就要转向基本保证。

但基本保证也不是一件易事，仍旧考虑上面那个调用两个函数的例子，如果 f1 是异常不安全的，那么当其排除异常时，内部可能存在资源泄露，这对于调用者 foo 来说是无法定位并释放的。因此，如果一个函数调用了异常不安全的函数，那其也无法提供异常安全的保证。

同样的，对于一个系统来说，其要么是异常安全要么是异常危险的，不可能介于二者之间。一旦这个系统中有一个函数是异常危险的，这个系统就不可能是异常安全的。

Item 30: Understand the ins and outs of inlining.

✦ Limit most inlining to small, frequently called functions. This facili- tates debugging and binary upgradability, minimizes potential code bloat, and maximizes the chances of greater program speed.

✦ Don’t declare function templates inline just because they appear in header files.

内联函数除了可以减少函数调用开销，还可以给予编译器更大的优化空间。

但是，启用内联，也会让目标文件变得更大（所有调用内链函数的地方都会被展开），增加换页次数、降低 cache 命中率。

inline 是向编译器建议，而不是强制要求编译器将该函数处理为内联函数。有两种方式向编译器提出建议：隐式，即在类中给出成员/友元函数的定义；显式，即在函数定义处使用 inline 关键字。

编译器要在编译器将内联函数调用原地展开，因此内链函数必须在头文件中给出。模板函数也是如此。但这并不意味着模板函数和内联函数之间存在什么充分必要关系。

库的设计者应该评估是否将一个接口声明为 inline，如果这样做，一旦需要对内联函数的实现进行修改，所有调用该函数的代码也需要被重新编译。修改一个普通函数，则仅仅需要重新链接。

Item 31: Minimize compilation dependencies between files.

✦ The general idea behind minimizing compilation dependencies is to depend on declarations instead of definitions. Two approaches based on this idea are Handle classes and Interface classes.

✦ Library header files should exist in full and declaration-only forms. This applies regardless of whether templates are involved.

当我们修改一个类的具体实现后，所有直接和间接依赖这个类的文件都会被重新编译。这是因为 C++ 中的接口和实现没有很好地分离。

1
2
3
4
5
6
7


#include "data.h"
class Person{
public:
	const Date& get_birthdate() const; // interface
private:
	Date birthdate_; // implementation detail
};

例如，Person 类中有接口 get_birthdate，其私有成员变量 Date birthdate_ 就是一个实现，在编译 Persion 时，必须知道 Date 的具体实现，才能顺利编译。这是因为必须在 Person 中给 Date 成员预留出足够的空间，而不知道其具体实现，则无法获知其大小。

解决方案一：句柄类

在 Java 中，则不存在上述困扰。当在 Java 中定义一个类时，类成员以指针的形式保存在类中，而不为其预留完整空间。

可以使用 C++ 模拟这一过程，这被称为“pimpl idiom”（point to implementation），具体为：将原本 Person 在头文件中的定义分为接口 Person 和实现 PersonImpl 两个类，前者只声明对外的接口和一个指向具体实现类的指针，后者定义具体的数据成员和接口实现。即：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11


// person.h
#include 

class Date;

class Person{
public:
	const Date& get_birthdate() const; // interface
private:
	std::shared_ptr<PersonImpl> pImpl_; 
};

需要注意的是，这里使用了前向声明（forward declaration）技术

pimpl idiom 技术的核心理念是：将对实现的依赖转换为对声明的依赖。根据该理念，可以导出两个技巧：

如果能使用对象指针或者引用，就不要直接使用对象。声明一个对象需要该对象的定义，但是指针和引用只需要声明。
尽可能依赖声明而非实现。即便是某个函数的参数类型或者返回值类型，是可以直接声明为该类而不需要一定声明为指针或者引用的。
一个类分别要提供声明和定义两个头文件。调用者要包含声明的头文件而非前向声明某个类。

解决方案二：接口类
除了 pimpl idiom，另一种处理方式是将 Person 声明为一种特殊的抽象基类——接口，其作用是为派生类指定必须实现公有函数接口。通常来说，接口没有数据成员，没有构造函数，一个虚拟析构函数和一系列纯虚函数。

C++ 中的接口不如 Java 中的限制严格，允许接口具有数据成员。

Person 接口可以声明为：

1
2
3
4
5
6
7


class Date;
class Person{
public:
	virtual ~Person();

	virtual const Date& get_birthdate() const = 0;
};

注意，这个类的使用者只能使用 Person 的引用或者指针。按照这种方式实现的 Person，除非其接口有所改变，否则即便 Person 的实现修改调用者也不用重新编译。

接口的调用者需要一个用于创建对象的方法，常用的方式是提供一个静态工厂函数接口用于创建一个对象，并返回相应的智能指针。这个工厂函数可以工具参数返回这个接口的不同派生对象。

注意，由于工厂函数是一个静态函数，并不依赖于具体的数据成员或者方法，因此其所在的类仍旧是一个抽象类/接口。

当然，上述方案减少了头文件之间的依赖，代价是增大了对象的体积，略微减慢了运行速度。

句柄类的解决方案每次访问对象，都要进行一次指针访问操作；接口类的解决方案中，每个函数都是虚函数，每次访问接口函数，都有一次虚函数调用的开销。

Inheritance and Object-Oriented Design

这一章将集中介绍 C++ 中面向对象相关的内容，包括继承、派生和虚函数。C++ 中的 OOP 遵循 OOP 的基本理念，但又与其他语言的 OOP 有所不同。只有正确理解 C++ 中的 OOP，才能把“所想”通过 C++ 变成“所得”。

Item 32: Make sure public inheritance models “is-a.”

✦ Public inheritance means “is-a.” Everything that applies to base classes must also apply to derived classes, because every derived class object is a base class object.

公有继承意味着“is-a”关系，也就是说，类型 D 的所有对象也是类型 B 的对象。前面说的是 OOP 最基本的理念，必须要记住。

C++ 中，需要基类对象的地方也可以传入派生类对象，当且仅当是公有继承才允许。

is-a 关系很容易被直觉和不精确误导：众所周知，企鹅是一种鸟，并且鸟会飞，根据上述想法，不难写出如下代码：

1
2
3
4
5
6
7
8
9


class Bird{
	...
public:
	virtual void fly();
};

class Penguin: public Bird{
	...
}

但事实上，企鹅并不会飞。这一问题的根源在于并不是所有的鸟都会飞，语言的表述是不准确的。更合理的做法是，派生出一个 FlyingBird 类，并在该类中声明虚函数 fly。当然，一切取决于需求，如果不需要使用 fly 这个行为，就没必要派生出 FlyingBird 这个抽象类。

is-a 关系与数学上的特殊 - 一般关系也不相同，例如数学上正方形是一种特殊的长方形，但在 C++ 的公有继承不能这么实现。公有继承 is-a 关系指的是，派生类满足基类的一切性质，而正方形的长宽必须一致，这一特性导致长方形的某些方法并不适用于正方形。

Item 33: Avoid hiding inherited names.

✦ Names in derived classes hide names in base classes. Under public inheritance, this is never desirable.

✦ To make hidden names visible again, employ using declarations or forwarding functions.

在类继承中，同样存在名称遮蔽，即派生类中的成员会遮蔽基类中的同名成员。对于成员变量来说，一切都符合直觉，但对于成员函数来说，就不是这么一回事了。

首先，成员函数的遮蔽是以函数名为标志的，也就是说，派生类中的成员函数除了会遮蔽基类中签名相同的同名函数，还会遮蔽基类中同名的重载函数。例如：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16


class Base{
public:
	void fun1();
	void fun1(int x); // 重载
};

class Derived: public Base{
public:
	void fun1(); // 遮蔽了基类中所有名为fun1的成员函数
}

/**********************************/

int x=1;
Derived d;
d.fun1(x); // 不合法

C++ 的这一默认行为既不符合直觉，也不符合公有继承是 is-a 的关系。为了使重载函数仍旧在派生类中可见，可以在派生类中添加一行 using 语句：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17


class Base{
public:
	virtual void fun1();
	virtual void fun1(int x); // 重载
};

class Derived: public Base{
public:
	using Base::fun1; // 基类中所有名为fun1的成员都在派生类中可见
	virtual void fun1(); 
};

/**********************************/

int x=1;
Derived d;
d.fun1(x); // 合法

“在派生类中只继承基类重载成员函数某几个版本”这一想法在公有继承中违反了 is-a 理念，但在私有继承中，这个需求是合理的。如果在上面代码中，私有继承的派生类只想继承 fun1 的无参版本，可以使用转发：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18


class Base{
public:
	virtual void fun1();
	virtual void fun1(int x); // 重载
};

class Derived: public Base{
public:
	virtual void fun1()
	{Base::fun1();} // 转发
};

/**********************************/

int x=1;
Derived d;
d.fun1(x); // 不合法
d.fun1(); // 合法，调用的是Derived::fun1()

Item 34: Differentiate between inheritance of interface and inheritance of implementation.

✦ Inheritance of interface is different from inheritance of implementa- tion. Under public inheritance, derived classes always inherit base class interfaces.

✦ Pure virtual functions specify inheritance of interface only.

✦ Simple (impure) virtual functions specify inheritance of interface plus inheritance of a default implementation.

✦ Non-virtual functions specify inheritance of interface plus inherit- ance of a mandatory implementation.

在 C++ 的继承过程中，需要区分继承一个接口和继承一个函数。前者指的是，只继承这个函数的声明，而不继承基类中的实现（通常也不存在该实现），后者指的是同时继承声明和实现，同时还要区分能否重写（override）该函数。

如果只需要继承来自基类的接口，可以在基类中将该接口声明为纯虚函数（事实上接口也就应该是纯虚函数）。一个冷知识是，纯虚函数同样可以在基类中给出定义，只是在调用时要显式指定，例如 Base::fun()。

如果需要继承一个实现，同时允许在派生类中重写该方法，可以在基类中将该方法声明为虚函数。在实践过程中，往往会由于一个基类的多个派生类的同一个方法具有相同的实现，因此将其作为基类的默认实现。但这也为未来埋下了隐患：之后派生出的某个类并不适用该实现，但是重写该方法了，在编译阶段不会发现这个错误。解决方案为：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12


class Base{
public:
	virtual void fun() = 0;// 改为纯虚函数
protected:
	void default_fun() = 0;
};

class Derived: public Base{
public:
	virtual void fun() // 转发到默认函数
	{default_fun();}
};

解决方案就是将原函数声明为纯虚函数，并提供一个非同名默认实现函数，在需要使用该默认实现的派生类中，重写该方法，转发到基类默认实现。

有些人不喜欢上面将声明和实现写在两个函数中的方案，转而在基类中为纯虚函数提供一个定义来实现该需求。这是可行的，但在默认实现的权限控制上不如上面这个方案细粒度高。

如果需要继承一个实现，同时禁止在派生类中重写该方法，那么就应该将该方法声明为非虚函数，并使用 final 关键字。

Item 35: Consider alternatives to virtual functions.

✦ Alternatives to virtual functions include the NVI idiom and various forms of the Strategy design pattern. The NVI idiom is itself an ex- ample of the Template Method design pattern.

✦ A disadvantage of moving functionality from a member function to a function outside the class is that the non-member function lacks ac- cess to the class’s non-public members.

✦ tr1::function objects act like generalized function pointers. Such ob- jects support all callable entities compatible with a given target sig- nature.

虚函数在实现过程中被尝尝使用，但实际上其也有几种替代品：

通过非虚接口实现模板方法模式
这里的非虚接口来自一种理念：虚拟函数应该是私有的。所谓模板方法模式是一种设计模式，指的是在父类中定义了一个算法的框架，允许子类在不改变算法结构的情况下重写算法中的某些步骤。具体来说，在基类中提供一个非虚接口，其实现是调用某几个特定的私有虚函数，在派生类中，通过修改这几个私有虚函数的实现以修改派生类中的行为。

这一设计模式的好处是可以在公有接口中在调用私有接口前后添加一些自定义内容，例如初始化环境、打日志、检查返回值、申请释放锁等。这一模式是控制反转的提现：高层抽象类负责控制基本流程顺序，低层派生类负责控制每个流程的具体实现。

通过函数指针实现策略模式
前面提到的模板方法的解决方案，仍旧用到了虚函数（尽管其是私有的），一种更灵活的解决方案是要求派生类在构造基类时传入一个函数指针，基类在实现相关方法时，将调用该函数。

其灵活性体现在，即便是同一派生类的不同实例，也可以具有不同的函数实现。

起问题在于，作为非成员函数，该函数无法访问类中的非公有变量。解决方案是降低这个类的封装程度，例如将该函数声明为友元函数，或者提供访问这些变量的公有方法。

通过 std::function 实现策略模式
函数指针的实现方案灵活度不够高：参数必须完美匹配，并且只支持常规函数。对其稍加改造，使用 std::function 来替代函数指针，则支持各种可调用的对象（函数对象、lambda 函数、成员函数等），且支持自动类型转换。

Item 36: Never redefine an inherited non-virtual function.

✦ Never redefine an inherited non-virtual function.

非虚函数使用的是静态绑定，即基类指针分别指向基类和派生类对象，调用同一个非虚函数，如果这个函数在派生类中被重新定义了，那么二者调用的版本是不同的。这并不符合面向对象的设计原则：

前面提到，非虚函数的含义是为该类指定了某种特定实现，这种实现不应该在派生类中修改。如果有修改的需求，应该将其指定为虚函数。
前面提到，公有继承是 is-a 关系，如果在派生类中要重定义某个函数，说明派生对象 is not a 基类对象，与 is-a 关系矛盾。

Item 37: Never redefine a function’s inherited default parameter value.

✦ Never redefine an inherited default parameter value, because default parameter values are statically bound, while virtual functions — the only functions you should be redefining — are dynamically bound.

不要修改函数继承的默认参数，这个条款乍一看很奇怪，这实际上是 C++ 中为了更高效地实现虚函数而出现的一种特性，即：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18


class Base{
public:
	virtual void show(string str="Base"){
		cout << "call Base::show "<< str << endl;
	}
};

class Derived: public Base{
public:
	virtual void show(string str="Derived"){
		cout << "call Derived::show "<< str << endl;
	}
};
/*********/

Derived d = Derived();
Base &pd = d;
pd.show(); // output: call Derived::show base

具有默认参数的虚函数在进行动态绑定时，其默认参数是静态绑定的。这就造成了上面这几行代码中，的确调用了派生类中重写了的 show 函数，但是传入的默认函数是来自 pd 静态的类型 Base 中对应方法的参数。这一特性是为了减少虚函数表中需要维护的内容，但也导致了其不符合直觉的行为。

这种情况下，在派生类中将待重写的虚函数的参数列表照抄基类中的列表也是不合适的（未来可能修改参数的默认值）。一种解决方案是使用前文提到过的非虚接口：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22


class Base{
public:
	virtual void show(string str="Base"){
		do_show(str);
	}
private:
	virtual void do_show(string str){
		cout << "call Base::do_show" << str << endl;
	}
};

class Derived: public Base{
private:
	virtual void do_show(string str){
		cout << "call Derived::do_show" << str << endl;
	}
};
/*********/

Derived d = Derived();
Base &pd = d;
pd.show(); // output: call Derived::do_show base

由于非虚函数不可在派生类中重写/遮蔽，因此 show 的默认参数只能为值 base。

Item 38: Model “has-a” or “is-implemented-in-terms- of” through composition.

✦ Composition has meanings completely different from that of public inheritance.

✦ In the application domain, composition means has-a. In the implementation domain, it means is-implemented-in-terms-of.

组合关系（composition）指的是一个物体由多个对象组合而来，或者一个对象包含了其他对象的关系。与公有继承意味着 is-a 类似，组合关系意味着 has-a 或者 is-implemented-in-terms-of（基于 xxx 而实现）。

组合关系的这两层含义，对应着两种不同领域：has-a 常用于对现实世界建模，is-implemented-in-terms-of 常用语纯粹的实现领域，例如实现锁、二叉树等等。

区别 has-a 和 is-a 比较简单，但区分 is-implemented-in-terms-of 和 is-a 就有说法了。例如，当我们需要使用链表来实现集合时，这是哪种关系呢？如果 D is-a B，那么对于 B 成立的说法，对 D 都应该成立，但是链表允许有重复值，集合则允许，因此不是 is-a 关系。

Item 39: Use private inheritance judiciously.

✦ Private inheritance means is-implemented-in-terms of. It’s usually inferior to composition, but it makes sense when a derived class needs access to protected base class members or needs to redefine inherited virtual functions.

✦ Unlike composition, private inheritance can enable the empty base optimization. This can be important for library developers who strive to minimize object sizes

私有继承有如下两个影响：

派生类对象不允许被转换为基类对象；
基类成员在派生类中的访问权限为私有。

上面两个特性决定了，私有继承的含义为 is-implemented-in-terms-of，它和组合的一种含义相同。只有在迫不得已时，才应该使用私有继承，通常应该使用组合。

迫不得已？例如要使用基类保护成员，或者要重写虚函数的情况。

Item 40: Use multiple inheritance judiciously.

✦ Multiple inheritance is more complex than single inheritance. It can lead to new ambiguity issues and to the need for virtual inheritance.

✦ Virtual inheritance imposes costs in size, speed, and complexity of initialization and assignment. It’s most practical when virtual base classes have no data.

✦ Multiple inheritance does have legitimate uses. One scenario in- volves combining public inheritance from an Interface class with private inheritance from a class that helps with implementation.

如果使用多继承，很容易出现名称相同（歧义）的情况。C++ 在解析对重载函数的调用时，首先搜索最佳匹配的函数，然后再检查其权限。这就导致了，即使同名的两个函数一者是私有的，编译器仍旧不能正确对多继承中的同名函数正确解析。

为了解决这种歧义，在函数调用时必须显式指出调用的是哪个基类下的函数名。

在多继承中，同一个基类可能沿着不同的路径被继承了多次，这些数据在最终的派生类中可以有两套独立的副本，也可以共享一个副本（虚继承）。被虚继承的基类称为虚基类。

一般来说，所有的公有继承都应该是虚继承的。但是，虚继承本身存在性能代价：一方面，编译器需要为虚基类维护更多的信息，另一方面，在初始化时派生类的作者必须了解到有哪些虚基类，并为其手动初始化。

因此，虚基类能不用就不用，即便要用，虚基类中的数据成员能少就少。

多继承的一个合理的使用场景是：公有继承一个接口，同时私有继承一个类帮助实现这个接口。之所以要私有继承一个类，是因为要修改其的虚函数，否则使用组合即可。

Templates and Generic Programming

从最初的容器开始，模板进入程序员的世界。后来人们发现模板的能力远不止于此，一种新的编程范式——模板变成应运而生。随后 C++ 中的模板又被证明为是图灵完备的，一种在编译期运行的程序——模板元变成又诞生了。

Item 41: Understand implicit interfaces and compile-time polymorphism.

✦ Both classes and templates support interfaces and polymorphism.

✦ For classes, interfaces are explicit and centered on function signa- tures. Polymorphism occurs at runtime through virtual functions.

✦ For template parameters, interfaces are implicit and based on valid expressions. Polymorphism occurs during compilation through tem- plate instantiation and function overloading resolution.

在面向对象编程中，显式接口和运行时多态是重要的组成部分。在泛型编程中，二者仍然生效，但更重要的是隐式接口和编译时多态。

在泛型编程中，所谓隐式接口就是对类型 T 执行的所有操作、调用的所有方法
所谓编译时多态指的是对 T 的实例化类型参数的不同会导致调用不同的方法，这就实现了多态

通过各种表达式，可以为类型 T 声明其必须支持的接口有哪些。更严谨的说法是，T 必须要支持一些接口，使得这些表达式合法。例如：

1
2
3
4
5
6


template <typename T>
void do(T &w){
	if(w.size() > 10 && w!=xxx){
	...
	}
}

这几行代码并非意味着 T 必须支持返回一个可以与 10 比较类型的值的 size 方法，实际上，它只需要返回一个支持/重载了运算符 operator > 且接受参数 10 的类型即可。同样的，T 也不一定要重载 != 运算符，只要 w 可以转换为某个类型 X 并且 xxx 可以转换为某个类型 Y，且 X!=Y 这个运算符有定义即可。

Item 42: Understand the two meanings of typename.

✦ When declaring template parameters, class and typename are inter- changeable.

✦ Use typename to identify nested dependent type names, except in base class lists or as a base class identifier in a member initializa- tion list.

在声明模板参数中，typename 和 class 是等价的。有些程序员会区分使用二者，例如只接受类的参数使用 class，接受一切类型的参数使用 class。

模板中，由于不知道参数的具体类型，很容易引发歧义：

1
2
3
4


template<typename C>
void foo(const C& container){
	C::const_iterator *x;
}

上述代码的第四行中，本意是声明一个指向类型为 C::const_iterator 的指针 x，但如果类 C 中恰好存在一个名为 const_iterator 的静态成员变量，并且恰好存在一个名为 x 的全局变量，这样代码的含义就变为了两个表达式相乘。编译器必须考虑各种可能性，默认情况下，其不会将类中的名称，例如 C::const_iterator 视为一个类型名称。需要在前面使用 typename 关键字修饰，这样编译器将把其视为类型明对待：

1
2
3
4


template<typename C>
void foo(const C& container){
	typename C::const_iterator *x;
}

注意：此处 typename 不可使用 class 替换。

“在模板参数类的内嵌类型名前需要使用 typename 修饰”这一规则的一个例外是：在类继承的基类列表名和类初始化列表中，不得使用 typename 修饰：

1
2
3
4
5
6
7
8


template<typename>
// Derived继承了Base中的一个内嵌类Nested
class Derived: public Base<T>::Nested{ // 基类列表，不可使用typename修饰
public:
	explicit Derived(int x)
	:Base<T>::Nested(x) // 初始化列表，不可使用typename修饰
	{ ... }
}

Item 43: Know how to access names in templatized base classes.

In derived class templates, refer to names in base class templates via a “this->” prefix, via using declarations, or via an explicit base class qualification.

当需要继承模板基类并访问其中的方法时，编译器会拒绝访问：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30


class BaseA{
public:
	void do_foo1();
	void do_foo2();
};

// 模板基类，有foo1和foo2两个接口
template <typename BaseName>
class Base{
public:
	void foo1(){
		BaseName base;
		base.do_foo1();
	}

	void foo2(){
		BaseName base;
		base.do_foo2();
	}
};


// 派生类，调用foo2方法
template <typename BaseName>
class Derived: public Base<BaseName>{
public:
	void call_foo2(){
		do_foo2(); // invalid
	}
};

之所以第 28 行不能正确访问基类中的 do_foo2 方法，是因为模板特化的存在。在模板基类中的一个特化版本可能没有提供 do_foo2 方法，因此编译器拒绝编译该代码。

有如下三种解决方案：

在函数调用前使用 this->：

1
2
3
4
5
6
7


template <typename BaseName>
class Derived: public Base<BaseName>{
public:
	void call_foo2(){
		this->do_foo2(); // valid
	}
};

使用 using 声明该方法：

1
2
3
4
5
6
7
8


template <typename BaseName>
class Derived: public Base<BaseName>{
public:
	using MsgSender<BaseName>::do_foo2;
	void call_foo2(){
		do_foo2();
	}
};

显式指定调用基类中的方法：

1
2
3
4
5
6
7


template <typename BaseName>
class Derived: public Base<BaseName>{
public:
	void call_foo2(){
		MsgSender<BaseName>::do_foo2();
	}
};

应该避免使用第三种解决方案，因为作用域限定符将会使得虚函数的动态绑定机制失效。

从名称可见性的角度看，这三个解决方案都做了一件事：向编译器保证 do_foo2 这个方法在任何模板特化中总是存在的。如果实际上不存在，那么在编译器该错误将被发现。

Item 44: Factor parameter-independent code out of templates.

✦ Templates generate multiple classes and multiple functions, so any template code not dependent on a template parameter causes bloat.

✦ Bloat due to non-type template parameters can often be eliminated by replacing template parameters with function parameters or class data members.

✦ Bloat due to type parameters can be reduced by sharing implemen- tations for instantiation types with identical binary representations.

模板可以精简源码的大小，但也有可能在实例化的过程中增大生成的可执行文件的大小，一个原因就是模板被实例化次数过多了。例如，当我们想要实现一个支持转置的方阵：

1
2
3
4
5
6


template<typename T, size_t n>
class SquareMatrix{
public:
	...
	void invert();
};

这个模板类有两个参数，一个类型参数 T 指示数据类型，一个非类型参数 n 指示矩阵大小。这是个常见的操作，但其会导致对于每个不同矩阵大小 n，即便数据类型相同，依旧会生成多份 invert 的实现代码。这显然是没必要的，需要再次进行抽象。

一种做法是抽象出一个模板基类，只接收一个类型参数 T，并提供一个 void invert(size_T n) 方法，让派生类将非类型参数转发到该方法。这样，相同类型的数据将共享相同的模板实例。

但是，抽象后的方案并不一定比原始方案更好。原始方案在编译期就确定了矩阵大小，编译器有更多的优化空间。另一方面，优化后的方案可执行文件更小，能够减少工作集的大小，提升程序的局部性，提升 cache 命中率。

Item 45: Use member function templates to accept “all compatible types.”

✦ Use member function templates to generate functions that accept all compatible types.

✦ If you declare member templates for generalized copy construction or generalized assignment, you’ll still need to declare the normal copy constructor and copy assignment operator, too.

假设我们想实现一个智能指针类 SmartPointer，要求支持从任何兼容的类型（任意类型的裸指针）构造：

1
2
3
4
5
6


template<typename T>
class SmartPointer{
public:
	SmartPointer(T *real_ptr);
...
};

接下来，要求不同类型的智能指针之间可以相互转换，可以使用通用复制构造函数 generalized copy constructors：

1
2
3
4
5
6
7


template<typename T>
class SmartPointer{
public:
	template<typename U>
	SmartPointer(const SmartPointer<U>& other);
...
};

上述代码在模板类中使用了模板构造函数，以允许来自其它实例的构造参数。

接下来，要求这个智能指针能够像裸指针一样，支持隐式的类型转换，例如，派生类指针转换为基类指针，我们使用 cpp 内置的之间转换来实现：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11


template<typename T>
class SmartPointer{
public:
	template<typename U>
	SmartPointer(const SmartPointer<U>& other)
	:held_ptr(other.get();) {};
	T* get() const {return held_ptr};
...
private:
	T* held_ptr;
};

需要注意的是，模板构造函数并不会组织编译器生成默认构造函数。因此，如果需要拷贝构造一个对象，编译器将生成拷贝构造函数，即下述代码将没有任何输出：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20


#include "iostream"  
template<typename T>  
class SmartPointer{  
public:  
    template<typename U>  
    SmartPointer(const SmartPointer<U>& other)  
            :held_ptr(other.get()) {  
                std::cout << "Enter template copy constructor\n";  
            };  
    SmartPointer(T* p)  
            :held_ptr(p) {};  
    T* get() const {return held_ptr;};  
private:  
    T* held_ptr;  
};  
  
int main(){  
    SmartPointer<int> pint = {new int};  
    SmartPointer<int> pint2 = {pint}; // 调用默认拷贝构造函数，而非模板构造函数
}

Item 46: Define non-member functions inside templates when type conversions are desired.

✦ When writing a class template that offers functions related to the template that support implicit type conversions on all parameters, define those functions as friends inside the class template.

在 |Item 24 中，我们使用非成员函数来实现支持交换律的加法（自动类型转换），当我们将该技巧一应用到模板上时，发生了一些微妙的变化：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16


template<typename T>
class Rational{
public:
	Rational(const T& numerator=0, const T& denominator=0);
	const T numerator() const;
	const T denominator() const;
	...
};

template<typename T>
const Rational<T> operator*(const Rational<T>& lhs, const Rational<T> rhs){...}

/*******************/

Rational<int> half(1, 2);
Rational<int> res = half*2; // error! won't compile!

怎会如此？！！原因在于，编译器要先对 operator* 进行实例化，但是，它不知道将该将 T 推导为哪个类型。operator* 接收了两个不同的参数类型，但在模板参数推导的过程中隐式类型转换不被考虑。

解决方案是，将 operator* 声明为友元函数，让其中模板类型参数随着类的实例化而一起实例化。需要注意的是，要在类中给出这个函数友元函数的定义，这个友元函数不是模板函数，在外部给出定义的函数是一个模板函数，二者不是一个函数：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13


template<typename T>
class Rational{
public:
	Rational(const T& numerator=0, const T& denominator=0);
	const T numerator() const;
	const T denominator() const;

	friend const Rational operator*(const Rational& lhs, const Rational rhs) // 在模板类中可以简写，忽略尖括号中的内容
	...
};

template<typename T>
const Rational<T> operator*(const Rational<T>& lhs, const Rational<T> rhs){...} // 这是一个模板函数定义，类中声明的友元函数并非一个模板函数

Item 47: Use traits classes for information about types.

✦ Traits classes make information about types available during com- pilation. They’re implemented using templates and template special- izations.

✦ In conjunction with overloading, traits classes make it possible to perform compile-time if…else tests on types.

我们来尝试实现 advance 模板函数，其作用是将一个指针或者迭代器移动指定距离。cpp 的所有迭代器中，有一部分支持随机访问，而另一部分仅支持连续访问。出于性能的考量，在实现 advance 时，我们需要分开实现这两种迭代器，即我们需要获知该迭代器的类型信息。由于我们还要支持对指针的操作，因此这一信息不应保存在迭代器的内部。这可如何是好？

好在，我们还有类型萃取 traits。traits 并非 cpp 中的关键字或者预定义的某个接口，它是一种技术的统称。鉴于类型信息不应保存在类型内部，标准做法是将其保存在一个模板，以及该模板的特化版本中。对于迭代器来说，标准库中的模板命名为 iterator_traits：

1
2


template<typename iterT>
struct iterator_traits;

传统上，使用结构体来实现 traits。通过在结构体内声明一个名为 iterator_category 的 typedef，对于不同类型的 iterT 定义不同的值，来区分不同的迭代器类型。

具体来说，iterator_traits 由两部分组成。对于用户定义的迭代器，要求其必须内嵌一个名为 iterator_category 的 typedef，取值为标准库中的迭代器的分类 tag：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18


template<...>
class deque{
public:
	class iterator{
	public:
		typedef random_access_iterator_tag iterator_category;
		...
	};
	...
};


/*******迭代器tag取值**************/
struct input_iterator_tag {};
struct output_iterator_tag {};
struct forward_iterator_tag : public input_iterator_tag {};
struct bidirectional_iterator_tag : public forward_iterator_tag {};
struct random_access_iterator_tag : public bidirectional_iterator_tag {};

例如，上文定义了一个双端队列中支持随机访问的迭代器。对于 iterator_traits 来说，其要做的就是将 iterT 中的 tag 再次声明为 iterator_category：

1
2
3
4


template<typename iterT>
struct iterator_traits{
	typedef typename iterT::iterator_category iterator_category
};

至此，我们已经完成了对用户自定义类型支持。接下来我们支持对内建指针的支持。指针是一种支持随机访问的迭代器，使用部分模板特化对指针进行特化：

1
2
3
4


template<typename T>
struct iterator_traits<T*>{
	typedef typename random_access_iterator_tag iterator_category;
};

当我们完成萃取类后，接下来就可以分类讨论来实现 advance 方法了：

1
2
3
4
5


template <typename iterT, typename distT>
void advance(iterT& iter, distT d){
	if(typeid(typename iterator_traits<IterT>::iterator_category) == typeid(std::random_access_iterator_tag))
	...
}

遗憾的是，上面的代码存在编译错误，该问题将在下一个条款讨论。不但如此，上述代码的 if 语句应该在运行期执行，但事实上，条件语句在编译器就已经确定了结果，这降低了代码的执行效率。

编译器的条件语句？emmmm…似乎比较麻烦。别忘了我们还有函数重载！函数重载的就是根据不同的参数类型执行不同的代码！据此，我们可以重载不同迭代器类型对应的 advance 实现：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11


template <typename iterT, typename distT>
void do_advance(iterT& iter, distT d, std::random_access_iterator_tag){
...
}

template <typename iterT, typename distT>
void do_advance(iterT& iter, distT d, std::input_iterator_tag){
...
}

...

有了以上代码，advance 函数仅需要调用他们即可。需要注意的是，在模板函数的重载中，可以有未命名形参。但是在调用函数的过程中，必须传入实参对象。好在，我们前面用来标识类型的标签是空的结构体，我们可以直接使用该结构体构造一个空对象作为形参传入：

1
2
3
4


template <typename iterT, typename distT>
void advance(iterT& iter, distT d){
	do_advance(iter, d, typename std::iterator_traits<iter>::iterator_category);
}

以上我们总结出使用函数萃取类的过程：

创建一系列根据类型重载的“worker”函数。
创建一个“master”函数调用调用“worker”。

Item 48: Be aware of template metaprogramming.

✦ Template metaprogramming can shift work from runtime to com- pile-time, thus enabling earlier error detection and higher runtime performance.

✦ TMP can be used to generate custom code based on combinations of policy choices, and it can also be used to avoid generating code in- appropriate for particular types.

模板元编程（TMP）就是书写在编译期运行的 cpp 代码的过程，其在编译期运行，输出结果再由编译器进行编译。

TMP 在上世纪九十年代被发现（⚠️不是发明），其有两个作用：

让某些不可能或者难以实现的事情变得可以实现；
将一些运行期的工作转移到编译期进行。
第二个作用，可以把一些运行期的错误提前到编译期发现，并减小编译生成的可执行代码的文件大小，提高行效率。

前面我们在不使用函数重载实现 advance 的过程中，曾提到以下代码存在编译错误：

1
2
3
4
5


template <typename iterT, typename distT>
void advance(iterT& iter, distT d){
	if(typeid(typename iterator_traits<IterT>::iterator_category) == typeid(std::random_access_iterator_tag))
	...
}

原因在于，如果我们传入一个不支持随机访问的迭代器，这个函数模板依旧会被完整展开，并且其中存在 iter += d; 这样的语句。尽管，该语句所在的 if 分支的条件永远为 false，这并不影响编译器对该语句进行编译检查。而不支持随机访问的迭代器并没有实现 operator +=，因此将会在编译期报错。

TMP 是图灵完备的，前一条款演示了在 TMP 中如何实现条件控制流。在 TMP 中，循环控制流则是通过递归来实现的，与常规 cpp 中递归调用函数不同，TMP 的递归是模板递归实例化。一个使用 TMP 编写的计算阶乘的代码为：

1
2
3
4
5
6
7
8
9


template<unsigned n>
struct Factorial{
	enum {value = n*Factorial<n-1>::value};
};

template<>
struct Factorial<0>{
	enum {value = 1};
};

接下来作者举了 TMP 实际应用的几个领域，此处不在记录。总而言之，TMP 有其擅长的领域，但鉴于其反直觉的特性，以及作者写该书时相关工具链还很孱弱，需要谨慎使用。

Customizing new and delete

现如今，很多语言都支持了自动垃圾回收。C++ 手动的回收方式似乎显得有些过时了。但是，许多系统的开发者选择 cpp，因为其允许他们手动管理内存。做到这一点，必须了解 cpp 中内存分配和释放例程的行为，这正是本章的重点内容。

在多线程环境下，内存管理的困难要大得多，因为堆和 new-handler 都是可修改的全局资源，容易受到竞争条件的影响。

Item 49: Understand the behavior of the new-handler.、

✦ set_new_handler allows you to specify a function to be called when memory allocation requests cannot be satisfied.

✦ Nothrow new is of limited utility, because it applies only to memory allocation; associated constructor calls may still throw exceptions.

如果 operator new 无法分配足够内存，其将抛出异常（老版本将返回 NULL），但在此之前，其将调用一个名为 new-handler 的错误处理函数。标准库中提供了一个 set_new_handler 函数用于设置 new-handler：

1
2
3
4


namespace std{
	typedef void (*new_handler)();
	new_handler set_new_handler(new_handler p) noexcept;
}

如上所示，new_handler 是一个输入参数和返回值均为空的函数指针类型，set_new_handler 接收这样一个指针，并将原处理函数指针返回。范例为：“

1
2
3
4
5
6
7
8
9


void out_of_mem(){
	std::cerr << "Out of Mem\n";
	std::abort();
}

int main(){
	std::set_new_handler(out_of_mem);
	int *p = new int[100000000L]; // if fail, call out_of_mem and then abort
}

当 new 不能分配足够的内存时，其将不停调用 new-handler 直至有足够内存，或者停止。因此，new-handler 函数必须满足以下特性之一：

释放更多的内存空间。
设置另一个 new-handler 函数。
取消当前的 new-hander 函数。这将恢复 new 失败的默认行为，即抛出一个异常。
抛出异常。
不再返回，程序停止运行。

如果我们想为不同的类定制 new-handler，似乎也挺简单的：在每次 new 之前手动替换对应的 new-handler 函数。接下来，我们一起来尝试将这一理念付诸实践。

首先，既然要替换原有的 new-handler 函数，那必须有一个变量在类中记录对应的 new-handler。那自然也要提供一个设置 new-handler 的接口，用于保存原始和替换 new-handler。此外，还需要重载 operator new：

1
2
3
4
5
6
7
8


class Widget{
public:
	static std::new_handler set_new_handler(std::new_hander p) noexcept;
	static void* operator new (std::size_t size);

private:
	static std::new_handler current_handler;
};

需要注意，静态成员变量需要在类的定义外部进行定义和初始化。重载的 new 应该做哪些事情呢？如下：

调用 set_new_handler，将 new-handler 设置为类提供的函数。
调用全局 new 实例化一个对象，如果失败，则应该恢复原始 new-handler 并抛出异常。为了确保其被正确恢复，应该使用资源管理类对 new-handler 进行管理。
如果 new 正常实例化了一个对象，则 new 应该返回对象指针。恢复 new-handler 的工作交由资源管理对象的析构函数负责。

首先来实现一个 RAII 资源管理类：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13


class NewHandlerHolder{
public:
	explicit NewHandlerHolder(std::new_handler nh)
	:handler(nh){};
	~NewHandlerHolder(){
		std::set_new_handler(handler);
	}

private:
	std::new_handler handler;
	NewHandlerHolder(const NewHandlerHolder&);
	NewHandlerHolder& operator=(const NewHandlerHolder&); // 禁止拷贝构造和赋值
};

那么 new 可以重载为：

1
2
3
4


void* operator new (std::size_t size){
	NewHandlerHolder h(std::set_new_handler(current_handler));
	return ::operator new(size);
};

看到这里，不禁感叹，真 TMD 优雅！屏住呼吸，还没结束呢！接下来，我们使用混合模式（Mixin-style），将其改造为模板类。详细来说，通过继承基类，派生类可以得到 set_new_handler 和 operator new 这俩成员，通过模板，则可以确保不同的类继承得到的静态成员是不同的。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24


template <typename T>
class NewHandlerSupport{
public:
	static std::new_handler set_new_handler(std::new_hander p) noexcept;
	static void* operator new (std::size_t size);
private:
	static std::new_handler currentHandler;
};

template <typename T>
std::new_handler NewHandlerSupport<T>::set_new_handler(std::new_hander p) noexcept{
	std::new_handler oldHandler = currentHandler; 
	currentHandler = p; 
	return oldHandler;
}

template<typename T> 
void* NewHandlerSupport<T>::operator new(std::size_t size){ 
	NewHandlerHolder h(std::set_new_handler(currentHandler));
	return ::operator new(size);
}

template<typename T> 
std::new_handler NewHandlerSupport<T>::currentHandler = 0;

有了模板类，我们再实现 Wiget 就简单多了：

1
2
3


class Widget: public NewHandlerSupport<Widget>{
...
};

值得注意的是，在模板类中，我们没有使用到参数类型 T，其存在的作用是为不同的类名，编译器都会创建一次代码副本，将他们的静态成员隔离开来。此外，我们的 Widget 继承了一个使用自己实例化的基类模板，这是合理的，这一技术的名字和它的行为一样古怪：奇异递归模板模式。

Item 50: Understand when it makes sense to replace new and delete.

✦ There are many valid reasons for writing custom versions of new and delete, including improving performance, debugging heap usage er- rors, and collecting heap usage information.

为什么要替换编译器默认版本的 new 和 delete 运算符呢？一般来说，有以下三个理由：

检查使用错误。没有或者多次释放 new 的内存，都会引发错误。如果在 new 和 delete 中维护一张内存申请表，则可以检查出上述问题。又或者，还可以用于防止数据溢出，通过在内存的末尾写入一个签名，在 new 中检查该是否完好，可以判断是否出现了数据溢出写入。
提高效率。编译器自带的实现版本，需要兼容各种程序、各种内存大小的申请的情况，还要考虑内存碎片等等各种情况，通过自定义实现，可以避免这些开销。
收集使用数据。在研发阶段通过收集数据，可以分析出该程序使用动态内存的特点，并针对性进行优化。

接下来举个使用 new 检查内存是否存在溢出写入的例子：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13


static const int signature = 0xDEADBEEF;
typedef unsigned char Byte;

void* operator new(std::size_t size){
	using namespace std;
	size_t real_size = size+2*sizeof(int);
	void *p_mem = malloc(real_size);
	if(!p_mem)
		throw bad_alloc();
	*(static_cast<int*>(pMem)) = signature;
	*(reinterpret_cast<int* >(static_cast<Byte* >(pMem)+realSize-sizeof(int))) = signature;
	return static_cast<Byte*>(pMem) + sizeof(int);
}

上述代码通过在申请的内存块两段放置额外的签名数据，以检测是否存在数据溢出写入的情况。当然，上述代码实际上存在很多问题。一方面，它不符合 cpp 关于 new 的规范，如果内存申请失败，应该循环调用 new-handler；另一方面，它没有考虑内存对齐的情况。

cpp 要求 new 返回的指针要满足内存对齐的要求，我们使用的 malloc 同样也是内存对齐的，但我们返回的偏移了一个 int 大小的指针，其不是对齐的。

内存对齐此类的小但确实重要的问题有很多很多，自定义一个完美的 new 的困难可见一斑。

Item 51: Adhere to convention when writing new and delete.

✦ operator new should contain an infinite loop trying to allocate mem- ory, should call the new-handler if it can’t satisfy a memory request, and should handle requests for zero bytes. Class-specific versions should handle requests for larger blocks than expected.

✦ operator delete should do nothing if passed a pointer that is null. Class-specific versions should handle blocks that are larger than ex- pected.

这一条款将介绍在自定义 new 和 delete 时，需要遵守的几个规则。

首先是与 new 相关的几个要求：

返回正确的值。
当内存不足时，循环调用 new-handle 函数。
正确处理申请大小为 0 的情况。
避免遮蔽正常的 new。此要求将在下一条款讨论。

返回值听上去很简单，如果内存充足，则返回对应指针；否则，抛出异常。但也并非如此一蹴而就，如果内存不足，需要循环调用 new-handle 并再次申请内存，直至 new-handle 函数指针为空，抛出异常 std::bad_alloc。此外，cpp 规范还要求，即便申请了 0 字节大小的空间，也应该返回一个合法的指针。下面这段为代码，演示了一个 new 的行为：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19


void *operator new(std::size_t size){
	using namespace std;
	if(size == 0){
		size = 1;
	}
	while(true){
	attemp to allocate size bytes;
	if(success)
		return pointer to mem;
	}
	new_handler global_handler = set_new_handler(0); // 获取new-handler
	set_new_handler(global_handler);
	if(global_handler){
		(*global_handler)();
	} else {
		throw std::bad::alloc();
	}
	
}

对于 0 字节，可以把它当作申请了一个字节来处理。由于没有获取 new-handler 的函数，因此只能通过手动将其设置为 null 然后再恢复的方法，获取 new-handler 函数指针。对于多线程的环境，可能需要上锁防止竞争。

通常，为某个类重写的 new 都是针对这个类大小的内存进行优化的版本，而不是用于其他类或者该类的派生类。然而，如果在派生类中没有重写 new，new 派生类对象时将调用基类中的 new 函数。为了防止此类问题，可以在先判断 size == sizeof(Base)，若不相等，调用全局 new 函数。

delete 函数就简单多了，唯一要注意的是：delete 要考虑指针为 NULL 的情况。

1
2
3
4
5


void operator delete(void *rawMemory) noexcept{
	if(rawMemory == 0)
		return;
	归还已分配的内存;
}

成员函数的版本也简单，只要像前面的 new 一样，记得校验申请的内存大小是否与基类大小一致即可。

Item 52: Write placement delete if you write placement new.

✦ When you write a placement version of operator new, be sure to write the corresponding placement version of operator delete. If you don’t, your program may experience subtle, intermittent memory leaks. 、

✦ When you declare placement versions of new and delete, be sure not to unintentionally hide the normal versions of those functions.

Widget *pw = new Widget; 这样一句代码会执行两个操作：先调用 operator new 申请对应大小的内存，再调用构造函数进行初始化。如果在构造期间出错了，由于构造没有完成，用户得不到 pw 指针，因此用户无法对初始化失败的内存进行释放。为了防止内存泄露，该操作由编译器负责。

编译器负责释放内存时，其必须知道与申请内存 new 配套的 delete 函数是哪个。对于常见的只接受一个参数 size_t size 的 new 来说，其配套的 delete 也是如此。但是，有一类 new 可以接受不止一个参数，这类 new 我们称之为“placement new”，定位 new。

placement new 狭义上只得是 void* operator new(std::size_t, void *pMemory)，其接受一个额外的指针，表示在其指示的位置构造对象。广义上来说，所有参数列表不止是 size_t size 的 new 都可以被称为 placement new。狭义的含义更常见，通过语境很容易判断 placement new 的含义。

对于 placement new，如果其在构造的过程中出错了，运行时系统负责找到参数类型和数量一致的 placement delete 释放对应内存。如果找不到，则会导致内存泄露。

如果 new 对象的过程一切整成，那么使用 delete 删除时，将会调用非 placement 版本。这就意味着，当自定义 placement new 时，既要提供 placement delete 版本防止构造失败，也要提供默认 delete 版本用于正常销毁。

由于名称遮蔽的存在，如果在类中声明了一个成员 placement new，其将遮蔽默认 new。此外，还遮蔽了全局存在三个版本的 new：

1
2
3


void* operator new(std::size_t);
void* operator new(std::size_t, void*);
void* operator new(std::size_t, const std::nothrow_t);

如果遮蔽之后想让他们仍然可用，记得让配套的 delete 也可用。

Miscellany

这一章是杂项，胜利在望！

Item 53: Pay attention to compiler warnings.

✦ Take compiler warnings seriously, and strive to compile warning- free at the maximum warning level supported by your compilers.

✦ Don’t become dependent on compiler warnings, because different compilers warn about different things. Porting to a new compiler may eliminate warning messages you’ve come to rely on.

大多数情况要，只要编译器没给出 error，程序都能跑起来。但在警告中，程序可能存在致命的错误，例如：

1
2
3
4
5
6
7
8
9


class Base{
public:
	virtual void f() const;
};

class Derived: public Base{
public:
	virtual void f();
};

上述代码本意是在派生类中重新定义激烈函数 f，但遗漏了 const 修饰符，对编译器而言这意味着 Derived::f 遮蔽了 Base::f。

对于此类行为，编译器会给出警告，根据警告，很容易检查出相应的错误。

Item 54: Familiarize yourself with the standard library, including TR1.

历史文件，现实意义尚不明确。跳过本条款。

Item 55: Familiarize yourself with Boost.

不想学了，草草结束，这个坑以后再填！

终章

从 2024-04-17 到 2024-05-28，这本书耗费的时间比想象中多的多得多。anyway，收货还是颇丰的。阅读过程中时不时地会发出感叹：这也太细/优雅/牛逼了，作者很喜欢埋一些伏笔，读到后面恍然大悟，知识都串起来了。

作为第一本 cpp 深入的书籍，不错不错。缺点是对现代 cpp 的涉猎太少了，好在作者还有一本《Effective Mordern cpp》，安排上！

完结，撒花🎉

我的大学四年

Thu, 11 Apr 2024 14:29:00 +0800

前言

时间过得真是快呀，转眼本科就要毕业了，切身体会到了白驹过隙的感觉：人生天地之间，若白驹之过隙，忽然而已。最近刚把博客搭得有点模样，趁着热情还在，写篇博文回顾我的大学四年。

一回想这四年，脑海里就会浮现出千头万绪，但总也厘不清，文章写的还是太少了，以后一定要多写点文章、多反思自己。

入学前

高考一战失利，选择复读。高复是个很纯粹的地方，大家心无旁念，每天就是学习，这样的日子过得很快。复读成绩 385 分，卡在一个很尴尬的位置：正好够到中上 211，但当时铁了心想学计算机，又怕进不了计算机专业。

在犹豫是选个好学校（苏州大学）还是去南邮读计算机时，我妈注意到了杭电。不得不说，杭电真的很会做宣传工作，当了解到杭电计算机评 B+ 和耀眼的 ACM 成绩，我第二天就确定要去杭电读计算机。

从这件事能看出，对于一些至关重要的人生抉择，一旦有了说服自己的理由，我其实不会再去收集信息、考虑其它方案，有一个可行解就足够了。这和我后来确定考研目标院校和临时直博的决策模式是一致的。为什么呢？我倾向于认为我是一个实干派，我更喜欢着手去做而非一直在制定目标和计划。

入学前给自己定的计划是：ACM 拿牌子、毕业进大厂。填志愿前就了解到，杭电就业不错，但保研率太低，建议直接就业。笑死，现在看这两个目标都没达成。没达成一方面是高估了自己的能动性，另一方面，眼界太小了，不知道大学中还有很多性价比更高的项目和竞赛。

大一：利见大人

大一入学，一边在学算法想要加入 ACM 队，一边准备三个社团面试。虽然没能在 ACM 队中留下来，但大半年的刷题显著提升了我的编码能力，熟练掌握的算法也远超过培养计划的要求。

另一边，加入了院学生会，遇到了本科期间的两位贵人之一：韩某。她是我大一进入学生会时的部门负责人，刚进入大学，她提供了很多在大学怎么“卷”的经验：怎么选课、怎么卷绩点、怎么卷奖学金。初入大学，在《金榜题名之后》我可以被归类于直觉依赖型，即缺少宏观规划，继承了来自高中好好学习的习惯，只知道好好上课和学习。不过尽管如此，并不意味着好好学习就一定可以卷好绩点，不同老师之间给分差异很大；奖学金的评定也是如此，奖学金根据综评来，而综评的评价指标远不止绩点。这些经验都来自上一届的学长学姐，尽快获取这些经验，才能赶快适应大学生活，以正确的姿势开始走上卷绩点的路。

韩部长还帮我与另外一位贵人牵上了线：我的创新实践导师，李平。我大学四年取得的所有成果，除了数学建模，都是在他的指导下完成的。即便是数模，队友也是在他的实验室找到的。这是当时申请加入他的创新实践课程的邮件，总结了大一上的履历：

李老师，您好。

<个人信息>。在阅读相关介绍后，对您机器学习相关方向较感兴趣，希望能够成为您小组的学员。

以下为我的个人介绍和相关经历：

大一上绩点为 4.4247。GPA 排名为 35/395，获得二等奖学金。

英语能力优秀，在大一上学期以 580 分通过 CET-4，大一上英语精读课程满绩，高考英语成绩为 104/120。

数学能力较为优秀。大一上学期，高等数学、线性代数的期中、期末卷面成绩均不低于 90 分。

编程能力扎实。自大一加入校 ACM 集训队，每天坚持写代码，目前总行数超过 2w3 且掌握了一些常用算法。

具备时间管理能力。大一上学期除去课内学习之外，还有院学生会的日常工作、ACM 集训队的训练和准备一些其它竞赛的任务。这些事情很好地锻炼了我的时间管理能力。

具有一定的学习能力。高考后的暑假和大一的第一个月，自学 C 语言和算法，成功通过 ACM 新生选拔赛并进入集训队。大一寒假，通过 5 天时间学习数学建模，参加美国大学生数学建模竞赛与交叉学科建模竞赛，几乎独自完成解决方案的提出、实现和论文的写作，并获得 H 奖。

我衷心希望能够加入您的小组，不知是否符合您的要求？

祝您生活愉快！

创新实践第一节见面课，李老师在课上给我们介绍接下来两年的计划：新苗、大创、挑战杯、计设、服务外包等等，有条不紊。我当时就觉得：这个老师跟对了！

大一这一年，我白天很少待在宿舍。学生会 + ACM + 满课基本上填满了我的时间，当然天道还是酬勤的，换来了代码能力和学生会的社交圈子。

大二：终日乾乾

大二是我最意气风发的一年，大多数成果都是在这一年产出的：新苗、数模、省奖、服务外包、学生会部长。

大二是真的忙呀，课表几乎满课，学生会部门的事务，还参加了数个竞赛。现在我已经回忆不起来当时的想法，但我应该没觉得喘不过气，毕竟这些都是我喜欢的活，并且每一件事的结果甚至都挺好。我一直都觉得自己潜力是无限的，但我真的需要一个客观条件来 push 我。我对很多事情都感兴趣，尤其是计算机，在钻研的过程中我可以感受到快乐和成就感，但这并不意味着他们就能直接吸引我去做，我还是更容易被一些其它简单的快乐引导。

大二这一年，基本上都是在和两位朋友一起共事。

一位是世另我（他的博客：Albresky’s Blog），来自同一个地区、同一所高中，在一次选修课上组队到一起才发现是老乡，更神奇的是两个人都有点极客风，小时候喜欢刷机、喜欢折腾，都对计算机充满了兴趣。大一下认识后迅速成为了好友，也撺掇他一起报了创新实践。后来我又跳到他的小组，一起做了三年项目和比赛。两个人真是太像了，互相都能迅速理解对方的意思并且预判对方的想法。

另一位是常年霸榜 GPA 第一的一位女生，是在创新实践课上认识的。“君子终日乾乾，夕惕若厉，无咎。”用来形容她再合适不过了，四年如一日地卷，没有懈怠。后面也跟她一起共事，也一起组队（还有另外一位室友）打了数模，发现她的聪明来自她的细心和踏实，她负责的事情总是面面俱到，能考虑到许多细节问题。这值得我和世另我学习，我们的聪明相比她更像是一种小聪明，或者说是机灵。她的眼界也比我俩更开阔一点。

和他俩共事真的很舒服，一位能迅速了解你的想法并跟你一起付诸实践，另外一位可以给你俩殿后，耐着性子一点点审查出你们想法的漏洞。笑死，有这样的团队我只怕导师不够 push。

大三：亢龙有悔

一旦失去了来自外部的 push，我就很容易产生惰性。大三上的半年即是如此，离开了学生会、大部分竞赛和项目都落下帷幕，再加上大三上几乎没课，让我空出了大量自由时间。如果理智一点，这段时间应该去实习或者学习一些技术，但让当时我的自主决定（甚至根本没有“决定”这个过程），那就是在宿舍玩王者。

到了大三下，没有实习、没学工程技术，手上有一些竞赛和项目，便自然而然走上了考研的道路。确定目标院校的过程和确定高考志愿的过程如出一辙：在知乎上看到了科软的帖子，很快就定下我要考科软。这次他吸引我的 30+ 的平均年薪 + 无导师的两年实习 +985 的 titile（当时还不了解 C9 华五），完美契合了本科入学前想进大厂的夙愿。

对于考研的回忆放到大四再说。从结果来看大三虚度的半年无伤大雅，选择科软亦是一个正确决定，大家都说一切都是最好的安排。但我觉得，幸运女神不会永远站在我这边，将命运交给运气太不安了，尤其是这件事原本可以掌握在你自己手里。仓促做出重大决定的这个习惯需要改掉，对于重大决定需要多多多收集信息。

大四：或跃在渊

大四最重要的一件事：我中了，顺利上岸中科大！上岸的喜悦难以言表，查到分的那一刻甚至激动地喊了出来，对于情绪很少形于色的我来说确实激动到了极点。

不过，备考时期的我会觉得这是一件水到渠成的事情：我一直认为我的高考被江苏的 08 方案桎楛住了，考研考得四门都是我喜欢、我擅长的科目，我不上岸谁上岸？

备考过程倒是并不枯燥，我还挺享受的，毕竟回到了熟悉的学习 - 刷题 - 做卷子的模式。

考完我很害怕失败，我担心被评价为自大：有一种不祥的预感，我又一次败在了我的数学手上。实际上我也不是那么擅长数学。现在看来这是不必要的，即便是估分的下界也能进入复试。

查到的成绩比我估分的上限还高，这说明了另一个问题：我倾向于放大事件中的不确定因素，并倾向于认为这些不利的随机因素总是会发生的，我必须考虑最坏情况。这里我不觉得自己估分偏低是出于谦虚或者不自信，估分过程中能拿分的我都毫不犹豫给分，估分偏低是由于很多答案忘记而产生的不确定因素。事实上我现在也不觉得自己是个谦虚的人。

上岸后学习技术、想进大厂的欲望无比强烈，每天都来图书馆，一坐一整天，高效学习。最近在搭博客、写文章、学技术、做 Labs，非常充实。一方面，刚上岸之后激情还在；另一方面，查分之前突击学习了一周 Java 开发，真正接触到工程开发之后，这么趁手的工具满足了我对项目开发的一切幻想，成功激起了我学习的兴趣。

另外，大四上还发生了一件小插曲：我差点本校直博了。辅导员发通知的第二天，我决定直博；直博答辩的当天，一位导师联系了我；第二天确定他为博导；当天被学长劝退，辗转反侧；第三天和 GPA 第一个那个朋友交流，更加动摇；第四天和李平交流，放弃直博。

决定直博的过程又反应出我在做出人生关键决定时的仓促和草率，但这次我终于开始收集信息，怀疑这个决定的正确性，也要感谢那位劝退我的学长，他带着我找遍了实验室的其他人交流，让我产生了动摇的想法。

总结

一路走来，很不容易。回顾了这四年，在即将盖棺定论的时刻，我也可以毫不心虚地说：我充实地度过了我的大学四年，这四年我没有荒废。

基于Webhook实现hugo博客自动构建部署

Wed, 10 Apr 2024 10:35:00 +0800

博客发布流程

我的博文发布工作流可以参考这篇文章博客搭建日志 > 博客发布工作流，其中最后两个步骤还需要手动完成，即登录服务器从 repo 中拉取，然后使用 hugo 命令构建。

询问 GPT 后得知，Github 提供了 Webhook 服务，配合服务器上的 Webhook 监听器，可以实现每当我向 repo 推送时，都在服务器上自动拉取并构建博客。

步骤

前置条件

首先需要创建一个 repo 项目保存博客相关文件，并把服务器的公钥添加到 Github 账户的 SSH 密钥中。这一过程可以参考：博客搭建日志。

在服务器上设置 Webhook 监听器

在服务器上需要设置一个监听器监听来自 Github 的 push 事件，可以自己用 Flask 写一个，或者直接用现成的 webhook 工具：

1

sudo apt install webhook -y

创建一个 webhook 文件配置文件 hooks.json：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27


[
  {
    "id": "redeploy-blog",
    "execute-command": "/path/to/your/script.sh",
    "command-working-directory": "/path/to/your/hugo/blog",
    "pass-arguments-to-command": [
      {
        "source": "payload",
        "name": "head_commit.id"
      }
    ],
    "trigger-rule": {
      "and": [
        {
          "match": {
            "type": "payload-hash-sha1",
            "secret": ，"your_webhook_secret",
            "parameter": {
              "source": "header",
              "name": "X-Hub-Signature"
            }
          }
        }
      ]
    }
  }
]

hooks.json 配置文件中，execute-command 指示监听到指定内容后需要执行的脚本，command-working-directory 指示了脚本的工作目录，可以设置为博客部署的目录。此外，还有一个 secret 字段需要修改为自定义内容，该字段用于验证报文是否来自 Github 发送。

然后创建待执行的脚本 script.sh，主要内容是进入指定目录、拉取最新更改、切换到 main 分支、执行构建命令：

1
2
3
4
5


#!/bin/bash
# cd path/to/blog
git pull --all
git switch main
hugo

为 script.sh 添加可执行权限：

1

chmod +x /path/to/your/script.sh

开放服务器指定端口（默认 9000），运行 webhook：

1

webhook -hooks hooks.json -verbose --port 9000

在打印出的状态消息中，可以看到 webhook 正在监听的 url，后面需要填写到 Github 中。

设置仓库 Webhook

在你的 Github 对应的 repo 中：

转到 “Settings” > “Webhooks” > “Add webhook”
在 Payload url 中填写服务器 webhook 监听的路径，注意将其中的 {commits} 替换为自定义内容；Content type 选择 application/json；Secret 填写与 hooks.json 一致的内容
添加完成后 Github 会向服务器发送一条 ping 消息，可以在服务器端和 Github Webhook 页面查看接受状态。如果接受失败，请检查：是否开放了服务器指定端口、url 直接使用浏览器访问服务器是否能接收到 get 请求、url 中若为 https 协议需要先配置反向代理。

使用 systemd 管理 webhook

首先在服务器上创建 systemd 文件：

1

sudo vim /etc/systemd/system/webhook.service

然后粘贴以下内容，注意修改命令中的端口号：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12


[Unit]
Description=GitHub Webhook
After=network.target

[Service]
User=your_username
WorkingDirectory=/path/to/your/hugo/blog
ExecStart=/usr/bin/webhook -hooks /path/to/your/hooks.json -verbose --port xxxx
Restart=always

[Install]
WantedBy=multi-user.target

替换 your_username 为运行 webhook 的用户，/path/to/your/hugo/blog 和 /path/to/your/hooks.json 为实际的路径。

启用服务以确保它在每次启动时自动运行，并立即启动服务：

1
2


sudo systemctl enable webhook.service
sudo systemctl start webhook.service

可以使用以下命令检查服务状态：

1

sudo systemctl status webhook.service

博客搭建日志

Tue, 02 Apr 2024 14:07:00 +0800

博客发布工作流

本文介绍笔者在阿里云服务器上搭建个人博客的过程，目前我发布博客的工作流为：

obsidian 编辑博客内容
obsidian-linter 插件对内容进行格式化
obsidian-github-publisher 插件对文档进行转换，并通过 PR 的形式合并到我的repo 中
在服务器上通过 Git 拉取内容
使用 Hugo 生成静态网页，并使用其自带 server 进行部署

本文重点介绍后两个步骤，即如何搭建一个基于 Hugo 的博客，以及自定义配置过程。

搭建过程

安装 Hugo

安装比较简单，参考安装 | Hugo官方文档，需要注意的是不要使用 apt 安装，版本过低导致很多命令和主题不兼容。建议使用 snap 包管理器安装。

新建项目

使用 hugo new site --format yaml 创建一个名为的网站，Hugo 会新建一个同名文件夹并初始化目录结构，基本结构包含以下目录：

archetypes：存放 md 内容的模板文件
assets：存放将通过 Hugo 的 Pipes 功能进行处理的文件，如 SCSS 或 JavaScript 文件
content：存放网站内容文件，即每篇博文的 md 文件
data：存放一些配置文件
layouts：存放网站页面的模板文件
static：存放静态文件，例如图片等，这些文件在构建时会被复制到 public 目录中
i18n：存放翻译文件
themes：存放主题

应用主题

以 hugo-PaperMod 主题为例，这里使用 Git 子模块的方式进行安装，更多安装方式见：Install / Update PaperMod | PaperMod

1
2
3
4


cd 
git init
git submodule add --depth=1 https://github.com/adityatelange/hugo-PaperMod.git themes/PaperMod
git submodule update --init --recursive # needed when you reclone your repo (submodules may not get cloned automatically)

修改配置文件 hugo.yaml，添加/修改 themes 字段为：

1

theme: ["PaperMod"]

构建部署

运行如下命令，将替换为公网 ip 或者域名或者 127.0.0.1（仅能在本机访问）：

1

hugo server --bind="0.0.0.0" --baseURL="http://"

然后打开 http://:1313 就能看到博客了！🎉

自定义配置

添加 Archive

Archive 即博客中的归档、时间线功能，用于按照时间对博文分类管理。
在 /content/ 目录下新建 archive.md，并添加以下模板内容：

1
2
3
4
5
6


---
title: "Archive"
layout: "archives"
# url: "/archives"
summary: "archives"
---

修改网站配置文件，添加一个归档的菜单，即可通过点击菜单栏上归档按钮进入时间线：

1
2
3
4
5
6


menu:
  main:
    - name: 📦归档
      url: /archive
      weight: 3 # 自定义权重，菜单按照权重从小到大的顺序排列
defaultContentLanguage: zh  # 修改默认语言为中文，在归档界面展示中文

注意，归档中只会对具有 date 字段的博文进行归档，如果归档页面为空，请检查该字段；如果看不到博文标题，请检查是否配置了 title 字段。

添加搜索

搜索也是 PaperMod 官方支持的模块，支持对博文内容、标题、关键字等进行索引。
在 /content/ 目录下新建 search.md，并添加以下模板内容：

1
2
3
4
5
6
7
8


---
title: "Search" # in any language you want
layout: "search" # necessary for search
# url: "/archive"
# description: "Description for Search"
summary: "search"
placeholder: "支持搜索标题、博文、Tags等"
---

模板中的 placeholder 字段为搜索框的默认展示内容，可以自定义修改。

修改网站配置文件，添加启用搜索所需的配置信息和搜索的菜单按钮：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13


# 启用搜索所需的信息
outputs:
  home:
    - HTML
    - RSS
    - JSON # necessary for search

# 搜索的菜单按钮
menu:
  main:
    - name: 🔍搜索
      url: /search
      weight: 1

添加 Tags

Tags 属于 PaperMod 已经默认实现的一个页面，只要在菜单中添加一个指向 /tags 的按钮即可：

1
2
3
4
5


menu:
  main:
    - name: 🏷️标签
      url: /tags
      weight: 2

访问量统计

使用不蒜子 - 极简网页计数器对博客和文章访问量进行统计。
首先在 /layouts/partials/extend_head.html 文件中添加以下内容：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10



{{- if .Site.Params.busuanzi.enable -}}
<script async src="//busuanzi.ibruce.info/busuanzi/2.3/busuanzi.pure.mini.js">script>
<meta name="referrer" content="no-referrer-when-downgrade">
<style>
    :root {
        --footer-height: 80px
    }
style>
{{- end -}}

extend_head.html 中的内容会被包含在中，因此我们可以在这个文件中引入不蒜子需要的 js 文件。此外，我们还定义（实际上是覆盖）了一个 PaperMod 主题中知识页脚高度的变量，以防止由于多行页脚导致内容溢出一屏。

然后打开配置文件 /hugo.yaml，增加以下字段以启用计数模块：

1
2
3
4


params:
	busuanzi:
	    enable: true
	hideFooter: true  # 禁用默认页脚

由于 PaperMod 主题默认的页脚样式对于多行页脚支持不完善，因此上述配置还禁用了主题默认的页脚模块。我们将在 /layouts/partials/extend_footer.html 重写页脚，即向其中添加以下内容：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21


{{- if not (.Param "hideCustumFooter") }}
<footer class="footer">
  {{- if site.Copyright }}
  <span>{{ site.Copyright | markdownify }}span>
  {{- else }}
  <span>© {{ now.Year }} <a href="{{ "" | absLangURL }}">{{ site.Title }}a>span>
  {{- end }}
  <span>
    Powered by
    <a href="https://gohugo.io/" rel="noopener noreferrer" target="_blank">Hugoa> &
    <a href="https://github.com/adityatelange/hugo-PaperMod/" rel="noopener" target="_blank">PaperModa>
  span>
  {{ if .Site.Params.busuanzi.enable -}}
  <div>
  <span id="busuanzi_container_site_pv">
    本站总访问量<span id="busuanzi_value_site_pv">span>次
  span>
div>
  {{- end -}}
footer>
{{- end }}

接下来添加单篇文章的阅读量。PaperMod 主题中文章都是基于 single.html 这个文件渲染的，因此我们接下来要修改该文件。为了防止对主题文件破坏，我们将 /themes/PaperMod/layouts/_default/single.html 拷贝到 /layouts/_default/single.html，并在此文件进行修改（用户目录的文件优先级高于主题目录）。

找到

，这个 div 包含了一篇文章所有的 meta 数据，在其中添加一个表示阅读量 div 即可，即修改后的代码为：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11


<div class="post-meta">
      {{- partial "post_meta.html" . -}}
      {{- partial "translation_list.html" . -}}
      {{- partial "edit_post.html" . -}}
      {{- partial "post_canonical.html" . -}}
      {{ if .Site.Params.busuanzi.enable -}}
      <div class="meta-item">&nbsp·&nbsp
        阅读量 <span id="busuanzi_value_page_pv">
      div>
      {{- end }}
    div>

之后就可以在文章页面看到文章阅读量了。

参考文档

Blog更新日志

Tue, 02 Apr 2024 12:26:00 +0800

2024-07-08

实现侧边目录
TOP 按钮增加阅读进度展示

2024-06-20

引入谷歌分析

2024-06-07

完善公式渲染

2024-04-19

修改代码块样式
引入 giscus 评论系统

2024-04-12

修改 dir 和 slug 为英文

2024-04-08

IPC 备案完毕，启用域名 zhouxin.space
添加全站访问量统计和博文阅读量统计
修改 404 页面
配置 https
使用 nginx 反向代理

2024-04-03

本站上线

基于 Hugo 构建和 PaperMod 主题
实现菜单中的搜索、标签和归档
图片资源保存在阿里云 OSS
修改字体为霞鹜文楷

创建基于阿里云OSS的图床

Mon, 01 Apr 2024 23:10:00 +0800

概述

最近在研究怎么使用 hugo 发布 obsidian 文档，对于图片和其他等附件的保存位置，有两种方案：直接保存到博客服务器或者保存到图床。考虑到服务器只买了 30GB 的硬盘，直接放服务器上可能会爆容量，还是选择基于阿里云的 OSS 服务搭建图床，也保留了以后使用阿里云 CDN 服务加速访问的可能性。
本文参考整合了网络上多篇博客教程 ¹。

图床搭建

图床搭建主要由三部分组成：购买阿里云 OSS 空间，创建存储空间 Bucket，绑定域名（可选），配置安全策略，配置图床插件。
图床的费用由两部分构成：存储费用（40GB 9 元/年）和流量费用（0.5 元/GB)，正常情况下流量费用可以忽略不计。

购买 OSS 空间和创建 Bucket

在阿里云官网搜索 OSS 即可找到购买页面，按照如下配置购买即可：

购买完成后，在 OSS 管理页面可以创建 Bucket，按照如下配置进行设置：

绑定域名

#todo

数据安全 - 防盗链

为了防止图床图片被第三方引用导致异常的流量费用，可以使用 OSS 提供的防盗链功能仅对白名单 Referer 内的请求响应，设置路径在 Bucket控制台-数据安全-防盗链，在白名单中保留允许访问的域名如：*.aliyun.com、blog.example.com。
是否允许空 Referer 访问仁者见仁，如果禁止将导致在 obsidian、typora 等软件中无法正常加载 OSS 上的图片。

配置图床插件

首先在阿里云中为 PicGo 创建一个子用户，并授予其对 OSS 的完全管理权限。
创建子用户：在阿里云中找到 RAM访问控制-身份管理-用户-创建用户，登录名称任意，勾选允许 OpenAPI 调用访问，创建完成后会得到一组 AccessKey ID 和 AccessKey Secret，需要保管好，后续会用到。
然后在用户管理界面，为刚刚创建的用户添加权限 AliyunOSSFullAccess。

子账户配置完成后，在终端使用命令 winget install picgo 安装图床软件 PicGo，或者前往 PicGo is Here | PicGo 下载。在 PicGo-图床设置-阿里云OOS 配置相应参数：
设定 KeyId：子用户的 AccessKey ID
设定 KeySecret：子用户对应的 AccessKey Secre
设定 Bucket：之前创建的 Bucket 名称

参考文档

02.Hugo中使用阿里云OSS作为图床 - 知乎 ↩︎

安装并切换指定gcc或者g++版本

Mon, 01 Apr 2024 10:58:00 +0800

知其然

注意： 该方式将从 PPA 下载 gcc/g++，国内访问很慢，建议参考《为apt配置代理》这篇文章，配置好 apt 的代理。
以安装 g++ 13 版本（不支持指定小版本号）为例，以下给出用到的命令 ¹：

1
2
3
4
5
6


sudo apt update
sudo apt install software-properties-common -y
sudo add-apt-repository ppa:ubuntu-toolchain-r/test -y && sudo apt update
sudo apt install gcc-13 g++-13 -y
sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-13 13 --slave /usr/bin/g++ g++ /usr/bin/g++-13
sudo update-alternatives --config gcc

注意，上面第四条指令中的 gcc/g++ 后面的版本号需要根据自己的需要修改。以后一条指令用于可视化调整 gcc 各个版本的优先级。

知其所以然

上述过程可以理解为：

添加 PPA 源
安装指定版本的 gcc
使用 update-alternatives 工具调整优先级，使得 gcc 默认指向 gcc-13

PPA 源

PPA 指的是 Personal Package Archive，即个人软件包存档，其是相对官方仓库的一个概念。Ubuntu 提供了一个官方软件仓库以及该仓库的镜像仓库，该仓库会进行兼容性检查，因此更新较慢 ²。
为此，引入了 PPA，即让开发人员自己搭建的非官方软件仓库，以此获取最新的软件版本。
在这里，为了安装 gcc 13，我们使用 add-apt-repository 命令添加 ppa 仓库 ppa:ubuntu-toolchain-r/test。在此之前我们还安装了 software-properties-common 工具，以确保正确使用 add-apt-repository 命令。

安装 gcc

添加 PPA 仓库之后，就可以使用 apt 命令正常安装 gcc，这里我们使用 gcc-13 来指定版本号。注意，只能指定大版本号，该方式不支持指定小版本号。

update-alternatives 调整优先级

update-alternatives 是 Ubuntu 提供的一个维护符号链接的工具，其通过更新符号链接来实现程序在多个版本之间的切换。其使用“替代方案”这一概念，一个替代方案指的是一组可以相互替代的命令，例如 gcc-10 和 gcc-12 就是 gcc 的替代方案。添加替代方案的命令为：

1

update-alternatives --install

link 指的是将被创建或者更新的符号链接的地址，例如 /usr/bin/gcc；
name 指的是替代方案的标识名称，例如 gcc；
path 指的是符号链接指向的在替代方案中希望使用的具体程序版本或者实现，例如 /usr/bin/gcc-12；
prioritity 指的是该 path 在方案中的优先级，是整数，优先级越高数字越大，在本例中我们根据 gcc 版本号给定相应的优先级。

你可能注意到了，我们实际使用的命令是 sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-13 13 --slave /usr/bin/g++ g++ /usr/bin/g++-13，后半部分还有一个参数 --slave /usr/bin/g++ g++ /usr/bin/g++-13，这个命令的作用是为主方案添加多个从属方案，即当我们切换 gcc 时，自动切换相对应的从属方案 g++，其语法是：

1

update-alternatives  --install     [--slave   ] ...

在从属方案中，优先级与主方案一致，不需要指定优先级。

在为一个替代方案提供了多个候选项的情况下，可以使用 sudo update-alternatives --config 命令，通过交互界面选择方案。

参考文档

为apt配置代理

Mon, 01 Apr 2024 10:50:00 +0800

一般来说，apt 通过换源即可获得不错的体验，但有的时候不得不加入一些没被镜像的国外源例如 PPA，因此不得不琢磨怎么在 apt 中配置代理。
apt 不会从环境变量获取代理配置，需要手动其配置文件 /etc/apt/apt.conf 中添加：

1
2
3


# 配置格式
Acquire::http::Proxy "http://USERNAME:PASSWORD@SERVER:PORT";
Acquire::https::Proxy "https://USERNAME:PASSWORD@SERVER:PORT";

例如，对于不需要认证的代理，在 /etc/apt/apt.conf 添加以下内容：

1
2


Acquire::http::Proxy "http://127.0.0.1:7890";
Acquire::https::Proxy "http://127.0.0.1:7890";  

参考文档

Configure proxy for APT? - Ask Ubuntu

搭建ZeroTier MOON服务器

Sun, 31 Mar 2024 11:40:00 +0800

资源存档

原文链接：ZeroTier-One搭建moon节点 | 一水轩
ZeroTier 官网：ZeroTier Central

搭建过程

在服务器上安装并配置 ZeroTier

安装 ZeroTier

1
2
3
4
5
6
7
8


curl -s https://install.zerotier.com | sudo bash

sudo systemctl start zerotier-one.service

sudo systemctl enable zerotier-one.service


sudo zerotier-cli join  # 此处填写你的网络的network ID

在控制台勾选服务器

前往对应网络控制台 ZeroTier Central，允许刚刚添加的设备。

搭建 MOON 服务器

开放端口

MOON 默认使用 UDP 9993 端口，故需要在服务器控制台开放对应入站策略。

生成 `moon.json` 文件

1
2


cd /var/lib/zerotier-one/
sudo zerotier-idtool initmoon identity.public > moon.json

使用 vim 等文本编辑工具修改刚刚生成的 moon.json 中 "stableEndpoints" 的值为服务器的公网 IPv4 地址：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14


{
 "id": "xxxxx", # 这个值后面用于其它设备配置moon
 "objtype": "world",
 "roots": [
  {
   "identity": "xxxx:0:eeee",
   "stableEndpoints": ["/9993"] # 修改这里替换为公网地址
  }
 ],
 "signingKey": "asdfasdfasdf",
 "signingKey_SECRET": "asdfasdfasdfasd",
 "updatesMustBeSignedBy": "asdfasdfasdf",
 "worldType": "moon"
}

注意，该文件的 id 字段唯一标识了这台设备，该 id 用于其它结点配置 moon。

生成签名文件

1

zerotier-idtool genmoon moon.json

该命令会生成一个 .moon 文件，通过这个文件，可以把 moon 节点加入网络。

将 moon 节点加入网络

1
2
3


mkdir moons.d
mv *.moon moons.d/
sudo systemctl restart zerotier-one

其它设备配置

在需要使用 MOON 的设备上安装了 ZeroTier 并加入网络后，还需要手动配置 MOON 节点：

1

sudo zerotier-cli orbit    # 或者在windows上需要管理员权限

其中 id 是 MOON 服务器的节点 id，可在 [[#生成moon.json文件]] 这一步生成的 json 中看见，或者在 ZeroTier 网络控制台也可以找到该设备的 id。

CS144 Lab 实验笔记

Sat, 30 Mar 2024 19:33:00 +0800

资源存档

本次实验使用的课程代码版本为 CS144 Winter 2024，鉴于 CS144 官方要求禁止公开代码以防止抄袭，我将我的题解和原始代码存档放在了 Gitee 上（外国学生应该不知道这个平台吧），有需要可自取：CS144: CSS144 Winter 2024 Labs.。另外，我还托管了课程主页的镜像，各个资源链接如下：

名称	链接	备注
原始代码和题解	CS144: CSS144 Winter 2024 Labs.	原始代码在 archive 分支，题解在 main 分支
课程主页镜像	CS 144: Introduction to Computer Networking
虚拟机镜像和配置过程	Setting up your CS144 VM using VirtualBox	百度云链接：https://pan.baidu.com/s/1s7xWKn5ccph64--rdJOz6g?pwd=ozb0

虚拟机镜像

CS144 官网给出了 Virtual Box 镜像及相应配置过程：Setting up your CS144 VM using VirtualBox。

Lab 0

环境配置

我使用的是 Ubuntu 22.04 @ WSL2，原文档给出了一个环境配置命令：

1

sudo apt update && sudo apt install git cmake gdb build-essential clang clang-tidy clang-format gcc-doc pkg-config glibc-doc tcpdump tshark

文档中提到测试环境是 Ubuntu 23.10 LTS+g++ 13.2，而上述命令并不能安装对应版本的 gcc，可以参考这篇文章安装最新的 g++：安装并切换指定gcc或者g++版本，在 Ubuntu 22 上最新只能安装 13.1 版本的 g++。后续实验均在此基础上进行。

现代 C++

实验要求使用现代 C++ 风格进行编程，基本理念是：每个对象都只设计尽可能少的公共接口、内部存在各种安全检查、使用结束后应该正确回收垃圾，避免使用成对的关键字（例如 new 和 delete）。相反，通过构造函数和析构函数来获取和释放资源，即基于“资源获取即初始化”RAII 理念。

具体来说，对于编码风格有以下要求：

在编码过程中参考文档 cppreference.com
不要使用 malloc、free、new 或者 delete 关键字
不要使用原始指针，使用智能指针
不要使用模板、线程、锁或者虚函数
不要使用 C 风格字符串 char* 或者相关函数 strlen() 等
不要使用 C 风格类型转换，使用 C++ 的 static_cast 进行转换
函数形参尽可能使用 const 关键字
变量和函数都尽可能使用 const 关键字修饰
避免使用全局变量，每个变量的作用域都应该尽可能小
在提交前，使用 cmake --build build --target tidy 获取关于代码风格修改的建议，使用 cmake --build build --target format 对代码进行格式化。

Writing webget

忽略前面通过 telnet 刚问网页和发送邮件的内容，第一个编码任务是完成 Webget，使之能够获取网页。这个任务比较简单，涉及到一点网络编程的知识。
整个任务的流程是：根据形参获取初始化主机地址，建立与该主机的 TCP 连接，发送 HTTP 请求报文（包含形参中的资源路径），打印响应报文，关闭 TCP 连接。
实现的代码为：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16


void get_URL( const string& host, const string& path )
{
  Address addr = Address(host, "http");
  TCPSocket sock = TCPSocket();
  sock.connect(addr);
  string message = "GET " + path +" HTTP/1.1\r\n" + "Host: "+host + "\r\n" +"Connection: close\r\n\r\n";
  sock.write(message);
  while(!sock.eof()){
    string response;
    sock.read(response);
    cout << response;
  }
  sock.close();
  cerr << "Function called: get_URL(" << host << ", " << path << ")\n";
  cerr << "Warning: get_URL() has not been implemented yet.\n";
}

An in-memory reliable byte stream

第二个任务是实现可靠的内存字节流，有以下几个要求：

输出端和输入端数据顺序一致，以 EOF 结尾
流量控制，即该字节流存在一个容量上限
容量上限指的是字节流中存在的数据的上限，而非发送者发送的字节流的上限。显然，我在实现时直接截断了超过剩余容量的输入
单线程使用，不需要考虑并发读写

任务要求实现如下接口：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21


class Writer : public ByteStream
{
public:
  void push( std::string data ); // Push data to stream, but only as much as available capacity allows.
  void close();                  // Signal that the stream has reached its ending. Nothing more will be written.

  bool is_closed() const;              // Has the stream been closed?
  uint64_t available_capacity() const; // How many bytes can be pushed to the stream right now?
  uint64_t bytes_pushed() const;       // Total number of bytes cumulatively pushed to the stream
};

class Reader : public ByteStream
{
public:
  std::string_view peek() const; // Peek at the next bytes in the buffer
  void pop( uint64_t len );      // Remove `len` bytes from the buffer

  bool is_finished() const;        // Is the stream finished (closed and fully popped)?
  uint64_t bytes_buffered() const; // Number of bytes currently buffered (pushed and not popped)
  uint64_t bytes_popped() const;   // Total number of bytes cumulatively popped from stream
};

为了记录累计读写量、维护剩余容量和端口是否关闭，在 ByteStream 添加了如下成员变量（别忘了在构造函数中初始化）：

1
2
3
4
5


  std::queue<char> buffer_; // 缓冲区
  uint64_t amount_; // 剩余容量
  uint64_t total_pushed_; // 总写入量
  uint64_t total_poped_; // 总读取量
  bool close_; // 端口状态

具体实现比较简单，维护一个队列 vector 进行读写操作。在 Writer::push 的实现中，如果待写入数据超过了缓冲区剩余容量，则直接截断即可。指的注意的是 pop 采用了一种“lazy pop”的机制，即每次 pop 一个字节时，不要直接删除队头字符串的第一个字符，而是使用一个变量记录对头字符串还剩多少字节没有被 pop。

byte_stream.cc 的实现如下：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94


#include "byte_stream.hh"
#include "iostream"
using namespace std;

ByteStream::ByteStream( uint64_t capacity ) :
  capacity_( capacity ), buffer_(), amount_(0), total_pushed_(0),
  total_poped_(0), first_string_left_size(0), close_( false ), error_( false )  {}

bool Writer::is_closed() const
{
  // Your code here.
  return close_;
}

void Writer::push( string data )
{
  // Your code here.
  uint64_t free_capacity = available_capacity();
  uint64_t to_push_size = min(free_capacity, data.size());
  if(to_push_size == 0)  return;
  data.resize(to_push_size);
  buffer_.emplace(std::move(data));
  if(buffer_.size() == 1)
    first_string_left_size = to_push_size;
  total_pushed_ += to_push_size;
  amount_ += to_push_size;
  return;
}

void Writer::close()
{
  // Your code here.
    close_ = true;
}

uint64_t Writer::available_capacity() const
{
  // Your code here.
  return capacity_ - amount_;
}

uint64_t Writer::bytes_pushed() const
{
  // Your code here.
  return total_pushed_;
}

bool Reader::is_finished() const
{
  // Your code here.
  return amount_ == 0 && close_;
}

uint64_t Reader::bytes_popped() const
{
  // Your code here.
  return total_poped_;
}

string_view Reader::peek() const
{
  // Your code here.
  if(amount_ == 0 || buffer_.empty()){
    return string_view{};
  }
  const string& front = buffer_.front();
//  return string_view(front.data()+front.size()-first_string_left_size,1);
//  return string_view(&front[front.size()-first_string_left_size]);
  return string_view(front).substr(front.size()-first_string_left_size);
}


void Reader::pop( uint64_t len )
{
  // Your code here.
  total_poped_ += len;
  amount_ -= len;
  while(len){
    if(len >= first_string_left_size){
      len -= first_string_left_size;
      buffer_.pop();
      first_string_left_size = buffer_.front().size();
    } else{
      first_string_left_size -= len;
      len = 0;
    }
  }
}

uint64_t Reader::bytes_buffered() const
{
  // Your code here.
  return amount_;
}

最终吞吐量最高跑到了 34 Gbit/s。

Lab 1

Putting substrings in sequence

这个模块要求实现一个 TCP 包重组模块，我感觉就是实现计网中 GBN 算法中的接受窗口，缓存收到的处于接收窗口内的 TCP 包、对其按序重组，并及时写入 Lab 0 中实现的可靠内存字节流中。做下来发现这个任务有以下几个要求：

实现包重组，包括乱序、重复、过期、截断等
该模块缓冲区不得大于内存字节流中的可用缓冲区大小
- 如果包过长，则截断保存

每个包到达时，有三个字段标识数据内容 data、包序号 first_index 和是否为最后一个包 is_last_substring，对于乱序到达的数据报，我们要暂存这些信息，我使用如下一个结构体保存每一个数据报：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16


struct reassembler_item{
  std::string data;
  uint64_t first_index;
  uint64_t last_index; // 左闭右开
  bool is_last;

  bool operator < (const reassembler_item& x) const{
    return first_index < x.first_index;
  }

  reassembler_item(std::string data1, uint64_t first_index1, uint64_t last_index1, bool is_last1)
    : data(std::move(data1)),
    first_index(first_index1),
    last_index(last_index1),
    is_last(is_last1) {}
};

为了方便比较，我引入了一个字段用于表示这个包的数据表示的序号范围，采用左闭右开区间是因为存在一些空串（用来标识数据已经发送结束），其右闭区间为 -1，对于无符号数下溢了。

使用 vector 暂存收到的乱序数据报，并维护保证其始终有序且不存在重复元素。具体来说，在每次插入数据报时，使用 std::lower_bound 二分查找其待插入位置。找到插入位置后，待插入数据报可能向后覆盖了好几个已收到的数据报（例如，新收到的数据范围为 100~200，但是 110~120、190~210 范围的数据报在此之间已经收到并且保存在本模块缓冲区中），因此检查待插入位置后面可能被覆盖的元素，被待插入数据报完全覆盖的数据报直接扔掉，不完全覆盖的数据报则先拼接到待插入的数据报中，然后再扔掉。同样地，待插入数据报也有可能被待插入位置前的数据报覆盖，如果被完全覆盖了，则直接扔掉待插入数据报；如果被不完全覆盖，则拼接到前一个数据报后再扔掉。只有没被覆盖的数据报才需要被单独插入到模块内部暂存区中。
注意，上文所说的覆盖包含无重叠但相邻的情况，即 [1,200) 和 [200,300) 这两个数据包也是可以合并的。这可以保证如果有字符串可以向内存缓冲区写入，则这个字符串一定是且仅是暂存区的第一个数据包。

只有当暂存区新插入数据包时，才需要检查暂存区数据能否写入内存缓冲区。暂存区 insert 方法实现如下：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67


void Reassembler::insert( uint64_t first_index, string data, bool is_last_substring )
{
  // Your code here.
  uint64_t capacity = output_.writer().available_capacity();
  // 可以接受的序号范围为[current_index, current_index+capacity)  左闭右开
  // data中数据的序号范围为[first_index, first_index+data.size())
  // 二者取交集，若为空说明该串过期或者太早到来
  uint64_t left_bound = max(first_index, current_index_);
  uint64_t right_bound = min(current_index_+capacity, first_index+data.size());
  if(right_bound < left_bound) { // 相等为空串，也能接受（可能标志了last_string）
    return; // 对于buffer_没有更新操作，后续不会向缓冲区写入
  }

  reassembler_item item = reassembler_item(
    data.substr( left_bound-first_index, right_bound-left_bound),
    left_bound, right_bound, is_last_substring && right_bound == first_index+data.size());
  pending_size_ += item.data.size(); // 先全部加进去，后面根据覆盖的内容再移除
  auto insert_iter = lower_bound(buffer_.begin(), buffer_.end(), item);
  // 先判断item是否向后覆盖了其它已插入buffer_的数据,如果有则合并
  auto iter = insert_iter;
  while (iter != buffer_.end() && item.last_index >= iter->first_index ){
    if(item.last_index < iter->last_index) { // 只有部分覆盖才要合并，全覆盖直接erase即可
      item.data += iter->data.substr(item.last_index-iter->first_index);
      // 覆盖长度为item_last-iter_first
      pending_size_ -= item.last_index - iter->first_index;
      item.last_index = iter->last_index;
      item.is_last |= iter->is_last;
    }
    else {
      pending_size_ -= iter->data.size();
    }
    iter = buffer_.erase(iter);
  }
  // 再判断前一个数据是否覆盖了item
  // 被前一个覆盖直接在前一个元素中修改，而不需要再插入item了
  if(insert_iter != buffer_.begin()){
    iter = insert_iter - 1;
    if(iter->last_index >= item.first_index){
      if(iter->last_index < item.last_index){ // 非完全覆盖
        iter->data += item.data.substr(iter->last_index-item.first_index);
        pending_size_ -= iter->last_index - item.first_index;
        iter->last_index = item.last_index;
        iter->is_last |= item.is_last;
      } else { // 完全覆盖
        pending_size_ -= item.data.size();
      }
      // 没插入，不需要删除的代码
      // 直接return，不要运行后面插入insert代码
      return;
    }
  }
  // insert item into buffer_
  buffer_.insert(insert_iter, item);
  // 只有插入了新的item，才有可能需要向缓冲区写入
  if(buffer_[0].first_index == current_index_){
    auto& to_write_item = buffer_[0];
    output_.writer().push(to_write_item.data);
    pending_size_ -= to_write_item.data.size();
    current_index_ = to_write_item.last_index;
    if(to_write_item.is_last){
      output_.writer().close();
    }
    buffer_.erase(buffer_.begin());
  }


}

最终重组模块吞吐量最高跑到了 10 Gbit/s。

Lab 2

到此为止，我们已经完成了内存可靠字节流和 TCP 包重组模块，重组模块将收到的 TCP 包进行重组，并及时写入内存字节流。接下来，我们需要写一个 TCP 接收器模块，接收来自 peer 发送方的消息，并回复 ACK 和接收窗口大小。

在此之前，有一个数据格式问题：在前两个模块中，我们使用 uint64 来标记序列号，可是在 TCP 的数据包只有 32 位用于记录序号，并且初始包（SYN）的序号可能是随机的。因此，我们首先要实现一个 32 位 TCP 包序号和 64 位绝对序号互相转换的模块。前者开始序号随机，并不断自增取余；后者固定从 0 开始自增，且我们认为总数据量不可能超过 2^64Byte，即 2^34GB。

Translating between 64-bit indexes and 32-bit seqnos

根据上图定义，不难发现 seqno 和 abs seqno 存在如下对应关系：

$$ seqno = (absSeqno+zeroPoint) % 2^{32} $$

从 64 位转 32 位根据上式转换即可，其中对 2^32 取余是不必要的，因为 32 位数自动截断高 32 位。

从 32 位向 64 位转换，我们需要分开考虑其高低 32 位。首先是低 32 位，低 32 位标识了这个包的是整个序列的第 $absSeq%2^{32}$ 个包。那怎么通过 $seqno$ 计算它是整个序列的第几个包呢？$seqno$ 在自增过程中会不断取余，若不取余，记其为 $seqno’$，那么这个包是整个序列的第 $seqno’-zeroPoint$ 个包，而 $seqno’=seqno+n\times 2^{32}$，即：

$$ absSeq % 2^{32} = (seqno’-zeroPoint)%2^{32} = (seqno+n\times 2^{32} - zeroPoint)%2^{32} = (seqno-zeroPoint + 2^{32}) % 2^{32} $$

上式即为计算绝对序号低 32 位的方法。得到低 32 位后，就要根据 checkPoint 得到高 32 位。显然，为了接近 checkPoint，高 32 位也是越接近越好，因此高 32 位可以为 checkPoint 的高 32 位或者在此基础上±1，然后比较这三个方案哪个更接近 checkPoint 即可。

wrapping_integers.cc 实现为：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41


#include "wrapping_integers.hh"

using namespace std;

Wrap32 Wrap32::wrap( uint64_t n, Wrap32 zero_point )
{
  // Your code here.
  return Wrap32 { Wrap32(n) + zero_point.raw_value_  };
}

uint64_t Wrap32::unwrap( Wrap32 zero_point, uint64_t checkpoint ) const
// 转换为从0开始的绝对编号
{
  // Your code here.
  // checkpoint = 前32位+left
  // 与checkpoint最近的可能有两个数（分布在checkpoint一左一右） 其中一个必定是 前32位+offset
  // 如果offset < left  那么另一个必定比checkpoint大 等于前32位+zero_point+0x1 0000 0000
  // 那么就要看checkpoint 更接近前32位+zero_point 还是前32位+zero_point+0x1 0000 0000
  // 两边同减去前32位和zero_point 就是看 left-point 更接近0 还是0x 1 0000 0000
  uint64_t offset = (raw_value_+0x1'0000'0000-zero_point.raw_value_)%0x1'0000'0000;
  uint32_t left = checkpoint % 0x1'0000'0000;
  uint64_t high32 = checkpoint - left;
//  if( offset == left) {
//    return high32+checkpoint;
//  } else if ( offset < left){
  if(offset < left){
    if(left- offset <= 0x8000'0000) { // 更接近前32位+zero_point
      return high32+ offset;
    } else {
      return high32+ offset +0x1'0000'0000;
    }
  } else {
  // 同上，offset > left 那么另一个一定比check_point 小 等于前32位+zero_point-0x1 0000 0000
  if( high32 == 0 || offset -left <= 0x8000'0000) { // 更接近前32位+zero_point
    return high32+ offset;
  } else {
    return high32+ offset -0x1'0000'0000;
  }
  }

}

Implementing the TCP receiver

接下来我们就可以实现 TCP receiver 了，实验过程中注意区分五个序号的概念，很容易搞混。另有几个关键逻辑值得一提：

如果收到 RST，需要将向内存字节流报告出错（很奇怪为啥 set_eroor 方法是 Reader 而不是 Writer 的）；
收到 SYN 后更新 zero_point 和 ack_；
只有收到 SYN 后才能开始接收数据；
向包重组器发送数据后，根据内存中写入的数据量可以得到第一个待接收的数据的序号，进而更新 ack_；
如果数据全部接收完毕，ack_ 更新时还要额外 +1（FIN 占了一个序号），接收完毕需要根据 writer.is_closed 来判断;

TCP_receiver 实现如下：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31


#include "tcp_receiver.hh"

using namespace std;

void TCPReceiver::receive( TCPSenderMessage message )
{
  // Your code here.
  if(message.RST) {
    reader().set_error();
    return;
  }
  if(message.SYN){
    zero_point_ = Wrap32(message.seqno);
    ack_.emplace(message.seqno);
  }
  if(ack_.has_value()) {
    const uint64_t check_point = writer().bytes_pushed()+1;
    uint64_t first_index
      = Wrap32( message.SYN ? message.seqno + 1 : message.seqno ).unwrap( zero_point_, check_point )-1;
    reassembler_.insert( first_index, std::move(message.payload), message.FIN );
    ack_ = ack_->wrap(writer().bytes_pushed()+1+writer().is_closed() , zero_point_);
  }
}

TCPReceiverMessage TCPReceiver::send() const
{
  // Your code here.
  return {ack_,
           static_cast<uint16_t>(min(reassembler_.writer().available_capacity(), static_cast<uint64_t>(UINT16_MAX))),
           reader().has_error()};
}

运行结果为：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70


-- Building in 'Debug' mode.
-- Configuring done (0.3s)
-- Generating done (0.1s)
-- Build files have been written to: /home/zhouxin/projects/CS144/build
Test project /home/zhouxin/projects/CS144/build
      Start  1: compile with bug-checkers
 1/29 Test  #1: compile with bug-checkers ........   Passed   19.75 sec
      Start  3: byte_stream_basics
 2/29 Test  #3: byte_stream_basics ...............   Passed    0.01 sec
      Start  4: byte_stream_capacity
 3/29 Test  #4: byte_stream_capacity .............   Passed    0.01 sec
      Start  5: byte_stream_one_write
 4/29 Test  #5: byte_stream_one_write ............   Passed    0.01 sec
      Start  6: byte_stream_two_writes
 5/29 Test  #6: byte_stream_two_writes ...........   Passed    0.01 sec
      Start  7: byte_stream_many_writes
 6/29 Test  #7: byte_stream_many_writes ..........   Passed    0.06 sec
      Start  8: byte_stream_stress_test
 7/29 Test  #8: byte_stream_stress_test ..........   Passed    0.05 sec
      Start  9: reassembler_single
 8/29 Test  #9: reassembler_single ...............   Passed    0.01 sec
      Start 10: reassembler_cap
 9/29 Test #10: reassembler_cap ..................   Passed    0.01 sec
      Start 11: reassembler_seq
10/29 Test #11: reassembler_seq ..................   Passed    0.01 sec
      Start 12: reassembler_dup
11/29 Test #12: reassembler_dup ..................   Passed    0.05 sec
      Start 13: reassembler_holes
12/29 Test #13: reassembler_holes ................   Passed    0.01 sec
      Start 14: reassembler_overlapping
13/29 Test #14: reassembler_overlapping ..........   Passed    0.01 sec
      Start 15: reassembler_win
14/29 Test #15: reassembler_win ..................   Passed    0.15 sec
      Start 16: wrapping_integers_cmp
15/29 Test #16: wrapping_integers_cmp ............   Passed    0.04 sec
      Start 17: wrapping_integers_wrap
16/29 Test #17: wrapping_integers_wrap ...........   Passed    0.01 sec
      Start 18: wrapping_integers_unwrap
17/29 Test #18: wrapping_integers_unwrap .........   Passed    0.01 sec
      Start 19: wrapping_integers_roundtrip
18/29 Test #19: wrapping_integers_roundtrip ......   Passed    0.56 sec
      Start 20: wrapping_integers_extra
19/29 Test #20: wrapping_integers_extra ..........   Passed    0.12 sec
      Start 21: recv_connect
20/29 Test #21: recv_connect .....................   Passed    0.01 sec
      Start 22: recv_transmit
21/29 Test #22: recv_transmit ....................   Passed    0.12 sec
      Start 23: recv_window
22/29 Test #23: recv_window ......................   Passed    0.01 sec
      Start 24: recv_reorder
23/29 Test #24: recv_reorder .....................   Passed    0.04 sec
      Start 25: recv_reorder_more
24/29 Test #25: recv_reorder_more ................   Passed    0.36 sec
      Start 26: recv_close
25/29 Test #26: recv_close .......................   Passed    0.04 sec
      Start 27: recv_special
26/29 Test #27: recv_special .....................   Passed    0.04 sec
      Start 37: compile with optimization
27/29 Test #37: compile with optimization ........   Passed    1.93 sec
      Start 38: byte_stream_speed_test
             ByteStream throughput: 18.15 Gbit/s
28/29 Test #38: byte_stream_speed_test ...........   Passed    0.06 sec
      Start 39: reassembler_speed_test
             Reassembler throughput: 9.03 Gbit/s
29/29 Test #39: reassembler_speed_test ...........   Passed    0.11 sec

100% tests passed, 0 tests failed out of 29

Total Test time (real) =  23.60 sec
Built target check2

Lab 3

Lab 3 要求实现一个 sender，这里实现了 TCP 的超时重传和拥塞控制算法。需要实现如下几个方法：

uint64_t TCPSender::sequence_numbers_in_flight() const：返回待确认的字节数
uint64_t TCPSender::consecutive_retransmissions() const：返回连续重传报文的数目
void TCPSender::push( const TransmitFunction& transmit )：从内存字节流中读取待发送数据，尽可能填满接收窗口
TCPSenderMessage TCPSender::make_empty_message() const：产生一条不占用序号的空消息
void TCPSender::receive( const TCPReceiverMessage& msg )：接收来自接受者的确认消息，维护接收窗口的大小
void TCPSender::tick( uint64_t ms_since_last_tick, const TransmitFunction& transmit )：根据外部传入的时间判断是否需要重传和进行拥塞控制

在实现 push 的过程中，有如下值得注意的地方：

使用字段 current_seq_ 记录当前需要发送的序号，第一次建立连接（current_seq_=0）时，需要将 SYN 字段设置为 true；
push 方法仅用于首次发送消息，发送过的所有消息都保存在一个队列中，等待重传或者确认。在发送过 FIN 报文后，push 方法不应再发送任何消息，报文重传由 tick 方法负责；
原文提到，若接收窗口为 0，则在发送报文时应该视为 1；
push 方法应该存在一个循环，用于处理接收窗口很大，待发送数据超过单个 TCP 包上限，需要发送多个包的情况；

剩余部分跟着文档逻辑写，面向测试用例 debug。我在 tcp_sender.hh 中使用了如下成员变量：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14


ByteStream input_;
Wrap32 isn_;
uint64_t initial_RTO_ms_;
uint64_t current_time_;
uint64_t ack_;
uint64_t in_flight_cnt_;
uint64_t expire_time_;
uint64_t retrans_cnt_;
uint64_t window_size_;
uint64_t rto_;
uint64_t current_seq_;
Wrap32 zero_point_;
std::deque<TCPSenderMessage> outstanding_msg_;
bool is_fin_sent;

tcp_sender.cc 各函数实现如下：

  1
  2
  3
  4
  5
  6
  7
  8
  9
 10
 11
 12
 13
 14
 15
 16
 17
 18
 19
 20
 21
 22
 23
 24
 25
 26
 27
 28
 29
 30
 31
 32
 33
 34
 35
 36
 37
 38
 39
 40
 41
 42
 43
 44
 45
 46
 47
 48
 49
 50
 51
 52
 53
 54
 55
 56
 57
 58
 59
 60
 61
 62
 63
 64
 65
 66
 67
 68
 69
 70
 71
 72
 73
 74
 75
 76
 77
 78
 79
 80
 81
 82
 83
 84
 85
 86
 87
 88
 89
 90
 91
 92
 93
 94
 95
 96
 97
 98
 99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119


#include "tcp_sender.hh"
#include "tcp_config.hh"

using namespace std;

uint64_t TCPSender::sequence_numbers_in_flight() const
{
  // Your code here.
  return in_flight_cnt_;
}

uint64_t TCPSender::consecutive_retransmissions() const
{
  // Your code here.
  return retrans_cnt_;
}

void TCPSender::push( const TransmitFunction& transmit )
{
  // Your code here.
  bool window_zero = window_size_ == 0;
  uint64_t available_window
    = ( window_size_ + window_zero ) < in_flight_cnt_ ? 0 : window_size_ + window_zero - in_flight_cnt_;
  do {
    // 先考虑SYN和RST，FIN要等到把buffer读空才能判断
    if ( is_fin_sent )
      return;
    uint64_t pay_load_size = min( reader().bytes_buffered(), TCPConfig::MAX_PAYLOAD_SIZE );
    uint64_t seq_size = min( available_window, pay_load_size + ( current_seq_ == 0 ) );
    pay_load_size = seq_size;
    TCPSenderMessage msg = TCPSenderMessage();
    if ( current_seq_ == 0 ) {
      msg.SYN = true;
      pay_load_size--;
    }
    if ( reader().has_error() ) {
      msg.RST = true;
    }

    while ( msg.payload.size() < pay_load_size ) {
      string_view front_view = reader().peek();
      uint64_t bytes_to_read = min( front_view.size(), pay_load_size - msg.payload.size() );
      msg.payload += front_view.substr( 0, bytes_to_read );
      input_.reader().pop( bytes_to_read );
    }
    if ( reader().is_finished() && seq_size < available_window ) {
      msg.FIN = true;
      seq_size++;
      is_fin_sent = true;
    }
    if ( msg.sequence_length() == 0 )
      return;
    msg.seqno = Wrap32::wrap( current_seq_, zero_point_ );
    current_seq_ += msg.sequence_length();
    in_flight_cnt_ += msg.sequence_length();
    outstanding_msg_.push_back( msg );
    transmit( msg );
    if ( expire_time_ == UINT64_MAX )
      expire_time_ = current_time_ + rto_;
    available_window
      = ( window_size_ + window_zero ) < in_flight_cnt_ ? 0 : window_size_ + window_zero - in_flight_cnt_;
  } while ( reader().bytes_buffered() != 0 && available_window != 0 );
}

TCPSenderMessage TCPSender::make_empty_message() const
{
  // Your code here.
  return { Wrap32::wrap( current_seq_, zero_point_ ), false, string(), false, reader().has_error() };
}

void TCPSender::receive( const TCPReceiverMessage& msg )
{
  // Your code here.
  if ( msg.ackno.has_value() ) {
    uint64_t ack_from_recv = unwarp( msg.ackno.value() );
    if ( ack_from_recv > ack_ && ack_from_recv <= current_seq_ ) {
      ack_ = ack_from_recv;
      rto_ = initial_RTO_ms_;
      expire_time_ = current_time_ + rto_;
      retrans_cnt_ = 0;
      while ( !outstanding_msg_.empty() ) {
        auto& front_msg = outstanding_msg_.front();
        if ( unwarp( front_msg.seqno ) + front_msg.sequence_length() > ack_ )
          break;
        in_flight_cnt_ -= front_msg.sequence_length();
        outstanding_msg_.pop_front();
      }
      if ( outstanding_msg_.empty() ) {
        expire_time_ = UINT64_MAX;
      }
    }
  }
  window_size_ = msg.window_size;
  if ( msg.RST )
    writer().set_error();
}

void TCPSender::tick( uint64_t ms_since_last_tick, const TransmitFunction& transmit )
{
  // Your code here.
  current_time_ += ms_since_last_tick;
  if ( expire_time_ != 0 && current_time_ >= expire_time_ ) {
    transmit( outstanding_msg_.front() );
    //  auto msg = outstanding_msg_.front();
    //  outstanding_msg_.pop_front();
    //  outstanding_msg_.push_back(msg);
    //  transmit(msg);

    if ( window_size_ != 0 ) {
      retrans_cnt_++;
      rto_ *= 2;
    }
    expire_time_ = current_time_ + rto_;
  }
}
uint64_t TCPSender::unwarp( const Wrap32& seq )
{
  return seq.unwrap( zero_point_, ack_ );
}

运行结果为：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84


-- Building in 'Debug' mode.
-- Configuring done (0.3s)
-- Generating done (0.3s)
-- Build files have been written to: /home/zhouxin/projects/CS144/build
Test project /home/zhouxin/projects/CS144/build
      Start  1: compile with bug-checkers
 1/36 Test  #1: compile with bug-checkers ........   Passed   40.66 sec
      Start  3: byte_stream_basics
 2/36 Test  #3: byte_stream_basics ...............   Passed    0.02 sec
      Start  4: byte_stream_capacity
 3/36 Test  #4: byte_stream_capacity .............   Passed    0.01 sec
      Start  5: byte_stream_one_write
 4/36 Test  #5: byte_stream_one_write ............   Passed    0.01 sec
      Start  6: byte_stream_two_writes
 5/36 Test  #6: byte_stream_two_writes ...........   Passed    0.01 sec
      Start  7: byte_stream_many_writes
 6/36 Test  #7: byte_stream_many_writes ..........   Passed    0.05 sec
      Start  8: byte_stream_stress_test
 7/36 Test  #8: byte_stream_stress_test ..........   Passed    0.05 sec
      Start  9: reassembler_single
 8/36 Test  #9: reassembler_single ...............   Passed    0.01 sec
      Start 10: reassembler_cap
 9/36 Test #10: reassembler_cap ..................   Passed    0.01 sec
      Start 11: reassembler_seq
10/36 Test #11: reassembler_seq ..................   Passed    0.01 sec
      Start 12: reassembler_dup
11/36 Test #12: reassembler_dup ..................   Passed    0.05 sec
      Start 13: reassembler_holes
12/36 Test #13: reassembler_holes ................   Passed    0.01 sec
      Start 14: reassembler_overlapping
13/36 Test #14: reassembler_overlapping ..........   Passed    0.01 sec
      Start 15: reassembler_win
14/36 Test #15: reassembler_win ..................   Passed    0.17 sec
      Start 16: wrapping_integers_cmp
15/36 Test #16: wrapping_integers_cmp ............   Passed    0.04 sec
      Start 17: wrapping_integers_wrap
16/36 Test #17: wrapping_integers_wrap ...........   Passed    0.01 sec
      Start 18: wrapping_integers_unwrap
17/36 Test #18: wrapping_integers_unwrap .........   Passed    0.01 sec
      Start 19: wrapping_integers_roundtrip
18/36 Test #19: wrapping_integers_roundtrip ......   Passed    0.55 sec
      Start 20: wrapping_integers_extra
19/36 Test #20: wrapping_integers_extra ..........   Passed    0.12 sec
      Start 21: recv_connect
20/36 Test #21: recv_connect .....................   Passed    0.01 sec
      Start 22: recv_transmit
21/36 Test #22: recv_transmit ....................   Passed    0.13 sec
      Start 23: recv_window
22/36 Test #23: recv_window ......................   Passed    0.01 sec
      Start 24: recv_reorder
23/36 Test #24: recv_reorder .....................   Passed    0.04 sec
      Start 25: recv_reorder_more
24/36 Test #25: recv_reorder_more ................   Passed    0.39 sec
      Start 26: recv_close
25/36 Test #26: recv_close .......................   Passed    0.04 sec
      Start 27: recv_special
26/36 Test #27: recv_special .....................   Passed    0.04 sec
      Start 28: send_connect
27/36 Test #28: send_connect .....................   Passed    0.04 sec
      Start 29: send_transmit
28/36 Test #29: send_transmit ....................   Passed    0.18 sec
      Start 30: send_retx
29/36 Test #30: send_retx ........................   Passed    0.04 sec
      Start 31: send_window
30/36 Test #31: send_window ......................   Passed    0.07 sec
      Start 32: send_ack
31/36 Test #32: send_ack .........................   Passed    0.04 sec
      Start 33: send_close
32/36 Test #33: send_close .......................   Passed    0.04 sec
      Start 34: send_extra
33/36 Test #34: send_extra .......................   Passed    0.05 sec
      Start 37: compile with optimization
34/36 Test #37: compile with optimization ........   Passed    2.29 sec
      Start 38: byte_stream_speed_test
             ByteStream throughput: 19.14 Gbit/s
35/36 Test #38: byte_stream_speed_test ...........   Passed    0.06 sec
      Start 39: reassembler_speed_test
             Reassembler throughput: 8.26 Gbit/s
36/36 Test #39: reassembler_speed_test ...........   Passed    0.12 sec

100% tests passed, 0 tests failed out of 36

Total Test time (real) =  45.37 sec
Built target check3

Lab 4

lab 4 的任务是使用我们之前写的 TCP 模块与外网进行通信，如果前面实现的都没问题，那么这里是不需要写代码的。按照文档指示执行，顺利通过测试，运行结果为：

1
2
3
4
5


Test project /home/zhouxin/projects/CS144/build
    Start 1: compile with bug-checkers
1/2 Test #1: compile with bug-checkers ........   Passed    0.11 sec
    Start 2: t_webget
2/2 Test #2: t_webget .........................   Passed    1.03 sec

Lab 5

lab 5 实现了 ARP 协议，负责将 IP 地址转换为 MAC 地址，并发送来自传输层的报文。有如下细节值得注意：

内存中需要维护一张 arp 表，每一个表项只有 30 秒的有效时间
相同目标 ip 的 arp 请求间隔为 5 秒钟
发送数据时，arp 表中没有对应记录，则先发出 arp 请求
收到 arp 回复报文后，需要将等待该记录的所有报文全部发出

实现过程中，我新增了三个数据结构：

1
2
3
4
5
6
7
8


// 当前时间
size_t current_time_;

// 保存arp表
std::unordered_map<uint32_t , std::pair<EthernetAddress, size_t>> arp_table_;

// 等待arp请求的信号量队列
std::unordered_map<uint32_t ,std::pair<std::queue<EthernetFrame>, std::optional<size_t>>> frame_queue_;

arp 表每一条的有效时间只有 30 秒，因此每一行都要记录 ip 地址对应的 mac 地址和过期时间；在发送报文的方法中，如果目标 ip 的 mac 地址还不知道，则先把数据报插入到等待队列中，等待收到 arp 回复报文再发送报文（本质上是使用信号量实现同步关系）；此外，还要记录目标 ip 上次 arp 请求的时间，防止对同一个 ip 请求过于频繁。

实现 send_datagram 的逻辑为：首先填写数据帧中除目标 MAC 之外的字段，然后查询 arp 表，如果存在目标 ip 的有效条目，则填写 MAC 并发送；否则将待发送帧放入目标 ip 对应的队列，并发出 arp 请求。

实现 recv_frame 的逻辑为：首先根据 MAC 字段判断是否是发给自己的数据帧，只处理目标为自己或者广播地址的帧。然后根据类型字段对有效载荷解析，如果是 ip 包直接把解析包交付给上层队列；如果是 arp 包则根据协议头将更新 arp 表，如果收到的是 arp 请求报文，则构造 arp 回复报文回复自己的 mac，如果收到的是 arp 回复报文，则查看对应 ip 的待发送消息的队列，发送其中所有的消息。

详细实现的代码为：

  1
  2
  3
  4
  5
  6
  7
  8
  9
 10
 11
 12
 13
 14
 15
 16
 17
 18
 19
 20
 21
 22
 23
 24
 25
 26
 27
 28
 29
 30
 31
 32
 33
 34
 35
 36
 37
 38
 39
 40
 41
 42
 43
 44
 45
 46
 47
 48
 49
 50
 51
 52
 53
 54
 55
 56
 57
 58
 59
 60
 61
 62
 63
 64
 65
 66
 67
 68
 69
 70
 71
 72
 73
 74
 75
 76
 77
 78
 79
 80
 81
 82
 83
 84
 85
 86
 87
 88
 89
 90
 91
 92
 93
 94
 95
 96
 97
 98
 99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121


#include 

#include "arp_message.hh"
#include "exception.hh"
#include "network_interface.hh"

using namespace std;

//! \param[in] ethernet_address Ethernet (what ARP calls "hardware") address of the interface
//! \param[in] ip_address IP (what ARP calls "protocol") address of the interface
NetworkInterface::NetworkInterface( string_view name,
                                    shared_ptr<OutputPort> port,
                                    const EthernetAddress& ethernet_address,
                                    const Address& ip_address )
  : name_( name )
  , port_( notnull( "OutputPort", move( port ) ) )
  , ethernet_address_( ethernet_address )
  , ip_address_( ip_address )
  , current_time_(0)
  , arp_table_()
  , frame_queue_()
{
  cerr << "DEBUG: Network interface has Ethernet address " << to_string( ethernet_address ) << " and IP address "
       << ip_address.ip() << "\n";
}

//! \param[in] dgram the IPv4 datagram to be sent
//! \param[in] next_hop the IP address of the interface to send it to (typically a router or default gateway, but
//! may also be another host if directly connected to the same network as the destination) Note: the Address type
//! can be converted to a uint32_t (raw 32-bit IP address) by using the Address::ipv4_numeric() method.
void NetworkInterface::send_datagram( const InternetDatagram& dgram, const Address& next_hop )
{
  // Your code here.
  EthernetFrame messsage = EthernetFrame();
  const uint32_t target_ip = next_hop.ipv4_numeric();
  messsage.header.src = ethernet_address_;
  messsage.header.type = EthernetHeader::TYPE_IPv4;
  messsage.payload = serialize(dgram);
  if(!arp_table_.contains(target_ip) || arp_table_[target_ip].second < current_time_){
    frame_queue_[target_ip].first.push(std::move(messsage));
    EthernetFrame arp_request_frame;
    send_arp_request( target_ip, arp_request_frame );
    return;
  } else {
    messsage.header.dst = arp_table_[target_ip].first;
    transmit(messsage);
  }
}
void NetworkInterface::send_arp_request( const uint32_t target_ip, EthernetFrame& arp_request_frame )
{
  if(frame_queue_.contains(target_ip) && frame_queue_[target_ip].second.has_value()
       && frame_queue_[target_ip].second >= current_time_)
    return;
  arp_request_frame.header.type = EthernetHeader::TYPE_ARP;
  arp_request_frame.header.dst = ETHERNET_BROADCAST;
  arp_request_frame.header.src = ethernet_address_;
  ARPMessage arp_request_message = ARPMessage();
  arp_request_message.sender_ethernet_address = ethernet_address_;
  arp_request_message.sender_ip_address = ip_address_.ipv4_numeric();
  arp_request_message.opcode = ARPMessage::OPCODE_REQUEST;
  arp_request_message.target_ip_address = target_ip;
//  arp_request_message.target_ethernet_address = ETHERNET_BROADCAST;
  arp_request_frame.payload = serialize(arp_request_message);
  transmit(arp_request_frame);
  frame_queue_[target_ip].second = current_time_ + 5000;
}

//! \param[in] frame the incoming Ethernet frame
void NetworkInterface::recv_frame( const EthernetFrame& frame )
{
  // Your code here.
  if(frame.header.dst == ethernet_address_ || frame.header.dst == ETHERNET_BROADCAST){
    if(frame.header.type == EthernetHeader::TYPE_ARP){
      ARPMessage message = ARPMessage();
      if(parse(message, frame.payload) && message.target_ip_address == ip_address_.ipv4_numeric()) {
        arp_table_[message.sender_ip_address] = make_pair(message.sender_ethernet_address, current_time_+30000);
        if(message.opcode == ARPMessage::OPCODE_REQUEST){
          EthernetFrame response = EthernetFrame();
          make_arp_response( message, response );
          transmit(response);
        } else {
          // 收到arp回复之后看对应ip有无待发送的消息
          queue<EthernetFrame>& ip_queue = frame_queue_[message.sender_ip_address].first;
          while (!ip_queue.empty()){
            ip_queue.front().header.dst = message.sender_ethernet_address;
            transmit(ip_queue.front());
            ip_queue.pop();
          }
        }
      }

    } else if(frame.header.type == EthernetHeader::TYPE_IPv4){
      InternetDatagram message = InternetDatagram();
      if(parse(message, frame.payload)){
        datagrams_received_.emplace(std::move(message));
      }
    }
  }
}
void NetworkInterface::make_arp_response( const ARPMessage& message, EthernetFrame& response ) const
{
  EthernetHeader& header = response.header;
  header.dst = message.sender_ethernet_address;
  header.src = ethernet_address_;
  header.type = EthernetHeader::TYPE_ARP;
  ARPMessage arp_response_message = ARPMessage();
  arp_response_message.opcode = ARPMessage::OPCODE_REPLY;
  arp_response_message.sender_ethernet_address = ethernet_address_;
  arp_response_message.sender_ip_address = ip_address_.ipv4_numeric();
  arp_response_message.target_ethernet_address = message.sender_ethernet_address;
  arp_response_message.target_ip_address = message.sender_ip_address;
  response.payload = serialize(arp_response_message);
  return;
}

//! \param[in] ms_since_last_tick the number of milliseconds since the last call to this method
void NetworkInterface::tick( const size_t ms_since_last_tick )
{
  // Your code here.
  current_time_ += ms_since_last_tick;
}

运行结果为：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10


Test project /home/zhouxin/projects/CS144/build
    Start  1: compile with bug-checkers
1/2 Test  #1: compile with bug-checkers ........   Passed    8.79 sec
    Start 35: net_interface
2/2 Test #35: net_interface ....................   Passed    0.01 sec

100% tests passed, 0 tests failed out of 2

Total Test time (real) =   8.80 sec
Built target check5

Lab 6

在 lab 6，我们将实现路由转发。具体来说，需要在内存中维护一张路由表，并根据路由表做最长匹配，进而实现网络层的转发。

路由表比较理想的数据结构是前缀树，但建树的过程难免要用到智能指针，遂作罢。且文档中也说 O(n) 复杂度也是可接受的，因此我最终选择 vector 来保存路由表。路由表中，我没有保存前缀长度，而是将前缀长度转换为子网掩码，以方便后续匹配。

匹配使用与运算进行，当且仅当 ip & mask == prefix 时，说明 ip 是匹配 prefix 的。一个 ip 可能匹配多个 prefix，可以根据 mask 的大小找到最长匹配。

找到最长匹配后，如果路由表项中还有下一跳，则转发到下一跳 ip；如果没有下一跳，说明直接交付给指定 ip 即可，即转发到目标 ip。

route() 的实现如下：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35


void Router::route()
{
  // Your code here.
  for( auto& interface: _interfaces){
    auto& data_queue = interface->datagrams_received();
    while(!data_queue.empty()){
      InternetDatagram &data = data_queue.front();
      if(data.header.ttl == 0 || data.header.ttl == 1) {
        data_queue.pop();
        continue;
      }
      data.header.ttl -= 1;
      data.header.compute_checksum();
      uint32_t ip = data.header.dst;
      optional<routing_item> best_match;
      for(uint32_t i=0; i<routing_table_.size(); i++){
        auto& item = routing_table_[i];
        if(item.route_prefix_ == (ip & item.mask_)){
          if(!best_match.has_value() || best_match->mask_ < item.mask_){
            best_match = item;
          }
        }
      }
      if(best_match.has_value()){
        auto &next_interface = _interfaces.at(best_match->interface_num_);
        if(best_match->next_hop_.has_value()){
          next_interface->send_datagram(data, best_match->next_hop_.value());
        } else {
          next_interface->send_datagram(data, Address::from_ipv4_numeric(data.header.dst));
        }
      }
    data_queue.pop();
    }
  }
}

运行结果为：

1
2
3
4
5
6
7
8
9


Test project /home/zhouxin/projects/CS144/build
    Start  1: compile with bug-checkers
1/3 Test  #1: compile with bug-checkers ........   Passed    9.56 sec
    Start 35: net_interface
2/3 Test #35: net_interface ....................   Passed    0.02 sec
    Start 36: router
3/3 Test #36: router ...........................   Passed    0.01 sec

100% tests passed, 0 tests failed out of 3

二分查找边界条件条件以及二分答案位置分析

Tue, 26 Mar 2024 12:18:00 +0800

引入

二分查找是常见的针对有序数组的查找算法，其查找的时间复杂度为 $O(\log n)$。算法骨架很好理解，但笔者在实践过程中一直对一些细节问题模棱两可，例如 while 循环的边界条件、提前退出、二分答案的下标等。通过查询 STL 源码、文献等方式，笔者找到一个通用方案，解决二分查找的一系列细节问题。

标准二分查找

从标准二分查找讲起，即给定严格递增数组 num 和目标值 target，返回 target 在 num 中的下标，若不存在，则返回 -1。一种可行的 C 语言代码为：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14


int binary_search(int *num, int *numsSize, int target){
	int left = 0;
	int right = numsSize - 1;
	while(right >= left){ // 循环条件
		int mid = (left+right)/2;
		if(nums[mid] > target)
			right = mid-1;
		else if(nums[mid] < target)
			left = mid+1;
		else 
			return mid; // 提前退出条件
	}
	return -1;
}

在查找过程中使用闭区间[left, right] 表示 target 可能存在的位置，那么循环退出只有两种情况：找到了 target 或者区间长度为 0，分别代码中的提前退出条件和循环条件。其中，循环条件根据区间的开闭性质而有所不同，例如若使用左闭右开区间来表示 target 的位置，那么区间长度为 0 表示为 right == left+1，即循环条件为 right != left+1。
根据上面分析，如果找到了 target，一定会通过提前退出直接返回下标 mid，因此如果通过循环条件正常退出循环，说明目标值在数组中不存在，直接返回 -1。

二分查找左边界

二分查找左边界问题定义为：给定非严格递增数组 nums 和目标值 target，返回向 nums 中插入 target 的最小下标。例如，nums = {1,2,2,3}，target = 2，查找得到的左边界应该为 1。
与标准二分查找类似，使用闭区间[left, right] 表示目标下标所在的区间。为了找到 target，我们可以通过不断压缩 right 的位置来逼近目标。怎么压缩呢？当 nums[mid] != target 时候，压缩方案与标准二分一致；当 nums[mid] == target 时，则是之前没有碰到的情况。以下给出一种解决方案：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21


int lower_bound(int *num, int *numsSize, int target){
	int left = 0;
	int right = numsSize - 1;
	while(right > left) // 循环条件
	{
		int mid = （left+mid)/2;
		if(nums[mid] == target)
			right = mid;
		else if(nums[mid] > target)
			right = mid-1;
		else 
			left = mid+1;
	}
	return left;
	/* 如果target不存在需要返回-1
	** if(left == numsSize || nums[left]!=target)
	**     return -1;
	** else
	**     return left
	*/
}

当 nums[mid] == target 时，上述方案将 right 更新为 mid，对比标准二分方案，可以发现循环条件不再取等了，并且也不存在提前退出的条件。这是由于我们缩写的 lower_bound 函数返回的 target 插入 nums 的下标，因此当区间长度为 1 时，就找到了返回值，可以停止循环。
有些问题可能会要求当 target 不在 nums 中时，返回 -1，那么在循环结束后，需要检查 nums[left] 是否为目标值。值得注意的是，target 可能插入的位置在是 nums 的最后一位，因此需要检查是否越界。

二分查找右边界

二分查找左边界问题定义为：给定非严格递增数组 nums 和目标值 target，返回向 nums 中插入 target 的最大下标。例如，nums = {1,2,2,3}，target = 3，查找得到的右边界应该为 2。
如果参照二分查找左边界中的思想，不断压缩左边界，可以写出一个死循环的有边界查找方案：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15


int upper_bound(int *num, int *numsSize, int target){
	int left = 0;
	int right = numsSize - 1;
	while(right > left) 
	{
		int mid = （left+mid)/2;
		if(nums[mid] == target)
			left = mid; //压缩左边界
		else if(nums[mid] > target)
			right = mid-1;
		else 
			left = mid+1;
	}
	return right;
}

为什么会死循环呢？这是在某些情况下 left 值和 mid 值相等并且 nums[mid] == target，因此 left 值就一直得不到更新，造成了死循环。为了解决这个问题，我们可以通过让 left = mid+1 保证每次对 left 的值的更新都是有效的。
但上面的操作又引入了一个新的问题：mid 循环退出时，mid 可能指向第一个比 target 大的元素，也可能指向 target，而 right 又大于等于 mid，故 right 的指向是不确定的。既然如此，干脆直接让 right 指向第一个比 target 的元素，最后返回 right-1 即可。那么在上一段修改的基础上，对于 nums[mid]>target 情况，right 更新为 mid 即可。
基于上述思想，二分查找右边界的方案如下：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15


int upper_bound(int *num, int *numsSize, int target){
	int left = 0;
	int right = numsSize - 1;
	while(right > left) // 循环条件
	{
		int mid = （left+mid)/2;
		if(nums[mid] == target)
			left = mid+1;
		else if(nums[mid] > target)
			right = mid-1;
		else 
			left = mid;
	}
	return right-1;
}

周鑫的个人博客

2d 卷积梯度推导与实现

符号说明

卷积运算

损失函数对 W 的梯度

损失函数对 X 的梯度

参考文档

在VSCode中对CUDA和Python代码进行联合调试

项目准备

手动调试

配置 VSCode 进行调试

参考文档

Programming Massively Parallel Processors A Hands-on Approach 4th Edition 学习笔记

资源存档

Chapter 1: Introduction 简介

1.1 Heterogeneous parallel computing 异构并行计算

1.2 Why more speed or parallelism 为什么要并行化？

1.3 Speeding up real applications 加速实际应用

1.4 Challenges in parallel programming 并行编程中的挑战

1.5 Related parallel programming interfaces 相关并行编程接口

1.6 Overarching goals 首要目标

1.7 Organization of the book 本书的架构

Chapter 2: Heterogeneous data parallel computing 异构数据并行计算

2.1 Data parallelism 数据并行化

2.2 CUDA C program structure CUDA C 程序结构

2.3 A vector addition kernel 向量加法核函数

2.4 Device global memory and data transfer 设备全局内存和数据搬运

参考

LogSumExp梯度推导

前言

推导过程

符号说明

非最大情况推导

最大情况推导

一般情况

代码实现

参考资料

使用ssh远程连接wsl2

概述

详细步骤

【非必需】启用 windows 中的 ssh 服务器

启用并配置 wsl2 中的 ssh 服务

开放防火墙

修改 wsl2 网络模式

参考文档

在PaperMod中引入侧边目录和阅读进度显示

概述

步骤

侧边目录

阅读百分比

参考文档

CMU 10-414 Assignments 实验笔记

前言

资源存档

hw0

parse_mnist

softmax_loss

softmax_regression_epoch

nn_epoch

softmax_regression_epoch_cpp

hw0 小结

hw1

Implementing forward & backward computation

Topological sort

Implementing reverse mode differentiation

Softmax loss

SGD for a two-layer neural network

hw 1 小结

hw2

Q1: Weight Initialization

Q2: nn_basic

Q3: Optimizer Implementation

Q4: DataLoader Implementation

Q5: MLPResNet Implementation

hw2 小结

hw3

Part 1: Python array operations

Part 2: CPU Backend - Compact and setitem

Part 3: CPU Backend - Elementwise and scalar operations

Part 4: CPU Backend - Reductions