激活函数的选择

在深度学习中，选择合适的激活函数是至关重要的。

常见激活函数

Sigmoid函数：
$σ (x) = \frac{1}{1 + e^{- x}}$
- 优点：输出范围在0到1之间，适合用于二分类问题的输出层。
- 缺点：容易出现梯度消失问题，不适合深度网络。
ReLU函数（Rectified Linear Unit）：
$ReLU (x) = max (0, x)$
- 优点：计算简单，解决了梯度消失问题，能够快速收敛。
- 缺点：存在神经元死亡问题。
Leaky ReLU函数：
$Leaky ReLU (x) = max (α x, x), 其中 α 是小于1的参数$
- 优点：解决了ReLU中的神经元死亡问题。
- 缺点：可能会引入额外的超参数。
ELU函数（Exponential Linear Unit）：
$ELU (x) = {\begin{cases} x & if x > 0 \\ α (e^{x} - 1) & otherwise \end{cases}$
- 优点：类似于Leaky ReLU，且保证所有输出都是负的。
- 缺点：计算相对复杂。
Tanh函数：
$tanh (x) = \frac{e^{x} - e^{- x}}{e^{x} + e^{- x}}$
- 优点：输出范围在-1到1之间，解决了Sigmoid函数的零中心问题。
- 缺点：仍然存在梯度消失问题。

除了常见的激活函数外，还有许多其他的选择，下面是一些常见的激活函数及其特点：

Softmax函数：
$Softmax (x_{i}) = \frac{e^{x_{i}}}{\sum_{j}^{n} e^{x_{j}}}$
- 通常用于多分类问题的输出层，将输出转换为概率分布。
Swish函数：
$Swish (x) = x \cdot sigmoid (x)$
- 由Google提出，结合了ReLU和sigmoid的优点。
GELU函数（Gaussian Error Linear Unit）：
$GELU (x) = x \cdot Φ (x)$
- OpenAI提出，逼近高斯误差线性单元。
Hard Swish函数：
$Hard Swish (x) = x \cdot max (0, min (1, x + 3)) / 6$
- 华为提出，是一种ReLU的近似函数。
SELU函数（Scaled Exponential Linear Unit）：
$SELU (x) = λ {\begin{cases} x & if x > 0 \\ α (e^{x} - 1) & otherwise \end{cases}$

ISRU函数（Inverse Square Root Unit）： $ISRU (x, α) = \frac{x}{\sqrt{1 + α x^{2}}}$