浅谈多层感知机

Sam's Blog

首页

博客

标签

项目

关于

GitHub

浅谈多层感知机

多层感知机是一种可以使网络更好拟合复杂函数的机制。

隐藏层

简单的单层网络（如前文提到的线性回归）对比真正的深层神经网络有一个很大的不同：前者只能拟合出输入值和输出值之间的线性关系，而后者可以拟合逼近出任意的复杂函数关系。这其中的差别在于层数不同，也就是隐藏层（hidden layer）的存在与否。

在线性回归中，我们通过单个仿射变换 $\mathbf{Y} = \mathbf{Wx} + \mathbf{b}$ 进行模型预测，由输入直接映射到输出。假设我们的目标关系是线性相关的（如之前学习时间和成绩的例子的假设），那么线性回归的确可以很好地处理这些问题。但是大部分的函数关系并不是线性的，例如拟合一个目标函数 $y = x^2 + 2x$ ，线性回归无法通过线性变换对其进行很好的拟合，损失始终会很大。

于是我们考虑在网络中加入一个或多个隐藏层来克服线性模型的限制。一个很朴素的方法是简单堆叠多个全连接层，最后一个隐藏层与输出层相连，这就构成了多层感知机（multilayer perceptron）。如下图就是一个有一层隐藏层的多层感知机的模式图。

mlp

我们来看一下多层感知机的计算过程。假定有样本 $\mathbf{X}$ ，隐藏表示 $\mathbf{H}$ 即隐藏层的输出为单隐藏层的输出，隐藏层权重为 $\mathbf{W}^{(1)}$ ，偏置 $\mathbf{b}^{(1)}$ ，输出层权重 $\mathbf{W}^{(2)}$ ，偏置 $\mathbf{b}^{(2)}$ ，多层感知机输出为 $\mathbf{O}$ ，则：

\mathbf{H} = \mathbf{W}^{(1)}\mathbf{X} + \mathbf{b}^{(1)},\\ \mathbf{O} = \mathbf{W}^{(2)}\mathbf{H} + \mathbf{b}^{(2)}.

但是不难发现，上述表达并没有对网络的既定线性关系做出本质的改变。上述网络仍可以等价于一个单层线性网络 $\mathbf{O} = \mathbf{W}^{(1)}\mathbf{W}^{(2)}\mathbf{X} + \mathbf{b}^{(1)}\mathbf{W}^{(2)} + \mathbf{b}^{(2)}$ 。这就需要我们引入一个新的机制：激活函数（activation function） $\sigma$ 。其输出被称为活性值（activations）。那么上述的多层感知机网络变化为：

\begin{aligned} \mathbf{H} &= \sigma(\mathbf{W}^{(1)}\mathbf{X} + \mathbf{b}^{(1)}),\\ \mathbf{O} &= \mathbf{W}^{(2)}\mathbf{H} + \mathbf{b}^{(2)}. \end{aligned}

一般来讲，隐藏层经过激活函数的变换后，网络就不会退化为线性网络。当然，上述隐藏层也可以进行堆叠，增强模型的表达能力。

激活函数

那么使得网络具有非线性特征的激活函数是什么呢？

激活函数的本质是通过计算加权和并加上偏置确定神经元是否应该被激活，大多数都是非线性的。事实上，线性神经网络中也存在线性激活函数 $\sigma(x) = x$ 。激活函数的存在是深度学习网络能够学习复杂特征的基础。

sigmoid 函数

对于任意 $x \in \mathbb{R}$ ，sigmoid 函数可以将其值压缩到 $(0, 1)$ 区间内。其定义为：

\operatorname{sigmoid}(x) = \frac{1}{1 + \exp(-x)}.

可以发现其与 softmax 函数（ $\operatorname{softmax}(x) = \frac{\exp(o_j)}{\sum_k\exp(o_k)}$ ）具有相似的运算性质。事实上，sigmoid 函数可以看作 softmax 函数的特例，在二分类问题上可以与 softmax 函数进行等价。