什么是线性单元

当数据集不是线性可分的时候，感知器可能无法收敛。于是用一个可导的线性函数来替代感知器的阶跃函数，这种感知器就叫做线性单元。线性单元在面对线性不可分的数据集时，会收敛到一个最佳近似上。

线性单元

这里的activation function是一个线性函数，而非之前的阶跃函数。

这样，线性单元将返回一个实数值而非0,1分类。

因此，线性单元用来解决回归问题而非分类问题。

线性单元的模型

$y=h(x)=\omega_1*x_1+\omega_2*x_2+\cdots+\omega_n*x_n+b$

函数 $h(x)$ 叫做假设。令 $b=\omega_0$ ，同时令 $\omega_0$ 对应特征 $x_0$ 。这里的 $x_0$ 永远为1。即 $b=\omega_0*x_0$ ，其中 $x_0=1$ 。则：

$y=h(x)=\omega_0*x_0+\omega_1*x_1+\cdots+\omega_n*x_n=\omega^Tx$

这样的模型就叫做线性模型，因为输出 $y$ 是输入特征 $x_1,x_2,x_3\cdots$ 的线性组合。

监督学习和无监督学习

监督学习：每个训练样本既包括输入特征 $x$ ，也包括对应输出 $y$ （label）
无监督学习：训练样本只有 $x$ ，没有 $y$ 。

既有 $x$ 又有 $y$ 的样本是很少的，我们可以先用无监督学习做一些聚类，再用少量的带标注的样本告诉模型，模型就可以完成训练。

线性单元的目标函数

对于一个监督学习，用 $y$ 表示样本的标记，即实际值。用 $\bar y$ 表示模型计算出来的预测值。

误差 $e$ 叫做单个样本的误差

$e=\frac12(y-\bar y)^2$

所有样本的误差和叫做 $E$

$E=\sum_{i=1}^ne^{(i)}=\frac12\sum_{i=1}^n(y^{(i)}-\bar y^{(i)})^2$

其中

$\bar y^{(i)}=h(x^{(i)})=\omega ^Tx^{(i)}$

用元组 $(x^{(i)},y^{(i)})$ 表示第 $i$ 训练样本， $\bar y$ 则是模型对第 $i$ 样本的预测值。

可见对于特定的数据集来说， $(x^{(i)},y^{(i)})$ 都是已知的，所以 $E$ 实际上是对 $\omega$ 的函数。模型的训练实际上就是求合适的 $\omega$ ，使得 $E(\omega)$ 取得最小值，这叫做优化问题，而 $E(\omega)$ 就是优化的目标，称为目标函数。

梯度下降优化算法

每次都向函数 $y=f(x)$ 的梯度的相反方向来修改 $x$ ，这样每次函数都能往最小值的方向前进。对于函数 $E(\omega)=\frac12\sum_{i=1}^n(y^{(i)}-\bar y^{(i)})^2$ :

$\nabla E(\omega)=\frac\partial{\partial\omega}E(\omega)=\frac\partial{\partial\omega}\frac12\sum_{i=1}^n(y^{(i)}-\bar y^{(i)})^2=\frac12\sum_{i=1}^n\frac\partial{\partial\omega}(y^{(i)}-\bar y^{(i)})^2,$

其中，

$\frac\partial{\partial\omega}(y^{(i)}-\bar y^{(i)})^2=\frac\partial{\partial\bar y}(y^{(i)}-\bar y^{(i)})^2\cdot\frac{\partial \bar y}{\partial\omega}.$

而

$\frac\partial{\partial\bar y}(y^{(i)}-\bar y^{(i)})^2=-2y^{(i)}+2\bar y^{(i)},\\\frac{\partial\bar y}{\partial\omega}=\frac\partial{\partial\omega}\omega^Tx=x.$

代入，得

$\nabla E(\omega)=-\sum_{i=1}^n(y^{(i)}-\bar y^{(i)})x$

所以，

$\omega_{\text{new}}=\omega_{\text{old}}+\eta\sum_{i=1}^n(y^{(i)}-\bar y^{(i)})x^{(i)}$

注意，如果每个样本有 $M$ 个特征，则上式中的 $x$ ， $\omega$ 都是 $M+1$ 维向量（加上了 $x_0$ ）， $y$ 是标量。

随机梯度下降算法

每次更新 $\omega$ 的迭代，要遍历训练数据中的所有样本进行计算，这种算法叫批梯度下降(Batch Gradient Descent, BGD)。

实用的算法是随机梯度下降(Stochastic Gradient Descent, SGD)，每次 $\omega$ 的迭代只计算一个样本，效率大大提升。但存在随机性，每次更新 $\omega$ 并不一定按照减小 $E$ 的方向，不过大量的更新总体上会沿着减少 $E$ 的方向前进。SGD不仅效率高，其随机性有助于找到非凸函数的最小值，从而获得更好的模型。

代码

from perceptron import Perceptron

f = lambda x: x

class LinearUnit(Perceptron):
		"""
		继承Perceptron类
		"""
    def __init__(self, input_num):
        Perceptron.__init__(self, input_num, f)

def get_training_dataset():
    input_vecs = [[5], [3], [8], [1.4], [10.1]]
    labels = [5500, 2300, 7600, 1800, 11400]
    return input_vecs, labels

def train_linear_unit():
    lu = LinearUnit(1)
    input_vecs, labels = get_training_dataset()
    lu.train(input_vecs, labels, 10, 0.01)
    return lu

if __name__ == '__main__':
    linear_unit = train_linear_unit()
    print(linear_unit)
    print('Work 3.4 years:%.2f' % linear_unit.predict([3.4]))
    print('Work 15 years:%.2f'  % linear_unit.predict([15]))
    print('Work 1.5 years:%.2f' % linear_unit.predict([1.5]))
    print('Work 6.3 years:%.2f' % linear_unit.predict([6.3]))