机器学习第一章机器学习分类线性回归梯度下降正规方程组

参考资料来源于： Machine learning: Trends, perspectives, and prospects 斯坦福大学机器学习CS 229公开课第一讲讲义梯度下降(Gradient Descent)小结 - 刘建平Pinard - 博客园梯度下降算法和正规方程组学习笔记 - CODE and POEM - CSDN博客

机器学习简介

定义

对于某类任务T和性能度量P，如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善，那么我们称这个计算机程序在从经验E学习。

常用符号

我们需要先了解几个在机器学习中常常会用到的符号：

m：训练样本的数目，例如判断一个肿瘤是良性还是恶性的数据分析中，大量未知其良性还是恶性的样本肿瘤的总数就是该训练样本的数目。

$x：输入变量（特征）$ $y：输出变量（目标变量）$ $(x,y)：一个样本$ $(x^{(i)},y^{(i)})：第i个样本$ $θ(parameter)：参数，一般为我们希望得到的目标参数$ $h：输出函数，也经常被称之为“假设”（hypothesis）$ $a:=b：表示在运算中a被b的值覆盖$ $a=b：真值断言，就是a的值等于b$ $\{(x^{(i)},y^{(i)})i=1,...,m;\}：训练集（training set）$

线性回归

为了引入线性回归，我们需要先引入一个用于描述监督学习的流程：

$我们的目标是，给定一个训练集X，让机器学习到这映射h:X -> Y ，从而让它得知h(x)是对应y的一个“好的”预测或者说是自变量，我们可以将这个过程用下面这副图来表示：$

图片来源:斯坦福大学机器学习CS 229公开课第一讲讲义

当我们要预测的值是连续的时候，我们就称这个学习问题是一个回归问题（regression problem）。当我们试图预测的值是一个离散值的时候（例如我们试图让机器判断一个住所是单元房还是公寓的时候，机器仅从“单元房”和“公寓”取y值），我们就称之为分类问题(classification problem)。

例子

为了更加方便的说明线性回归算法，我们需要先引入一个题目。

假设有一片住户区，那里有面积大小和卧室数量不尽相同不同的房子，如图：

$在这里，输入变量x是一个在空间R^2中的二维向量。x_1^{(i)}表示第i个房子的面积，x_2^{(i)}则表示第i个房子的卧室数量。$

我们可以用下面这个方程来近似表示这个例子中y关于x的线性关系：

$h_θ(x)=θ_0+θ_1x_1+θ_2x_2$

在这里，θ便被称之为参数（或者说权重（weight）），用于参数化空间X到Y的映射。有时候，我们可以将h_θ(x)中的θ下标去掉，只要它不会引起不必要的误解。为了更加简化我们的方程，我们还可以这样写：

$h(x)=\sum^n_{i=0}θ_ix_i=θ^Tx$

为了使h(x)（近似值）与y（实际输出值）尽可能的接近，我们需要一个函数用于描述h(x)与y之间的差距，或说误差，当函数值越小，h(x)就会越接近y值，这个函数，我们称之为成本函数：

$J(θ)=\frac{1}{2}\sum^m_{i=1}(h_θ(x^{(i)})-y^{(i)})^2$

之所以使用平方，是为了避免正负误差相互抵消，前面的1/2则是为了方便我们之后的计算。

梯度下降

标准公式

为了使J(θ)（误差）尽可能的小，我们需要很好的挑选θ的值，一般来说，我们在最初会给θ挑一个接近但是并不完全准确的值，然后，通过不断地调整，使θ一步一步地接近我们所期望的θ值。

为了实现这个目的，我们一般会采用梯度下降算法（gradient descent），它以一个初始的θ作为起始点，然后不断地更新θ的值，直到J(θ)成为最小值，如图：

图片来源梯度下降(Gradient Descent)小结 - 刘建平Pinard - 博客园

从一个初始的θ值，一步一步沿着最快的下降方向使得j(θ)达到最小值。它每一步的计算的具体公式如下:

$θ_j:=θ_j-α\frac{\delta}{\delta θ_j}J(θ)$

在这里，α被称为学习速度，是一个由我们手动设置的算法参数。它表示每一次进行梯度下降时下降的幅度，如果过小会导致计算速度缓慢，过大会则导致一次性下降幅度过大以至于跳过了最小值。

而 $$\frac{\delta}{\delta θ_j}J(θ)$ $则表示J(θ)的偏导，我们知道，一个函数关于某点的偏导与该点构成的Nabla算子便是该函数在该点上的变化率最大（1）的方向向量，即梯度。

由此我们可以语言描述如下：

$更新后的参数=初始参数-学习速度*梯度$

要注意这里的参数也是向量。

计算方式

只看上面的公式该如何执行或许还有些麻烦，因此我们还需要将公式展开，以便于了解公式的计算方式。

假设我们只有一个样本(x,y)，这样子我们可以忽略函数值J的总和，因此得到:

然后在这个单一样本中，我们就可以进行如下更新：

这个过程就被称为最小均方更新法（LMS(Least mean quares) update rule），这个地方我们可以直观的看到，误差J(θ)也会根据θ值的更新而变得越来越接近0，如果一开始选择的初始θ很大，那么J(θ)也会非常大。

我们重复更新θ值，直到J(θ)的变化变得非常小，从而获得我们的回归方程。

批梯度下降算法

一般来说，我们都会这样子执行上述的计算过程：

重复按下面公式更新θ

直到J(θ)收敛

这个计算方式被称为批梯度下降算法(batch gradient descent)，“批”字表明这个算法在θ中的每一次更新，都会对所有的样本总计m个样本进行计算，但也因此，我们会发现，一旦m的数量过于庞大，这个算法的计算量也会相应变得非常巨大，因此，为了能够对应大量数据，我们就需要使用更加适合真实数据集的算法：

随机梯度下降算法（增量梯度下降算法）

它的计算方式如下：

可以看到，在这个计算过程中，我们每次只从总样本中抽取一个样本来进行计算。这种计算方式就被称为随机梯度下降算法/增量梯度下降算法（stochastic gradient descent/incremental gradient descent）。但是，通过随机梯度下降算法往往只能够得到比较接近我们期望的θ的θ，

正规方程组

除了梯度下降，我们还可以使用正规方程组来得到我们想要的结果。这个方法通过矩阵的计算达到结果，这会比我们直接使用代数进行计算要好一些。

矩阵梯度

首先我们来定义一下对以矩阵作为参数的函数的梯度运算：

例子：假设我们有函数

则

设计矩阵

我们定义矩阵X为设计矩阵，它的表示如下：

这个矩阵表示所有样本的输入。同时，我们再设定

$\vec{y}为m由所有目标值组成的m维向量$

于是，我们作出如下方程：

并由定理 $$z^Tz=\sum_iz^2_i$ $得到：

关于矩阵迹的几条性质

然后我们需要知道几条关于矩阵和迹的特殊性质：

其中，第四条中的矩阵A必须为非奇异矩阵，第五条是由第二条和第三条推导出来的。

它们是由这几条性质推导而得：

如果A*B是方阵，则：

$trAB=trBA$

而且还可以根据上面得到：

$trABC=trCAB=trBCA\\ trABCD=trDABC=trCDAB=trBCDA$

如果A和B是方阵，并且a是一个实数：

$trA=trA^T\\ tr(A+B)=trA+trB\\ traA=atrA$

我们对最初五条性质进行一一推导：

第一条

$\nabla_AAB=B^T$

第二条

$\nabla_{A^T}f(A)=(\nabla_Af(A))^T$

第三条

$\nabla_AtrABA^TC=CAB+C^TAB^T$

其实就是根据复合函数的求导法则与链式求导法则进行推导的。

第四条

$\nabla_A|A|=|A|(A^{-1})^T$ $\nabla_A|A|=(adj(A))^T，adj(A)为A的伴随矩阵\\ =|A|(A^{-1})^T$

第五条

$\nabla_{A^T}trABA^TC=B^TA^TC^T+BA^TC$

由公式第二条和第三条求得，不再赘述

借由上面的公式，我们可以得到：

备注：

因为 $θ^TX^TXθ-θ^TX^T\vec{y}-\vec{y}^TXθ+\vec{y}^T\vec{y}$ 是一个实数，所以它的迹等于它本身
第四步，通过 $trA=trA^T$ 将第二第三项合并
第五步他先把第一项化成 $trθ^TX^TXθI，然后利用第五条式子将其展开，其中\\ A^T=θ,B=X^TX,C=I$

最后，假设J(θ)为0，从而得到:

$X^TXθ=X^T\vec{y}\\ θ=(X^TX)^{-1}X^T\vec{y}$

这便是正规方程组，其实我们可以直接用矩阵的空间结构来得到这个方程，这在我的笔记线性代数最小二乘法有记录，这里就不再赘述。

ZyBlog

机器学习第一章机器学习分类线性回归梯度下降正规方程组

机器学习简介

定义

分类

监督学习

无监督学习

强化学习

常用符号

线性回归

例子