[toc]
多元线性回归
测试:$$ evidence_{i}=\sum_{j}W_{ij}x_{j}+b_{i} $$
1、基本概念
线性回归是机器学习中有监督 机器学习下的一种算法。 回归问题 主要关注的是因变量 (需要预测的值,可以是一个也可以是多个)和一个或多个数值型的自变量 (预测变量)之间的关系。
需要预测的值:即目标变量,target,y,连续值 预测变量。
影响目标变量的因素:X _ 1 X\_1 X _1 …X _ n X\_n X _ n ,可以是连续值也可以是离散值。
因变量和自变量之间的关系:即模型 ,model,是我们要求解的。
1.1、连续值
1.2、离散值
1.3、简单线性回归
前面提到过,算法说白了就是公式,简单线性回归属于一个算法,它所对应的公式。
y = w x + b y = wx + b y = w x + b
这个公式中,y 是目标变量即未来要预测的值,x 是影响 y 的因素,w,b 是公式上的参数即要求的模型。其实 b 就是咱们的截距,w 就是斜率嘛! 所以很明显如果模型求出来了,未来影响 y 值的未知数就是一个 x 值,也可以说影响 y 值 的因素只有一个,所以这是就叫简单 线性回归的原因。
同时可以发现从 x 到 y 的计算,x 只是一次方,所以这是算法叫线性 回归的原因。 其实,大家上小学时就已经会解这种一元一次方程了。为什么那个时候不叫人工智能算法呢?因为人工智能算法要求的是最优解!
1.4、最优解
Actual value:真实值 ,一般使用 y 表示。
Predicted value:预测值 ,是把已知的 x 带入到公式里面和猜 出来的参数 w,b 计算得到的,一般使用 h a t y \\hat{y} ha t y 表示。
Error:误差 ,预测值和真实值的差距,一般使用 v a r e p s i l o n \\varepsilon v a re p s i l o n 表示。
最优解 :尽可能的找到一个模型使得整体的误差最小,整体的误差通常叫做损失 Loss。
Loss:整体的误差,Loss 通过损失函数 Loss function 计算得到。
1.5、多元线性回归
现实生活中,往往影响结果 y 的因素不止一个,这时 x 就从一个变成了 n 个,X _ 1 X\_1 X _1 …X _ n X\_n X _ n 同时简单线性回归的公式也就不在适用了。多元线性回归 公式如下:
$ \hat{y} = w_1X_1 + w_2X_2 + …… + w_nX_n + b $
b是截距,也可以使用w _ 0 w\_0 w _0 来表示
h a t y = w _ 1 X _ 1 + w _ 2 X _ 2 + … … + w _ n X _ n + w _ 0 \\hat{y} = w\_1X\_1 + w\_2X\_2 + …… + w\_nX\_n + w\_0 ha t y = w _1 X _1 + w _2 X _2 + …… + w _ n X _ n + w _0
\\hat{y} = w\_1X\_1 + w\_2X\_2 + …… + w\_nX\_n + w\_0 \* 1
使用向量来表示,X表示所有的变量,是一维向量;W表示所有的系数(包含w _ 0 w\_0 w _0 ),是一维向量,根据向量乘法规律,可以这么写:
h a t y = W T X \\hat{y} = W^TX ha t y = W T X
2、正规方程
2.1、最小二乘法矩阵表示
最小二乘法 可以将误差方程转化为有确定解的代数方程组 (其方程式数目正好等于未知数的个数),从而可求解出这些未知参数。这个有确定解的代数方程组称为最小二乘法估计的正规方程 。公式如下:
t h e t a = ( X T X ) − 1 X T y \\theta = (X^TX)^{-1}X^Ty t h e t a = ( X T X ) − 1 X T y 或者 W = ( X T X ) − 1 X T y W = (X^TX)^{-1}X^Ty W = ( X T X ) − 1 X T y ,其中的W 、 t h e t a W、\\theta W 、 t h e t a 即使方程的解!
公式是如何推导 的?
最小二乘法公式如下:
J ( t h e t a ) = f r a c 12 s u m l i m i t s i = 0 n ( h t h e t a ( x _ i ) − y _ i ) 2 J(\\theta) = \\frac{1}{2}\\sum\\limits_{i = 0}^n(h_{\\theta}(x\_i) - y\_i)^2 J ( t h e t a ) = f r a c 1 2 s u m l imi t s i = 0 n ( h t h e t a ( x _ i ) − y _ i ) 2
使用矩阵表示:
J ( t h e t a ) = f r a c 12 s u m l i m i t s i = 0 n ( h t h e t a ( x i ) − y ) ( h t h e t a ( x _ i ) − y ) J(\\theta) = \\frac{1}{2}\\sum\\limits_{i = 0}^n(h_{\\theta(x_i)} - y)(h_{\\theta(x\_i)} - y) J ( t h e t a ) = f r a c 1 2 s u m l imi t s i = 0 n ( h t h e t a ( x i ) − y ) ( h t h e t a ( x _ i ) − y )
J ( t h e t a ) = f r a c 12 ( X t h e t a − y ) T ( X t h e t a − y ) J(\\theta) = \\frac{1}{2}(X\\theta - y)^T(X\\theta - y) J ( t h e t a ) = f r a c 1 2 ( X t h e t a − y ) T ( X t h e t a − y )
之所以要使用转置T,是因为,矩阵运算规律是:矩阵A的一行乘以矩阵B的一列!
2.2、多元一次方程举例
1、二元一次方程
b e g i n c a s e s x + y = 14 2 x − y = 10 e n d c a s e s \\begin{cases} x + y=14\\ 2x - y = 10\\ \\end{cases} b e g in c a ses x + y = 14 2 x − y = 10 e n d c a ses
2、三元一次方程
b e g i n c a s e s x − y + z = 100 2 x + y − z = 80 3 x − 2 y + 6 z = 256 e n d c a s e s \\begin{cases} x - y + z = 100\\ 2x + y -z = 80\\ 3x - 2y + 6z = 256\\ \\end{cases} b e g in c a ses x − y + z = 100 2 x + y − z = 80 3 x − 2 y + 6 z = 256 e n d c a ses
3、八元一次方程
\\left{\\begin{align}&14x\_2 + 8x\_3 + 5x\_5 + -2x\_6 + 9x\_7 + -3x\_8 = 339\\&-4x\_1 + 10x\_2 + 6x\_3 + 4x\_4 + -14x\_5 + -2x\_6 + -14x\_7 + 8x\_8 = -114\\&-1x\_1 + -6x\_2 + 5x\_3 + -12x\_4 + 3x\_5 + -3x\_6 + 2x\_7 + -2x\_8 = 30\\&5x\_1 + -2x\_2 + 3x\_3 + 10x\_4 + 5x\_5 + 11x\_6 + 4x\_7 + -8x\_8 = 126\\&-15x\_1 + -15x\_2 + -8x\_3 + -15x\_4 + 7x\_5 + -4x\_6 + -12x\_7 + 2x\_8 = -395\\&11x\_1 + -10x\_2 + -2x\_3 + 4x\_4 + 3x\_5 + -9x\_6 + -6x\_7 + 7x\_8 = -87\\&-14x\_1 + 4x\_3 + -3x\_4 + 5x\_5 + 10x\_6 + 13x\_7 + 7x\_8 = 422\\&-3x\_1 + -7x\_2 + -2x\_3 + -8x\_4 + -6x\_6 + -5x\_7 + -9x\_8 = -309\\end{align}\\right.
1 2 3 4 5 6 7 8 9 10 11 [[ 0 14 8 0 5 -2 9 -3 ] [ -4 10 6 4 -14 -2 -14 8 ] [ -1 -6 5 -12 3 -3 2 -2 ] [ 5 -2 3 10 5 11 4 -8 ] [-15 -15 -8 -15 7 -4 -12 2 ] [ 11 -10 -2 4 3 -9 -6 7 ] [-14 0 4 -3 5 10 13 7 ] [ -3 -7 -2 -8 0 -6 -5 -9 ]] [ 339 -114 30 126 -395 -87 422 -309 ]
2.3、矩阵转置公式与求导公式:
转置公式如下:
( m A ) T = m A T (mA)^T = mA^T ( m A ) T = m A T ,其中m是常数
( A + B ) T = A T + B T (A + B)^T = A^T + B^T ( A + B ) T = A T + B T
( A B ) T = B T A T (AB)^T = B^TA^T ( A B ) T = B T A T
( A T ) T = A (A^T)^T = A ( A T ) T = A
求导公式如下:
\\frac{\\partial X^T}{\\partial X} = I$$ 求解出来是单位矩阵
f r a c p a r t i a l A X T p a r t i a l X = A \\frac{\\partial AX^T}{\\partial X} = A f r a c p a r t ia l A X T p a r t ia lX = A
f r a c p a r t i a l A X p a r t i a l X = A T \\frac{\\partial AX}{\\partial X} = A^T
f r a c p a r t ia l A X p a r t ia lX = A T
f r a c p a r t i a l X A p a r t i a l X = A T \\frac{\\partial XA}{\\partial X} = A^T
f r a c p a r t ia lX A p a r t ia lX = A T
f r a c p a r t i a l X T A X p a r t i a l X = ( A + A T ) X ; \\frac{\\partial X^TAX}{\\partial X} = (A + A^T)X; f r a c p a r t ia l X T A X p a r t ia lX = ( A + A T ) X ; A不是对称矩阵
f r a c p a r t i a l X T A X p a r t i a l X = 2 A X ; \\frac{\\partial X^TAX}{\\partial X} = 2AX; f r a c p a r t ia l X T A X p a r t ia lX = 2 A X ; A是对称矩阵
2.4、推导正规方程 t h e t a \\theta t h e t a 的解:
矩阵乘法公式展开
J ( t h e t a ) = f r a c 12 ( X t h e t a − y ) T ( X t h e t a − y ) J(\\theta) = \\frac{1}{2}(X\\theta - y)^T(X\\theta - y) J ( t h e t a ) = f r a c 1 2 ( X t h e t a − y ) T ( X t h e t a − y )
J ( t h e t a ) = f r a c 12 ( t h e t a T X T − y T ) ( X t h e t a − y ) J(\\theta) = \\frac{1}{2}(\\theta^TX^T - y^T)(X\\theta - y) J ( t h e t a ) = f r a c 1 2 ( t h e t a T X T − y T ) ( X t h e t a − y )
J ( t h e t a ) = f r a c 12 ( t h e t a T X T X t h e t a − t h e t a T X T y − y T X t h e t a + y T y ) J(\\theta) = \\frac{1}{2}(\\theta^TX^TX\\theta - \\theta^TX^Ty -y^TX\\theta + y^Ty) J ( t h e t a ) = f r a c 1 2 ( t h e t a T X T X t h e t a − t h e t a T X T y − y T X t h e t a + y T y )
进行求导(注意X、y是已知量,t h e t a \\theta t h e t a 是未知数):
J ′ ( t h e t a ) = f r a c 12 ( t h e t a T X T X t h e t a − t h e t a T X T y − y T X t h e t a + y T y ) ′ J'(\\theta) = \\frac{1}{2}(\\theta^TX^TX\\theta - \\theta^TX^Ty -y^TX\\theta + y^Ty)' J ′ ( t h e t a ) = f r a c 1 2 ( t h e t a T X T X t h e t a − t h e t a T X T y − y T X t h e t a + y T y ) ′
根据上面求导公式进行运算:
J ′ ( t h e t a ) = f r a c 12 ( X T X t h e t a + ( t h e t a T X T X ) T − X T y − ( y T X ) T ) J'(\\theta) = \\frac{1}{2}(X^TX\\theta + (\\theta^TX^TX)^T-X^Ty - (y^TX)^T) J ′ ( t h e t a ) = f r a c 1 2 ( X T X t h e t a + ( t h e t a T X T X ) T − X T y − ( y T X ) T )
J ′ ( t h e t a ) = f r a c 12 ( X T X t h e t a + X T X t h e t a − X T y − X T y ) J'(\\theta) = \\frac{1}{2}(X^TX\\theta + X^TX\\theta -X^Ty - X^Ty) J ′ ( t h e t a ) = f r a c 1 2 ( X T X t h e t a + X T X t h e t a − X T y − X T y )
J ′ ( t h e t a ) = f r a c 12 ( 2 X T X t h e t a − 2 X T y ) J'(\\theta) = \\frac{1}{2}(2X^TX\\theta -2X^Ty) J ′ ( t h e t a ) = f r a c 1 2 ( 2 X T X t h e t a − 2 X T y )
J ′ ( t h e t a ) = X T X t h e t a − X T y J'(\\theta) =X^TX\\theta -X^Ty J ′ ( t h e t a ) = X T X t h e t a − X T y
J ′ ( t h e t a ) = X T ( X t h e t a − y ) J'(\\theta) =X^T(X\\theta -y) J ′ ( t h e t a ) = X T ( X t h e t a − y ) 矩阵运算分配律
令导数J ′ ( t h e t a ) = 0 : J'(\\theta) = 0: J ′ ( t h e t a ) = 0 :
矩阵没有除法,使用逆矩阵进行转化:
( X T X ) − 1 X T X t h e t a = ( X T X ) − 1 X T y (X^TX)^{-1}X^TX\\theta = (X^TX)^{-1}X^Ty ( X T X ) − 1 X T X t h e t a = ( X T X ) − 1 X T y
I t h e t a = ( X T X ) − 1 X T y I\\theta = (X^TX)^{-1}X^Ty I t h e t a = ( X T X ) − 1 X T y
t h e t a = ( X T X ) − 1 X T y \\theta = (X^TX)^{-1}X^Ty t h e t a = ( X T X ) − 1 X T y
到此为止,公式推导出来了~
2.5、凸函数判定
判定损失函数是凸函数的好处在于我们可能很肯定的知道我们求得的极值即最优解,一定是全局最优解。
如果是非凸函数,那就不一定可以获取全局最优解~
来一个更加立体的效果图:
判定凸函数的方式: 判定凸函数的方式非常多,其中一个方法是看黑塞矩阵 是否是半正定 的。
黑塞矩阵(hessian matrix)是由目标函数在点 X 处的二阶偏导数组成的对称矩阵。
对于我们的式子来说就是在导函数的基础上再次对θ来求偏导,结果就是 X T X X^TX X T X 。所谓正定就是 X T X X^TX X T X 的特征值全为正数,半正定就是 X T X X^TX X T X 的特征值大于等于 0, 就是半正定。
J ′ ( t h e t a ) = X T X t h e t a − X T y J'(\\theta) =X^TX\\theta -X^Ty J ′ ( t h e t a ) = X T X t h e t a − X T y
J ′ ′ ( t h e t a ) = X T X J''(\\theta) =X^TX J ′′ ( t h e t a ) = X T X
这里我们对 J ( t h e t a ) J(\\theta) J ( t h e t a ) 损失函数求二阶导数的黑塞矩阵是 X T X X^TX X T X ,得到的一定是半正定的,自己和自己做点乘嘛!
这里不用数学推导证明这一点。在机器学习中往往损失函数都是凸函数 ,到深度学习 中损失函数往往是非凸函数 ,即找到的解未必 是全局最优,只要模型堪用就好!机器学习特点是:不强调模型 100% 正确,只要是有价值的,堪用的,就Okay!
3、线性回归算法推导
3.1、深入理解回归
回归 简单来说就是“回归平均值”(regression to the mean)。但是这里的 mean 并不是把 历史数据直接当成未来的预测值,而是会把期望值当作预测值。 追根溯源回归 这个词是一个叫高尔顿的人发明的,他通过大量观察数据发现:父亲比较高,儿子也比较高;父亲比较矮,那么儿子也比较矮!正所谓“龙生龙凤生凤老鼠的儿子会打洞”!但是会存在一定偏差~
父亲是 1.98,儿子肯定很高,但有可能不会达到1.98 父亲是 1.69,儿子肯定不高,但是有可能比 1.69 高
大自然让我们回归 到一定的区间之内,这就是大自然神奇 的力量。
高尔顿是谁?达尔文 的表弟,这下可以相信他说的十有八九是对的 了吧!
人类社会很多事情都被大自然这种神奇的力量只配置:身高、体重、智商、相貌……
这种神秘的力量就叫正态分布 。大数学家高斯,深入研究了正态分布,最终推导出了线性回归的原理:最小二乘法 !
接下来,我们跟着高斯的足迹继续向下走~
3.2、误差分析
误差 v a r e p s i l o n _ i \\varepsilon\_i v a re p s i l o n _ i 等于第 i 个样本实际的值 y _ i y\_i y _ i 减去预测的值 h a t y \\hat{y} ha t y ,公式可以表达为如下:
v a r e p s i l o n _ i = y _ i − h a t y \\varepsilon\_i = y\_i - \\hat{y} v a re p s i l o n _ i = y _ i − ha t y
v a r e p s i l o n _ i = y _ i − W T x _ i \\varepsilon\_i = y\_i - W^Tx\_i v a re p s i l o n _ i = y _ i − W T x _ i
假定所有的样本的误差都是独立的 ,有上下的震荡,震荡认为是随机变量,足够多的随机变量叠加之后形成的分布,它服从的就是正态分布,因为它是正常状态下的分布,也就是高斯分布!均值 是某一个值,方差 是某一个值。 方差我们先不管,均值我们总有办法让它去等于零 0 的,因为我们这里是有截距b, 所有误差我们就可以认为是独立分布的,1<=i<=n,服从均值为 0,方差为某定值的高斯分布 。机器学习中我们假设 误差符合均值为0,方差为定值的正态分布!!!
3.3、最大似然估计
最大似然估计(maximum likelihood estimation, MLE)一种重要而普遍的求估计量的方法。最大似然估计 明确地使用概率模型,其目标是寻找能够以较高概率产生观察数据的系统发生树。最大似然估计是一类完全基于统计 的系统发生树重建方法的代表。
是不是,有点看不懂,太学术 了,我们举例说明~
假如有一个罐子,里面有黑白 两种颜色的球,数目多少不知,两种颜色的比例 也不知。我们想知道罐中白球和黑球的比例,但我们不能 把罐中的球全部拿出来数。现在我们可以每次任意从已经摇匀 的罐中拿一个球出来,记录 球的颜色,然后把拿出来的球再放回 罐中。这个过程可以重复 ,我们可以用记录的球的颜色来估计罐中黑白球的比例。假如在前面的一百次重复记录中,有七十次是白球,请问罐中白球所占的比例最有可能 是多少?
请告诉我答案!
很多小伙伴,甚至不用算,凭感觉,就能给出答案:70% !
下面是详细推导过程:
最大似然估计,计算
白球概率是p,黑球是1-p(罐子中非黑即白)
罐子中取一个请问是白球的概率是多少?
罐子中取两个球,两个球都是白色,概率是多少?
罐子中取5个球都是白色,概率是多少?
罐子中取10个球,9个是白色,一个是黑色,概率是多少呢?
罐子取100个球,70次是白球,30次是黑球,概率是多少?
最大似然估计,什么时候P最大呢?
C _ 100 30 C\_{100}^{30} C _ 100 30 是常量,可以去掉 !
p > 0,1- p > 0,所以上面概率想要求最大值,那么求导数 即可!
P' = 70_p^{69}_(1-p)^{30} + p^{70}_30_(1-p)^{29}\*(-1)
令导数为0:
0 = 70_p^{69}_(1-p)^{30} +p^{70}_30_(1-p)^{29}\*(-1)
公式化简:
0 = 70 ( 1 − p ) − p 3 0 0 = 70_(1-p) - p_30
0 = 7 0 ( 1 − p ) − p 3 0
0 = 70 - 100\*p
p = 70%
3.4、高斯分布-概率密度函数
最常见的连续概率分布是正态分布 ,也叫高斯分布 ,而这正是我们所需要的,其概率密度函数如下:
公式如下:
f ( x m u , s i g m a 2 ) = f r a c 1 s q r t 2 p i s i g m a e − f r a c ( x − m u ) 2 2 s i g m a 2 f(x\\mu,\\sigma^2) = \\frac{1}{\\sqrt{2\\pi}\\sigma}e^{-\\frac{(x - \\mu)^2}{2\\sigma^2}} f ( x m u , s i g m a 2 ) = f r a c 1 s q r t 2 p i s i g ma e − f r a c ( x − m u ) 2 2 s i g m a 2
随着参数μ和σ变化 ,概率分布也产生变化。 下面重要的步骤来了,我们要把一组数据误差出现的总似然 ,也就是一组数据之所以对应误差出现的整体可能性 表达出来了,因为数据的误差我们假设服从一个高斯分布,并且通过截距 项来平移整体分布的位置从而使得μ=0 ,所以样本的误差我们可以表达其概率密度函数的值如下:
f ( v a r e p s i l o n m u = 0 , s i g m a 2 ) = f r a c 1 s q r t 2 p i s i g m a e − f r a c ( v a r e p s i l o n − 0 ) 2 2 s i g m a 2 f(\\varepsilon\\mu = 0,\\sigma^2) = \\frac{1}{\\sqrt{2\\pi}\\sigma}e^{-\\frac{(\\varepsilon - 0)^2}{2\\sigma^2}} f ( v a re p s i l o n m u = 0 , s i g m a 2 ) = f r a c 1 s q r t 2 p i s i g ma e − f r a c ( v a re p s i l o n − 0 ) 2 2 s i g m a 2
简化 如下:
f ( v a r e p s i l o n 0 , s i g m a 2 ) = f r a c 1 s q r t 2 p i s i g m a e − f r a c v a r e p s i l o n 2 2 s i g m a 2 f(\\varepsilon 0,\\sigma^2) = \\frac{1}{\\sqrt{2\\pi}\\sigma}e^{-\\frac{\\varepsilon ^2}{2\\sigma^2}} f ( v a re p s i l o n 0 , s i g m a 2 ) = f r a c 1 s q r t 2 p i s i g ma e − f r a c v a re p s i l o n 2 2 s i g m a 2
3.5、误差总似然
和前面黑球白球问题类似 ,也是一个累乘 问题~
P = p r o d l i m i t s _ i = 0 n f ( v a r e p s i l o n i 0 , s i g m a 2 ) = p r o d l i m i t s i = 0 n f r a c 1 s q r t 2 p i s i g m a e − f r a c v a r e p s i l o n _ i 2 2 s i g m a 2 P = \\prod\\limits\_{i = 0}^{n}f(\\varepsilon_i0,\\sigma^2) = \\prod\\limits_{i = 0}^{n}\\frac{1}{\\sqrt{2\\pi}\\sigma}e^{-\\frac{\\varepsilon\_i ^2}{2\\sigma^2}} P = p ro d l imi t s _ i = 0 n f ( v a re p s i l o n i 0 , s i g m a 2 ) = p ro d l imi t s i = 0 n f r a c 1 s q r t 2 p i s i g ma e − f r a c v a re p s i l o n _ i 2 2 s i g m a 2
根据前面公式v a r e p s i l o n _ i = y _ i − W T x _ i \\varepsilon\_i = y\_i - W^Tx\_i v a re p s i l o n _ i = y _ i − W T x _ i 可以推导出来如下公式:
P = p r o d l i m i t s _ i = 0 n f ( v a r e p s i l o n i 0 , s i g m a 2 ) = p r o d l i m i t s i = 0 n f r a c 1 s q r t 2 p i s i g m a e − f r a c ( y _ i − W T x _ i ) 2 2 s i g m a 2 P = \\prod\\limits\_{i = 0}^{n}f(\\varepsilon_i0,\\sigma^2) = \\prod\\limits_{i = 0}^{n}\\frac{1}{\\sqrt{2\\pi}\\sigma}e^{-\\frac{(y\_i - W^Tx\_i)^2}{2\\sigma^2}} P = p ro d l imi t s _ i = 0 n f ( v a re p s i l o n i 0 , s i g m a 2 ) = p ro d l imi t s i = 0 n f r a c 1 s q r t 2 p i s i g ma e − f r a c ( y _ i − W T x _ i ) 2 2 s i g m a 2
公式中的未知变量 就是W T W^T W T ,即方程的系数,系数包含截距~如果,把上面当成一个方程,就是概率P关于W的方程!其余符号,都是常量!
P W = p r o d l i m i t s i = 0 n f r a c 1 s q r t 2 p i s i g m a e − f r a c ( y _ i − W T x _ i ) 2 2 s i g m a 2 P_W= \\prod\\limits_{i = 0}^{n}\\frac{1}{\\sqrt{2\\pi}\\sigma}e^{-\\frac{(y\_i - W^Tx\_i)^2}{2\\sigma^2}} P W = p ro d l imi t s i = 0 n f r a c 1 s q r t 2 p i s i g ma e − f r a c ( y _ i − W T x _ i ) 2 2 s i g m a 2
现在问题,就变换成了,求最大似然 问题了!不过,等等~
累乘的最大似然,求解是非常麻烦的!
接下来,我们通过,求对数 把累乘 问题,转变为累加 问题(加法问题,无论多复杂,都难不倒我了!)
3.6、最小二乘法MSE
P W = p r o d l i m i t s i = 0 n f r a c 1 s q r t 2 p i s i g m a e − f r a c ( y _ i − W T x _ i ) 2 2 s i g m a 2 P_W = \\prod\\limits_{i = 0}^{n}\\frac{1}{\\sqrt{2\\pi}\\sigma}e^{-\\frac{(y\_i - W^Tx\_i)^2}{2\\sigma^2}} P W = p ro d l imi t s i = 0 n f r a c 1 s q r t 2 p i s i g ma e − f r a c ( y _ i − W T x _ i ) 2 2 s i g m a 2
根据对数,单调性,对上面公式求自然底数e的对数,效果不变~
l o g _ e ( P _ W ) = l o g e ( p r o d l i m i t s i = 0 n f r a c 1 s q r t 2 p i s i g m a e − f r a c ( y _ i − W T x _ i ) 2 2 s i g m a 2 ) log\_e(P\_W) = log_e(\\prod\\limits_{i = 0}^{n}\\frac{1}{\\sqrt{2\\pi}\\sigma}e^{-\\frac{(y\_i - W^Tx\_i)^2}{2\\sigma^2}}) l o g _ e ( P _ W ) = l o g e ( p ro d l imi t s i = 0 n f r a c 1 s q r t 2 p i s i g ma e − f r a c ( y _ i − W T x _ i ) 2 2 s i g m a 2 )
接下来 log 函数继续为你带来惊喜,数学上连乘是个大麻烦,即使交给计算机去求解它也得哭出声来 。惊喜是:
l o g _ a ( X Y ) = l o g _ a X + l o g _ a Y log\_a(XY) = log\_aX + log\_aY l o g _ a ( X Y ) = l o g _ a X + l o g _ aY
l o g _ a f r a c X Y = l o g _ a X − l o g _ a Y log\_a\\frac{X}{Y} = log\_aX - log\_aY l o g _ a f r a c X Y = l o g _ a X − l o g _ aY
log\_aX^n = n\*log\_aX
l o g _ a ( X _ 1 X _ 2 … … X _ n ) = l o g _ a X _ 1 + l o g _ a X _ 2 + … … + l o g _ a X _ n log\_a(X\_1X\_2……X\_n) = log\_aX\_1 + log\_aX\_2 + …… + log\_aX\_n l o g _ a ( X _1 X _2 …… X _ n ) = l o g _ a X _1 + l o g _ a X _2 + …… + l o g _ a X _ n
l o g _ x x n = n ( n i n R ) log\_xx^n = n(n\\in R) l o g _ x x n = n ( n in R )
l o g _ a f r a c 1 X = − l o g _ a X log\_a\\frac{1}{X} = -log\_aX l o g _ a f r a c 1 X = − l o g _ a X
log\_a\\sqrt\[x\]{N^y} = \\frac{y}{x}log\_aN
l o g _ e ( P _ W ) = l o g e ( p r o d l i m i t s i = 0 n f r a c 1 s q r t 2 p i s i g m a e − f r a c ( y _ i − W T x _ i ) 2 2 s i g m a 2 ) log\_e(P\_W) = log_e(\\prod\\limits_{i = 0}^{n}\\frac{1}{\\sqrt{2\\pi}\\sigma}e^{-\\frac{(y\_i - W^Tx\_i)^2}{2\\sigma^2}}) l o g _ e ( P _ W ) = l o g e ( p ro d l imi t s i = 0 n f r a c 1 s q r t 2 p i s i g ma e − f r a c ( y _ i − W T x _ i ) 2 2 s i g m a 2 )
= s u m l i m i t s _ i = 0 n l o g _ e ( f r a c 1 s q r t 2 p i s i g m a e − f r a c ( y _ i − W T x _ i ) 2 2 s i g m a 2 ) =\\sum\\limits\_{i = 0}^{n}log\_e(\\frac{1}{\\sqrt{2\\pi}\\sigma}e^{-\\frac{(y\_i - W^Tx\_i)^2}{2\\sigma^2}}) = s u m l imi t s _ i = 0 n l o g _ e ( f r a c 1 s q r t 2 p i s i g ma e − f r a c ( y _ i − W T x _ i ) 2 2 s i g m a 2 ) 累乘问题变成累加 问题~
乘风破浪,继续推导—>
= s u m l i m i t s _ i = 0 n ( l o g _ e f r a c 1 s q r t 2 p i s i g m a − f r a c ( y _ i − W T x _ i ) 2 2 s i g m a 2 ) =\\sum\\limits\_{i = 0}^{n}(log\_e\\frac{1}{\\sqrt{2\\pi}\\sigma} - \\frac{(y\_i - W^Tx\_i)^2}{2\\sigma^2}) = s u m l imi t s _ i = 0 n ( l o g _ e f r a c 1 s q r t 2 p i s i g ma − f r a c ( y _ i − W T x _ i ) 2 2 s i g m a 2 )
= s u m l i m i t s _ i = 0 n ( l o g _ e f r a c 1 s q r t 2 p i s i g m a − f r a c 1 s i g m a 2 c d o t f r a c 12 ( y _ i − W T x _ i ) 2 ) =\\sum\\limits\_{i = 0}^{n}(log\_e\\frac{1}{\\sqrt{2\\pi}\\sigma} - \\frac{1}{\\sigma^2}\\cdot\\frac{1}{2}(y\_i - W^Tx\_i)^2) = s u m l imi t s _ i = 0 n ( l o g _ e f r a c 1 s q r t 2 p i s i g ma − f r a c 1 s i g m a 2 c d o t f r a c 1 2 ( y _ i − W T x _ i ) 2 )
上面公式是最大似然求对数后的变形,其中p i 、 s i g m a \\pi、\\sigma p i 、 s i g ma 都是常量,而( y _ i − W T x _ i ) 2 (y\_i - W^Tx\_i)^2 ( y _ i − W T x _ i ) 2 肯定大于零 !上面求最大值问题,即可转变为如下求最小值 问题:
L ( W ) = f r a c 12 s u m l i m i t s _ i = 0 n ( y ( i ) − W T x ( i ) ) 2 L(W) = \\frac{1}{2}\\sum\\limits\_{i = 0}^n(y^{(i)} - W^Tx^{(i)})^2 L ( W ) = f r a c 1 2 s u m l imi t s _ i = 0 n ( y ( i ) − W T x ( i ) ) 2 L代表Loss,表示损失函数,损失函数越小 ,那么上面最大似然就越大 ~
有的书本上公式,也可以这样写,用J ( t h e t a ) J(\\theta) J ( t h e t a ) 表示一个意思,t h e t a \\theta t h e t a 的角色就是W:
J ( t h e t a ) = f r a c 12 s u m l i m i t s i = 1 n ( y ( i ) − t h e t a T x ( i ) ) 2 = f r a c 12 s u m l i m i t s i = 1 n ( t h e t a T x ( i ) − y ( i ) ) 2 J(\\theta) = \\frac{1}{2}\\sum\\limits_{i = 1}^n(y^{(i)} - \\theta^Tx^{(i)})^2 = \\frac{1}{2}\\sum\\limits_{i = 1}^n(\\theta^Tx^{(i)} - y^{(i)})^2 J ( t h e t a ) = f r a c 1 2 s u m l imi t s i = 1 n ( y ( i ) − t h e t a T x ( i ) ) 2 = f r a c 1 2 s u m l imi t s i = 1 n ( t h e t a T x ( i ) − y ( i ) ) 2
进一步提取:
J ( t h e t a ) = f r a c 12 s u m l i m i t s i = 1 n ( h t h e t a ( x ( i ) ) − y ( i ) ) 2 J(\\theta) = \\frac{1}{2}\\sum\\limits_{i = 1}^n(h_{\\theta}(x^{(i)}) - y^{(i)})^2 J ( t h e t a ) = f r a c 1 2 s u m l imi t s i = 1 n ( h t h e t a ( x ( i ) ) − y ( i ) ) 2
其中:
h a t y = h _ t h e t a ( X ) = X t h e t a \\hat{y} = h\_{\\theta}(X) =X \\theta ha t y = h _ t h e t a ( X ) = X t h e t a 表示全部数据,是矩阵,X表示多个数据,进行矩阵乘法时,放在前面
h a t y i = h t h e t a ( x ( i ) ) = t h e t a T x ( i ) \\hat{y}_i = h_{\\theta}(x^{(i)}) = \\theta^Tx^{(i)} ha t y i = h t h e t a ( x ( i ) ) = t h e t a T x ( i ) 表示第i个数据,是向量,所以进行乘法时,其中一方需要转置
因为最大似然公式中有个负号 ,所以最大总似然变成了最小化 负号后面的部分。 到这里,我们就已经推导出来了 MSE 损失函数J ( t h e t a ) J(\\theta) J ( t h e t a ) ,从公式我们也可以看出来 MSE 名字的来 历,mean squared error,上式也叫做最小二乘法!
3.7、归纳总结升华
这种最小二乘法估计,其实我们就可以认为,假定了误差服从正太分布,认为样本误差的出现是随机的,独立的,使用最大似然估计思想,利用损失函数最小化 MSE 就能求出最优解!所以反过来说,如果我们的数据误差不是互相独立的,或者不是随机出现的,那么就不适合去假设为正太分布,就不能去用正太分布的概率密度函数带入到总似然的函数中,故而就不能用 MSE 作为损失函数去求解最优解了!所以,最小二乘法不是万能的~
还有譬如假设误差服从泊松分布,或其他分布那就得用其他分布的概率密度函数去推导出损失函数了。
所以有时我们也可以把线性回归看成是广义线性回归。比如,逻辑回归,泊松回归都属于广义线性回归的一种,这里我们线性回归可以说是最小二乘线性回归。
4、线性回归实战
4.1、使用正规方程进行求解
4.1.1、简单线性回归
y = w x + b y = wx + b y = w x + b
一元一次方程,在机器学习中一元表示一个特征,b表示截距,y表示目标值。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 import numpy as npimport matplotlib.pyplot as plt X = np.linspace(0 ,10 ,num = 30 ).reshape(-1 ,1 ) w = np.random.randint(1 ,5 ,size = 1 ) b = np.random.randint(1 ,10 ,size = 1 ) y = X * w + b + np.random.randn(30 ,1 ) plt.scatter(X,y) X = np.concatenate([X,np.full(shape = (30 ,1 ),fill_value= 1 )],axis = 1 ) θ = np.linalg.inv(X.T.dot(X)).dot(X.T).dot(y).round (2 )print ('一元一次方程真实的斜率和截距是:' ,w, b)print ('通过正规方程求解的斜率和截距是:' ,θ) plt.plot(X[:,0 ],X.dot(θ),color = 'green' )
效果如下(random.randn是随机生成正太分布数据,所以每次执行图形会有所不同):
4.1.2、多元线性回归
y = w _ 1 x _ 1 + w _ 2 x _ 2 + b y = w\_1x\_1 + w\_2x\_2 + b y = w _1 x _1 + w _2 x _2 + b
二元一次方程,x _ 1 、 x _ 2 x\_1、x\_2 x _1 、 x _2 相当于两个特征,b是方程截距
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 import numpy as npimport matplotlib.pyplot as pltfrom mpl_toolkits.mplot3d.axes3d import Axes3D x1 = np.random.randint(-150 ,150 ,size = (300 ,1 )) x2 = np.random.randint(0 ,300 ,size = (300 ,1 )) w = np.random.randint(1 ,5 ,size = 2 ) b = np.random.randint(1 ,10 ,size = 1 ) y = x1 * w[0 ] + x2 * w[1 ] + b + np.random.randn(300 ,1 ) fig = plt.figure(figsize=(9 ,6 )) ax = Axes3D(fig) ax.scatter(x1,x2,y) ax.view_init(elev=10 , azim=-20 ) X = np.concatenate([x1,x2,np.full(shape = (300 ,1 ),fill_value=1 )],axis = 1 ) w = np.concatenate([w,b]) θ = np.linalg.inv(X.T.dot(X)).dot(X.T).dot(y).round (2 )print ('二元一次方程真实的斜率和截距是:' ,w)print ('通过正规方程求解的斜率和截距是:' ,θ.reshape(-1 )) x = np.linspace(-150 ,150 ,100 ) y = np.linspace(0 ,300 ,100 ) z = x * θ[0 ] + y * θ[1 ] + θ[2 ] ax.plot(x,y,z ,color = 'red' )
效果如下:
4.2、机器学习库scikit-learn
4.2.2、scikit-learn实现简单线性回归
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 from sklearn.linear_model import LinearRegressionimport numpy as npimport matplotlib.pyplot as plt X = np.linspace(0 ,10 ,num = 30 ).reshape(-1 ,1 ) w = np.random.randint(1 ,5 ,size = 1 ) b = np.random.randint(1 ,10 ,size = 1 ) y = X * w + b + np.random.randn(30 ,1 ) plt.scatter(X,y) model = LinearRegression() model.fit(X,y) w_ = model.coef_ b_ = model.intercept_print ('一元一次方程真实的斜率和截距是:' ,w, b)print ('通过scikit-learn求解的斜率和截距是:' ,w_,b_) plt.plot(X,X.dot(w_) + b_,color = 'green' )
4.2.3、scikit-learn实现多元线性回归
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 import numpy as npimport matplotlib.pyplot as pltfrom mpl_toolkits.mplot3d.axes3d import Axes3D x1 = np.random.randint(-150 ,150 ,size = (300 ,1 )) x2 = np.random.randint(0 ,300 ,size = (300 ,1 )) w = np.random.randint(1 ,5 ,size = 2 ) b = np.random.randint(1 ,10 ,size = 1 ) y = x1 * w[0 ] + x2 * w[1 ] + b + np.random.randn(300 ,1 ) fig = plt.figure(figsize=(9 ,6 )) ax = Axes3D(fig) ax.scatter(x1,x2,y) ax.view_init(elev=10 , azim=-20 ) X = np.concatenate([x1,x2],axis = 1 ) model = LinearRegression() model.fit(X,y) w_ = model.coef_.reshape(-1 ) b_ = model.intercept_print ('二元一次方程真实的斜率和截距是:' ,w,b)print ('通过scikit-learn求解的斜率和截距是:' ,w_,b_) x = np.linspace(-150 ,150 ,100 ) y = np.linspace(0 ,300 ,100 ) z = x * w_[0 ] + y * w_[1 ] + b_ ax.plot(x,y,z ,color = 'green' )