不断更新中

课程地址:【机器学习】【白板推导系列】【合集 1~23】_哔哩哔哩_bilibili

Introduction Frequentists vs Bayesians

Data: X=(x1,,xN)NpTX = (x_1, \dots, x_N)^T_{N*p}

X服从概率模型 Xp(xθ)X \sim p(x|\theta)

频率派

θ\theta 是未知的常量,X是随机变量,常用MLE极大似然估计:

θMLE=argmaxθlogP(Xθ)\theta_{MLE}=\substack{argmax\\ \theta} log P(X|\theta)logP(Xθ)log P(X|\theta)一般记为L(θ)L(\theta)

此处log是为了方便计算,如果不log的话P等于每个独立同分布的xix_i的连乘,加上log符号只要求和即可

贝叶斯派

认为参数θ\theta也是一个随机变量,服从概率分布θp(θ)\theta \sim p(\theta),把p(θ)p(\theta)称为先验

先验概率、后验概率:先验概率指全事件背景下A事件发生的概率,后验指B事件发生条件下A事件发生的概率

似然:已知结果求原因

借助贝叶斯定理把先验后验和似然联系起来:

P(θX)=P(Xθ)P(θ)P(X)P(\theta|X) = \displaystyle\frac{P(X|\theta) * P(\theta)}{P(X)}

P(θX)P(\theta|X)为后验, P(Xθ)P(X|\theta) 为似然, P(θ)P(\theta) 为先验

P(X)P(X) 实际上是个积分: P(X)=θP(Xθ)P(θ)dθP(X) = \int _{\theta} P(X|\theta)P(\theta)d\theta

MAP最大后验概率估计

引入一个参数估计方法MAP最大后验概率估计:

MAP: 让最大后验概率最大的点作为概率估计(众数mode)

θMAP=argmaxθP(θX)=argmaxθP(Xθ)P(θ)\theta_{MAP}=\substack{argmax\\ \theta} P(\theta | X)=\substack{argmax\\ \theta} P(X|\theta) * P(\theta)

这里第二个等号原理:贝叶斯公式,观察到P(X)P(X)θ\theta无关

贝叶斯估计

MAP严格意义上不是贝叶斯派用的方法。贝叶斯估计就是要求出来概率分布。

贝叶斯估计: p(θX)=p(Xθ)p(θ)θp(Xθ)p(θ)dθp(\theta|X)=\displaystyle\frac{p(X|\theta)*p(\theta)}{\int _{\theta} p(X|\theta)p(\theta)d\theta}

应用,比如能用来做贝叶斯预测:数据XX,新样本数据xˉ\bar{x},求p(xˉX)p(\bar{x}|X)

θ\thetaXXxˉ\bar{x}联系起来

p(xˉX)=θp(xˉ,θX)dθ=θp(xˉθ)p(θX)dθp(\bar{x}|X)=\int_{\theta}p(\bar{x},\theta|X)d\theta=\int_{\theta}p(\bar{x}|\theta)*p(\theta|X)d\theta

这里有疑问==这里假设了X和xˉ\bar{x}独立吗,因为x之间独立同分布?

可以看到这里后半部分就是后验。

对比总结

  1. 贝叶斯派

    P(X)P(X)的计算非常复杂,引申出很多新的计算方法。

    贝叶斯发展出了概率图模型,贝叶斯本质就是求积分的问题,比如采样方法MCMC,比如蒙特卡洛

  2. 频率派

    发展出统计机器学习,实际上是一个优化问题

    • 设计模型,比如概率模型
    • 得到loss function
    • 解LF的算法,比如梯度下降

Math Basics - Gaussian Distribution - MLE

Data: X=(x1,,xN)NpTX = (x_1, \dots, x_N)^T_{N*p},其中xiRp, xi iid N(μ,Σ)x_i \in \R^p, \ x_i \ \substack{ iid \\ \sim} \ N(\mu, \Sigma)

θ=(μ,Σ)\theta = (\mu, \Sigma),所以MLE: θMLE=argmaxθP(Xθ)\theta_{MLE}=\substack{argmax \\ \theta} P(X|\theta)

简化计算,令p=1p =1θ=(μ,σ2)\theta = (\mu, \sigma^2)

高斯分布:

一维: p(x)=12πσexp((xμ)22σ2)p(x) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2})

高维: p(x)=1(2π)p/2Σ1/2exp(12(xμ)TΣ1(xμ))p(x) = \frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))

L(θ)=logP(Xθ)=Σi=1Nlog p(xiθ)=Σi=1Nlog12πσexp((xiμ)22σ2)=Σi=1Nlog[12π+log1σ(xiμ)22σ2]\begin{aligned} L(\theta) &= log P(X|\theta) = \Sigma ^N _{i=1} log\ p(x_i|\theta)\\ &= \Sigma ^N _{i=1} log \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x_i-\mu)^2}{2\sigma^2}) \\&= \Sigma ^N _{i=1} log[\frac{1}{\sqrt{2\pi}} + log\frac{1}{\sigma}-\frac{(x_i-\mu)^2}{2\sigma^2}] \end{aligned}

所以对μ\mu

μMLE=argmaxμ Σi=1N((xiμ)22σ2)=argminμ Σi=1N(xiμ)2\mu_{MLE} = \substack{argmax\\ \mu}\ \Sigma_{i=1}^N (-\frac{(x_i-\mu)^2}{2\sigma^2}) = \substack{argmin\\ \mu}\ \Sigma_{i=1}^N (x_i-\mu)^2

μΣi=1N(xiμ)2=Σi=1N 2(μxi)=0\frac{\partial}{\partial \mu} \Sigma_{i=1}^N (x_i-\mu)^2 = \Sigma^N_{i=1}\ 2(\mu-x_i) = 0

解得:μMLE=Σi=1NxiN\mu_{MLE} = \displaystyle\frac{\Sigma^N_{i=1} x_i}{N}

所以对σ2\sigma^2

σMLE2=argmaxσ2 Σi=1N(log σ(xiμ)22σ2)\sigma^2_{MLE} = \substack{argmax \\ \sigma^2}\ \Sigma^N_{i=1} (-log\ \sigma-\frac{(x_i-\mu)^2}{2\sigma^2})

σΣi=1N(log σ(xiμ)22σ2)=1σ+(xiμ)222σ3=0\frac{\partial}{\partial \sigma}\Sigma^N_{i=1} (-log\ \sigma-\frac{(x_i-\mu)^2}{2\sigma^2}) = -\frac{1}{\sigma}+\frac{(x_i-\mu)^2}{2}\frac{2}{\sigma^3}=0

解得:σMLE2=Σi=1N(xiμMLE)2N=1NΣi=1N xi2μMLE2\sigma^2_{MLE}=\displaystyle\frac{\Sigma_{i=1}^N(x_i-\mu_{MLE})^2}{N} = \frac{1}{N}\Sigma_{i=1}^N\ x_i^2 - \mu^2_{MLE}

Math Basics - Gaussian Distribution - MLE(unbiased vs biased)

无偏性准则:

满足E(θ^)=θE(\hat{\theta})=\thetaθ^\hat{\theta}θ\theta的无偏估计。E(θ^)θE(\hat{\theta})-\theta称为偏差,若E(θ^)θ, limnE(θ^)=θE(\hat{\theta}) \ne \theta,\ \substack{lim\\ n \rightarrow \infty} E(\hat{\theta})=\theta则称为渐进无偏估计。

纠偏:若E(θ^)=aθ+bE(\hat{\theta})=a\theta+b,则1a(θ^b)\frac{1}{a}(\hat{\theta}-b)是无偏估计。

对于μMLE\mu_{MLE}

E[μMLE]=E[1NΣi=1Nxi]=1NΣi=1NE[xi]=μE[\mu_{MLE}] = E[\frac{1}{N}\Sigma_{i=1}^N x_i] = \frac{1}{N}\Sigma_{i=1}^N E[x_i] = \mu

所以μMLE\mu_{MLE}是无偏估计

对于σMLE2\sigma^2_{MLE}

E[σMLE2]=E[1NΣi=1N xi2μMLE2]=E[1NΣi=1N xi2μ2]E[μMLE2μ2]=1NΣi=1N(E(xi2)μ2)(E(μMLE2)E2(μMLE))=σ2Var(μMLE)\begin{aligned} E[\sigma^2_{MLE}] &= E[\frac{1}{N}\Sigma_{i=1}^N\ x_i^2 - \mu^2_{MLE}] \\ &= E[\frac{1}{N}\Sigma_{i=1}^N\ x_i^2 - \mu^2] -E[\mu_{MLE}^2-\mu^2] \\ &= \frac{1}{N}\Sigma^N_{i=1}(E(x_i^2)-\mu^2)-(E(\mu^2_{MLE})-E^2(\mu_{MLE})) \\ &= \sigma^2 - Var(\mu_{MLE}) \end{aligned}

Var(μMLE)Var(\mu_{MLE})

Var(μMLE)=Var(Σi=1NxiN)=1N2Σi=1N Var(xi)=σ2/NVar(\mu_{MLE}) = Var(\frac{\Sigma^N_{i=1} x_i}{N}) = \frac{1}{N^2} \Sigma_{i=1}^N\ Var(x_i) = \sigma^2/N

所以:

E[σMLE2]=N1Nσ2E[\sigma^2_{MLE}] = \frac{N-1}{N}\sigma^2

所以σMLE2\sigma^2_{MLE}是有偏估计,修正为无偏估计是Σi=1N(xiμMLE)2N1\displaystyle\frac{\Sigma_{i=1}^N(x_i-\mu_{MLE})^2}{N-1}

无偏有偏的原因理解,有点没懂

Math Basics - Gaussian Distribution - from pdf perspective

从概率密度角度观察高斯分布。

正定矩阵广义定义:设MM是n阶方阵,如果对任何非零向量zz,都有zTMz>0z^TMz \gt 0,其中zTz^T 表示zz的转置,就称M为正定矩阵

Data: X=(x1,,xN)NpTX = (x_1, \dots, x_N)^T_{N*p},其中xiRp, xi iid N(μ,Σ)x_i \in \R^p, \ x_i \ \substack{ iid \\ \sim} \ N(\mu, \Sigma)

p(x)=1(2π)p/2Σ1/2exp(12(xμ)TΣ1(xμ))p(x) = \frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))

其中μ=(μ1,,μp)T\mu=(\mu_1, \dots,\mu_p)^TΣ=(σ1,,σp)p×p\Sigma=(\sigma_1, \dots, \sigma_p)_{p \times p}。本节我们假定Σ\Sigma是正定的(实际上一定是半正定对称的)

(xμ)TΣ1(xμ)(x-\mu)^T\Sigma^{-1}(x-\mu) 可以看作xxμ\mu的马氏距离。Σ=I\Sigma = I (单位矩阵)时,马氏距离=欧氏距离。


对于Σ\Sigma方差矩阵,进行特征分解:

前置知识:矩阵的特征分解_shuijinghua的博客-CSDN博客_特征分解

Σ=UΛUT, UUT=UTU=I, Λ=diag(λi),i=1,,p\Sigma = U \Lambda U^T, \ UU^T = U^TU = I, \ \Lambda=diag(\lambda_i), i = 1, \dots,p

UU是特征向量组成的正交矩阵,U=(u1,,up)p×pU=(u_1,\dots,u_p)_{p\times p}

正交矩阵的转置就是正交矩阵的逆

所以:

Σ=UΛUT=(u1λ1,,upλp)[u1TupT]=Σi=1puiλiuiT\begin{aligned} \Sigma &= U \Lambda U^T = (u_1\lambda_1, \dots, u_p\lambda_p) \left[\begin{matrix} u_1^T \\ \dots \\ u_p^T \end{matrix}\right] \\ &= \Sigma_{i=1} ^p u_i\lambda_iu_i^T \end{aligned}

Σ1=(UΛUT)1=UΛ1UT\Sigma^{-1} = (U \Lambda U^T)^{-1} = U \Lambda^{-1}U^{T},其中Λ1=diag(1λi)\Lambda^{-1} = diag(\frac{1}{\lambda_i})

所以原式 =Σi=1pui 1λiuiT=\Sigma_{i=1} ^p u_i\ \frac{1}{\lambda_i}u_i^T


回到马氏距离的式子:

(xμ)TΣ1(xμ)=(xμ)T Σi=1pui1λiuiT(xμ)=Σi=1p(xμ)Tui1λiuiT(xμ)\begin{aligned} &(x-\mu)^T\Sigma^{-1}(x-\mu) \\ =& (x-\mu)^T\ \Sigma_{i=1} ^p u_i\frac{1}{\lambda_i}u_i^T(x-\mu) \\=& \Sigma_{i=1} ^p (x-\mu)^Tu_i\frac{1}{\lambda_i}u_i^T(x-\mu) \end{aligned}

定义p×1p\times 1的向量yyyi=(xμ)Tuiy_i = (x-\mu)^Tu_i,则原式=Σi=1pyi1λiyiT=Σi=1pyi2λi=\displaystyle \Sigma_{i=1} ^p y_i\frac{1}{\lambda_i}y_i^T =\Sigma_{i=1} ^p \frac{y_i^2}{\lambda_i}

怎么理解呢,拿p=2p=2举个例子,令马氏距离式子为Δ\Delta

Δ=y12λ1+y22λ2\Delta = \frac{y_1^2}{\lambda_1} + \frac{y_2^2}{\lambda_2},取定它等于11的话,这其实是个关于y1,y2y_1, y_2轴的椭圆,取定它的值不断变化(就是改变了概率),椭圆变大变小,其实是等高线(每个概率对应一个椭圆),这就是二维高斯分布的图像。

he

Math Basics - Gaussian Distribution - Limitation

局限性1

方差矩阵参数过多。

方差矩阵是对称的,Σp×p\Sigma_{p\times p}实际上是有p(p+1)2=O(p2)\frac{p(p+1)}{2}=O(p^2)个参数。高维的话这样参数会很多,所以我们一般会做一些简化,比如假设Σ\Sigma是对角矩阵:

Σ=(λ1λp)\Sigma = \left( \begin{matrix} \lambda_1 & &\\ & \dots & \\ & & \lambda_p \end{matrix} \right)

那前面就不需要做正交分解了,相当于不需要uiu_i了,可以直接把关于yiy_i的方程看作关于xix_i的方程。此时椭圆的图像就不是斜的了(之前是因为yiy_i轴和xix_i轴有偏差)

进一步假设λi\lambda_i的值全部相同,椭圆就会变成一个圆。这种情况叫各向同性。

举个例子:在factor analysis因子分析中,就假设zz是一个对角矩阵;概率PCA是因子分析的特殊情况,zz是各向同性。

局限性2

比如对于两团分开的数据点,用一个高斯分布表达就不确切。解决用混合模型,比如两个高斯分布。

Math Basics - Gaussian Distribution - Margional & Conditional Probability

已知高斯分布,求边缘概率分布以及条件概率分布。

Data: X=(x1,,xN)NpTX = (x_1, \dots, x_N)^T_{N*p},其中xiRp, xi iid N(μ,Σ)x_i \in \R^p, \ x_i \ \substack{ iid \\ \sim} \ N(\mu, \Sigma)

p(x)=1(2π)p/2Σ1/2exp(12(xμ)TΣ1(xμ))p(x) = \frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))

其中μ=(μ1,,μp)T\mu=(\mu_1, \dots,\mu_p)^TΣ=(σ1,,σp)p×p\Sigma=(\sigma_1, \dots, \sigma_p)_{p \times p}

所以可以把问题转化为:

已知X=(xaxb)X=\left( \begin{matrix} x_a \\ x_b\end{matrix} \right),其中xax_amm维,xbx_bnn维,m+n=pm+n=p

同理μ=(μaμb)\mu=\left( \begin{matrix} \mu_a \\ \mu_b\end{matrix} \right)Σ=(ΣaaΣabΣbaΣbb)\Sigma=\left( \begin{matrix} \Sigma_{aa} &\Sigma_{ab} \\ \Sigma_{ba} &\Sigma_{bb}\end{matrix} \right)

求:P(xa)P(x_a)P(xbxa)P(x_b|x_a)

PRML书有个方法:配方法。这里讲另一个。

前置定理:XN(μ,Σ)X \sim N(\mu, \Sigma)y=AX+By = AX+B,则yN(Aμ+B,AΣAT)y \sim N(A\mu+B, A\Sigma A^T)

XXp×1p \times 1的,AAq×pq \times p

xa=(Im0)(xaxb)x_a = \begin{matrix}(I_m & 0)\end{matrix} \left( \begin{matrix} x_a \\ x_b \end{matrix}\right),矩阵维数:m×1,m×p,p×1m\times 1, m \times p, p \times 1

所以xaN(μ1,Σ1)x_a \sim N(\mu_1, \Sigma_1),其中

μ1=(Im0)μ=μa\mu_1 = \begin{matrix}(I_m & 0)\end{matrix} \mu = \mu_a

Σ1=(Im0)Σ(Im0)=Σaa\Sigma_1 = \begin{matrix}(I_m & 0)\end{matrix} \Sigma \left( \begin{matrix}I_m \\ 0\end{matrix} \right)=\Sigma_{aa}

所以xaN(μa,Σaa)x_a \sim N(\mu_a, \Sigma_{aa})

对于P(xbxa)P(x_b|x_a)

定义变量xba=xbΣbaΣaa1xax_{b·a}=x_b-\Sigma_{ba}\Sigma_{aa}^{-1}x_a,那么假如xbaN(μˉ,Σˉ)x_{b·a} \sim N(\bar{\mu},\bar{\Sigma}),有xb=xba+ΣbaΣaa1xax_b=x_{b·a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a,就能求出结果。所以尝试求xbax_{b·a}

所以构造:(舒尔分解)

xba=xbΣbaΣaa1xax_{b·a}=x_b-\Sigma_{ba}\Sigma_{aa}^{-1}x_a

μba=μbΣbaΣaa1μa\mu_{b·a}=\mu_b - \Sigma_{ba}\Sigma_{aa}^{-1}\mu_a

Σbba=ΣbbΣbaΣaa1Σab\Sigma_{bb·a}=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}

所以有:

xba=(ΣbaΣaa1In)(xaxb)x_{b·a}=\begin{matrix}(-\Sigma_{ba}\Sigma_{aa}^{-1} & I_n)\left(\begin{matrix}x_a \\ x_b \end{matrix}\right) \end{matrix}

然后根据前面的定理有:

E(xba)=(ΣbaΣaa1In)(μaμb)=μbaE(x_{b·a})=(\begin{matrix}-\Sigma_{ba}\Sigma_{aa}^{-1} & I_n\end{matrix})·\left( \begin{matrix} \mu_a \\ \mu_b \end{matrix} \right)=\mu_{b·a}

Var(xba)=(ΣbaΣaa1In)(ΣaaΣabΣbaΣbb)((ΣbaΣaa1)TIn)=ΣbbaVar(x_{b·a})=(\begin{matrix}-\Sigma_{ba}\Sigma_{aa}^{-1} & I_n\end{matrix}) \left( \begin{matrix} \Sigma_{aa} &\Sigma_{ab} \\ \Sigma_{ba} &\Sigma_{bb}\end{matrix} \right) \left(\begin{matrix} (-\Sigma_{ba}\Sigma_{aa}^{-1})^T \\ I_n\end{matrix}\right)=\Sigma_{bb·a}

所以xbaN(μba,Σbba)x_{b·a} \sim N(\mu_{b·a}, \Sigma_{bb·a})


证明xbax_{b·a}xax_a独立:

img

那么根据xb=xba+ΣbaΣaa1xax_b=x_{b·a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a

xbxa=xbaxa+ΣbaΣaa1xaxa=xba+ΣbaΣaa1xax_b | x_a = x_{b·a} | x_a + \Sigma_{ba}\Sigma_{aa}^{-1}x_a | x_a = x_{b·a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a

所以E(xbxa)=μba+ΣbaΣaa1xaE(x_b|x_a) = \mu_{b·a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_aVar(xbxa)=ΣbbaVar(x_b|x_a) = \Sigma_{bb·a}

反过来也是一样的。

Math Basics - Gaussian Distribution - Joint Probability

下面利用上边四个量,求解线性模型:

已知:p(x)=N(μ,Λ1),p(yx)=N(Ax+b,L1)p(x)=\mathcal{N}(\mu,\Lambda^{-1}),p(y|x)=\mathcal{N}(Ax+b,L^{-1}),求解:p(y),p(xy)p(y),p(x|y)

解:令 y=Ax+b+ϵ,ϵN(0,L1)y=Ax+b+\epsilon,\epsilon\sim\mathcal{N}(0,L^{-1}),所以 E[y]=E[Ax+b+ϵ]=Aμ+b\mathbb{E}[y]=\mathbb{E}[Ax+b+\epsilon]=A\mu+bVar[y]=AΛ1AT+L1Var[y]=A \Lambda^{-1}A^T+L^{-1}。因此:

p(y)=N(Aμ+b,L1+AΛ1AT)p(y)=\mathcal{N}(A\mu+b,L^{-1}+A\Lambda^{-1}A^T)

引入 z=(xy)z=\begin{pmatrix}x\\y\end{pmatrix},我们可以得到 Cov[x,y]=E[(xE[x])(yE[y])T]Cov[x,y]=\mathbb{E}[(x-\mathbb{E}[x])(y-\mathbb{E}[y])^T]

对于这个协方差可以直接计算:

Cov(x,y)=E[(xμ)(AxAμ+ϵ)T]=E[(xμ)(xμ)TAT]=Var[x]AT=Λ1AT\begin{aligned} Cov(x,y) &= \mathbb{E}[(x-\mu)(Ax-A\mu+\epsilon)^T] \\ &=\mathbb{E}[(x-\mu)(x-\mu)^TA^T] \\ &=Var[x]A^T \\&=\Lambda^{-1}A^T \end{aligned}

注意到协方差矩阵的对称性,所以

p(z)=N(μAμ+b),(Λ1Λ1ATAΛ1L1+AΛ1AT)p(z)=\mathcal{N}\begin{pmatrix}\mu\\A\mu+b\end{pmatrix},\begin{pmatrix}\Lambda^{-1}&\Lambda^{-1}A^T\\A\Lambda^{-1}&L^{-1}+A\Lambda^{-1}A^T\end{pmatrix}

根据之前的公式,我们可以得到:

E[xy]=μ+Λ1AT(L1+AΛ1AT)1(yAμb)\mathbb{E}[x|y]=\mu+\Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)^{-1}(y-A\mu-b)

Var[xy]=Λ1Λ1AT(L1+AΛ1AT)1AΛ1Var[x|y]=\Lambda^{-1}-\Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)^{-1}A\Lambda^{-1}

Linear Regression - Least Squre Method

假设数据集为: D=(x1,y1),(x2,y2),,(xN,yN)\mathcal{D}={(x_1, y_1),(x_2, y_2),\cdots,(x_N, y_N)}

后面我们记: X=(x1,x2,,xN)T,Y=(y1,y2,,yN)TX=(x_1,x_2,\cdots,x_N)^T,Y=(y_1,y_2,\cdots,y_N)^T

线性回归假设: f(w)=wTxf(w)=w^Tx

对这个问题,采用二范数定义的平方误差来定义损失函数:

L(w)=i=1NwTxiyi22L(w)=\sum\limits_{i=1}^N||w^Tx_i-y_i||^2_2

展开得到:

L(w)=(wTx1y1,,wTxNyN)(wTx1y1,,wTxNyN)T=(wTXTYT)(XwY)=wTXTXwYTXwwTXTY+YTY=wTXTXw2wTXTY+YTY\begin{aligned} L(w) &= (w^Tx_1-y_1,\cdots,w^Tx_N-y_N)\cdot (w^Tx_1-y_1,\cdots,w^Tx_N-y_N)^T\\ &= (w^TX^T-Y^T)\cdot (Xw-Y)\\ &= w^TX^TXw-Y^TXw-w^TX^TY+Y^TY\\ &= w^TX^TXw-2w^TX^TY+Y^TY \end{aligned}

最小化这个值的 w^\hat{w}

w^=argminwL(w)wL(w)=02XTXw^2XTY=0w^=(XTX)1XTY=X+Y\begin{aligned} \hat{w}=\mathop{argmin}\limits_wL(w)&\longrightarrow\frac{\partial}{\partial w}L(w)=0\\ &\longrightarrow2X^TX\hat{w}-2X^TY=0\\ &\longrightarrow \hat{w}=(X^TX)^{-1}X^TY=X^+Y \end{aligned}

这个式子中 (XTX)1XT(X^TX)^{-1}X^T 又被称为伪逆。对于行满秩或者列满秩的 XX,可以直接求解,但是对于非满秩的样本集合,需要使用奇异值分解(SVD)的方法,对 XX 求奇异值分解,得到 X=UΣVTX=U\Sigma V^T

于是: X+=VΣ1UTX^+=V\Sigma^{-1}U^T

在几何上,最小二乘法相当于模型(这里就是直线)和试验值的距离的平方求和,假设我们的试验样本张成一个 pp 维空间(满秩的情况):X=Span(x1,,xN)X=Span(x_1,\cdots,x_N)

而模型可以写成 f(w)=Xβf(w)=X\beta,也就是 x1,,xNx_1,\cdots,x_N 的某种组合,而最小二乘法就是说希望 YY 和这个模型距离越小越好,于是它们的差应该与这个张成的空间垂直: XT(YXβ)=0β=(XTX)1XTYX^T\cdot(Y-X\beta)=0\longrightarrow\beta=(X^TX)^{-1}X^TY