不断更新中
课程地址:【机器学习】【白板推导系列】【合集 1~23】_哔哩哔哩_bilibili
Introduction Frequentists vs Bayesians
Data: X=(x1,…,xN)N∗pT
X服从概率模型 X∼p(x∣θ)
频率派
θ 是未知的常量,X是随机变量,常用MLE极大似然估计:
θMLE=argmaxθlogP(X∣θ), logP(X∣θ)一般记为L(θ)
此处log是为了方便计算,如果不log的话P等于每个独立同分布的xi的连乘,加上log符号只要求和即可
贝叶斯派
认为参数θ也是一个随机变量,服从概率分布θ∼p(θ),把p(θ)称为先验
先验概率、后验概率:先验概率指全事件背景下A事件发生的概率,后验指B事件发生条件下A事件发生的概率
似然:已知结果求原因
借助贝叶斯定理把先验后验和似然联系起来:
P(θ∣X)=P(X)P(X∣θ)∗P(θ)
则P(θ∣X)为后验, P(X∣θ) 为似然, P(θ) 为先验
P(X) 实际上是个积分: P(X)=∫θP(X∣θ)P(θ)dθ
MAP最大后验概率估计
引入一个参数估计方法MAP最大后验概率估计:
MAP: 让最大后验概率最大的点作为概率估计(众数mode)
θMAP=argmaxθP(θ∣X)=argmaxθP(X∣θ)∗P(θ)
这里第二个等号原理:贝叶斯公式,观察到P(X)与θ无关
贝叶斯估计
MAP严格意义上不是贝叶斯派用的方法。贝叶斯估计就是要求出来概率分布。
贝叶斯估计: p(θ∣X)=∫θp(X∣θ)p(θ)dθp(X∣θ)∗p(θ)
应用,比如能用来做贝叶斯预测:数据X,新样本数据xˉ,求p(xˉ∣X)
用θ把X和xˉ联系起来
p(xˉ∣X)=∫θp(xˉ,θ∣X)dθ=∫θp(xˉ∣θ)∗p(θ∣X)dθ
这里有疑问==这里假设了X和xˉ独立吗,因为x之间独立同分布?
可以看到这里后半部分就是后验。
对比总结
-
贝叶斯派
P(X)的计算非常复杂,引申出很多新的计算方法。
贝叶斯发展出了概率图模型,贝叶斯本质就是求积分的问题,比如采样方法MCMC,比如蒙特卡洛
-
频率派
发展出统计机器学习,实际上是一个优化问题
- 设计模型,比如概率模型
- 得到loss function
- 解LF的算法,比如梯度下降
Math Basics - Gaussian Distribution - MLE
Data: X=(x1,…,xN)N∗pT,其中xi∈Rp, xi iid∼ N(μ,Σ)
θ=(μ,Σ),所以MLE: θMLE=argmaxθP(X∣θ)
简化计算,令p=1, θ=(μ,σ2)
高斯分布:
一维: p(x)=2πσ1exp(−2σ2(x−μ)2)
高维: p(x)=(2π)p/2∣Σ∣1/21exp(−21(x−μ)TΣ−1(x−μ))
L(θ)=logP(X∣θ)=Σi=1Nlog p(xi∣θ)=Σi=1Nlog2πσ1exp(−2σ2(xi−μ)2)=Σi=1Nlog[2π1+logσ1−2σ2(xi−μ)2]
所以对μ:
μMLE=argmaxμ Σi=1N(−2σ2(xi−μ)2)=argminμ Σi=1N(xi−μ)2
∂μ∂Σi=1N(xi−μ)2=Σi=1N 2(μ−xi)=0
解得:μMLE=NΣi=1Nxi
所以对σ2:
σMLE2=argmaxσ2 Σi=1N(−log σ−2σ2(xi−μ)2)
∂σ∂Σi=1N(−log σ−2σ2(xi−μ)2)=−σ1+2(xi−μ)2σ32=0
解得:σMLE2=NΣi=1N(xi−μMLE)2=N1Σi=1N xi2−μMLE2
Math Basics - Gaussian Distribution - MLE(unbiased vs biased)
无偏性准则:
满足E(θ^)=θ称θ^为θ的无偏估计。E(θ^)−θ称为偏差,若E(θ^)=θ, limn→∞E(θ^)=θ则称为渐进无偏估计。
纠偏:若E(θ^)=aθ+b,则a1(θ^−b)是无偏估计。
对于μMLE:
E[μMLE]=E[N1Σi=1Nxi]=N1Σi=1NE[xi]=μ
所以μMLE是无偏估计
对于σMLE2:
E[σMLE2]=E[N1Σi=1N xi2−μMLE2]=E[N1Σi=1N xi2−μ2]−E[μMLE2−μ2]=N1Σi=1N(E(xi2)−μ2)−(E(μMLE2)−E2(μMLE))=σ2−Var(μMLE)
求Var(μMLE):
Var(μMLE)=Var(NΣi=1Nxi)=N21Σi=1N Var(xi)=σ2/N
所以:
E[σMLE2]=NN−1σ2
所以σMLE2是有偏估计,修正为无偏估计是N−1Σi=1N(xi−μMLE)2
无偏有偏的原因理解,有点没懂
Math Basics - Gaussian Distribution - from pdf perspective
从概率密度角度观察高斯分布。
正定矩阵广义定义:设M是n阶方阵,如果对任何非零向量z,都有zTMz>0,其中zT 表示z的转置,就称M为正定矩阵
Data: X=(x1,…,xN)N∗pT,其中xi∈Rp, xi iid∼ N(μ,Σ)
p(x)=(2π)p/2∣Σ∣1/21exp(−21(x−μ)TΣ−1(x−μ))
其中μ=(μ1,…,μp)T,Σ=(σ1,…,σp)p×p。本节我们假定Σ是正定的(实际上一定是半正定对称的)
(x−μ)TΣ−1(x−μ) 可以看作x和μ的马氏距离。Σ=I (单位矩阵)时,马氏距离=欧氏距离。
对于Σ方差矩阵,进行特征分解:
前置知识:矩阵的特征分解_shuijinghua的博客-CSDN博客_特征分解
Σ=UΛUT, UUT=UTU=I, Λ=diag(λi),i=1,…,p
U是特征向量组成的正交矩阵,U=(u1,…,up)p×p
正交矩阵的转置就是正交矩阵的逆
所以:
Σ=UΛUT=(u1λ1,…,upλp)⎣⎡u1T…upT⎦⎤=Σi=1puiλiuiT
Σ−1=(UΛUT)−1=UΛ−1UT,其中Λ−1=diag(λi1),
所以原式 =Σi=1pui λi1uiT
回到马氏距离的式子:
==(x−μ)TΣ−1(x−μ)(x−μ)T Σi=1puiλi1uiT(x−μ)Σi=1p(x−μ)Tuiλi1uiT(x−μ)
定义p×1的向量y, yi=(x−μ)Tui,则原式=Σi=1pyiλi1yiT=Σi=1pλiyi2
怎么理解呢,拿p=2举个例子,令马氏距离式子为Δ:
Δ=λ1y12+λ2y22,取定它等于1的话,这其实是个关于y1,y2轴的椭圆,取定它的值不断变化(就是改变了概率),椭圆变大变小,其实是等高线(每个概率对应一个椭圆),这就是二维高斯分布的图像。
Math Basics - Gaussian Distribution - Limitation
局限性1
方差矩阵参数过多。
方差矩阵是对称的,Σp×p实际上是有2p(p+1)=O(p2)个参数。高维的话这样参数会很多,所以我们一般会做一些简化,比如假设Σ是对角矩阵:
Σ=⎝⎛λ1…λp⎠⎞
那前面就不需要做正交分解了,相当于不需要ui了,可以直接把关于yi的方程看作关于xi的方程。此时椭圆的图像就不是斜的了(之前是因为yi轴和xi轴有偏差)
进一步假设λi的值全部相同,椭圆就会变成一个圆。这种情况叫各向同性。
举个例子:在factor analysis因子分析中,就假设z是一个对角矩阵;概率PCA是因子分析的特殊情况,z是各向同性。
局限性2
比如对于两团分开的数据点,用一个高斯分布表达就不确切。解决用混合模型,比如两个高斯分布。
Math Basics - Gaussian Distribution - Margional & Conditional Probability
已知高斯分布,求边缘概率分布以及条件概率分布。
Data: X=(x1,…,xN)N∗pT,其中xi∈Rp, xi iid∼ N(μ,Σ)
p(x)=(2π)p/2∣Σ∣1/21exp(−21(x−μ)TΣ−1(x−μ))
其中μ=(μ1,…,μp)T,Σ=(σ1,…,σp)p×p。
所以可以把问题转化为:
已知X=(xaxb),其中xa是m维,xb是n维,m+n=p
同理μ=(μaμb), Σ=(ΣaaΣbaΣabΣbb)
求:P(xa), P(xb∣xa)
PRML书有个方法:配方法。这里讲另一个。
前置定理:X∼N(μ,Σ),y=AX+B,则y∼N(Aμ+B,AΣAT)
X是p×1的,A是q×p
xa=(Im0)(xaxb),矩阵维数:m×1,m×p,p×1
所以xa∼N(μ1,Σ1),其中
μ1=(Im0)μ=μa
Σ1=(Im0)Σ(Im0)=Σaa
所以xa∼N(μa,Σaa)
对于P(xb∣xa):
定义变量xb⋅a=xb−ΣbaΣaa−1xa,那么假如xb⋅a∼N(μˉ,Σˉ),有xb=xb⋅a+ΣbaΣaa−1xa,就能求出结果。所以尝试求xb⋅a。
所以构造:(舒尔分解)
xb⋅a=xb−ΣbaΣaa−1xa
μb⋅a=μb−ΣbaΣaa−1μa
Σbb⋅a=Σbb−ΣbaΣaa−1Σab
所以有:
xb⋅a=(−ΣbaΣaa−1In)(xaxb)
然后根据前面的定理有:
E(xb⋅a)=(−ΣbaΣaa−1In)⋅(μaμb)=μb⋅a
Var(xb⋅a)=(−ΣbaΣaa−1In)(ΣaaΣbaΣabΣbb)((−ΣbaΣaa−1)TIn)=Σbb⋅a
所以xb⋅a∼N(μb⋅a,Σbb⋅a)
证明xb⋅a和xa独立:
![img](data:image/gif;base64,R0lGODdhAQABAPAAAMPDwwAAACwAAAAAAQABAAACAkQBADs=)
那么根据xb=xb⋅a+ΣbaΣaa−1xa:
xb∣xa=xb⋅a∣xa+ΣbaΣaa−1xa∣xa=xb⋅a+ΣbaΣaa−1xa
所以E(xb∣xa)=μb⋅a+ΣbaΣaa−1xa,Var(xb∣xa)=Σbb⋅a。
反过来也是一样的。
Math Basics - Gaussian Distribution - Joint Probability
下面利用上边四个量,求解线性模型:
已知:p(x)=N(μ,Λ−1),p(y∣x)=N(Ax+b,L−1),求解:p(y),p(x∣y)。
解:令 y=Ax+b+ϵ,ϵ∼N(0,L−1),所以 E[y]=E[Ax+b+ϵ]=Aμ+b,Var[y]=AΛ−1AT+L−1。因此:
p(y)=N(Aμ+b,L−1+AΛ−1AT)
引入 z=(xy),我们可以得到 Cov[x,y]=E[(x−E[x])(y−E[y])T]。
对于这个协方差可以直接计算:
Cov(x,y)=E[(x−μ)(Ax−Aμ+ϵ)T]=E[(x−μ)(x−μ)TAT]=Var[x]AT=Λ−1AT
注意到协方差矩阵的对称性,所以
p(z)=N(μAμ+b),(Λ−1AΛ−1Λ−1ATL−1+AΛ−1AT)
根据之前的公式,我们可以得到:
E[x∣y]=μ+Λ−1AT(L−1+AΛ−1AT)−1(y−Aμ−b)
Var[x∣y]=Λ−1−Λ−1AT(L−1+AΛ−1AT)−1AΛ−1
Linear Regression - Least Squre Method
假设数据集为: D=(x1,y1),(x2,y2),⋯,(xN,yN)
后面我们记: X=(x1,x2,⋯,xN)T,Y=(y1,y2,⋯,yN)T
线性回归假设: f(w)=wTx
对这个问题,采用二范数定义的平方误差来定义损失函数:
L(w)=i=1∑N∣∣wTxi−yi∣∣22
展开得到:
L(w)=(wTx1−y1,⋯,wTxN−yN)⋅(wTx1−y1,⋯,wTxN−yN)T=(wTXT−YT)⋅(Xw−Y)=wTXTXw−YTXw−wTXTY+YTY=wTXTXw−2wTXTY+YTY
最小化这个值的 w^ :
w^=wargminL(w)⟶∂w∂L(w)=0⟶2XTXw^−2XTY=0⟶w^=(XTX)−1XTY=X+Y
这个式子中 (XTX)−1XT 又被称为伪逆。对于行满秩或者列满秩的 X,可以直接求解,但是对于非满秩的样本集合,需要使用奇异值分解(SVD)的方法,对 X 求奇异值分解,得到 X=UΣVT
于是: X+=VΣ−1UT
在几何上,最小二乘法相当于模型(这里就是直线)和试验值的距离的平方求和,假设我们的试验样本张成一个 p 维空间(满秩的情况):X=Span(x1,⋯,xN)
而模型可以写成 f(w)=Xβ,也就是 x1,⋯,xN 的某种组合,而最小二乘法就是说希望 Y 和这个模型距离越小越好,于是它们的差应该与这个张成的空间垂直: XT⋅(Y−Xβ)=0⟶β=(XTX)−1XTY