ML白板推导系列笔记

不断更新中

课程地址：【机器学习】【白板推导系列】【合集 1～23】_哔哩哔哩_bilibili

Introduction Frequentists vs Bayesians

Data： $X = (x_1, \dots, x_N)^T_{N*p}$

X服从概率模型 $X \sim p(x|\theta)$

频率派

$\theta$ 是未知的常量，X是随机变量，常用MLE极大似然估计：

$\theta_{MLE}=\substack{argmax\\ \theta} log P(X|\theta)$ ， $log P(X|\theta)$ 一般记为 $L(\theta)$

此处log是为了方便计算，如果不log的话P等于每个独立同分布的 $x_i$ 的连乘，加上log符号只要求和即可

贝叶斯派

认为参数 $\theta$ 也是一个随机变量，服从概率分布 $\theta \sim p(\theta)$ ，把 $p(\theta)$ 称为先验

先验概率、后验概率：先验概率指全事件背景下A事件发生的概率，后验指B事件发生条件下A事件发生的概率

似然：已知结果求原因

借助贝叶斯定理把先验后验和似然联系起来：

$P(\theta|X) = \displaystyle\frac{P(X|\theta) * P(\theta)}{P(X)}$

则 $P(\theta|X)$ 为后验， $P(X|\theta)$ 为似然， $P(\theta)$ 为先验

$P(X)$ 实际上是个积分： $P(X) = \int _{\theta} P(X|\theta)P(\theta)d\theta$

MAP最大后验概率估计

引入一个参数估计方法MAP最大后验概率估计：

MAP: 让最大后验概率最大的点作为概率估计（众数mode）

$\theta_{MAP}=\substack{argmax\\ \theta} P(\theta | X)=\substack{argmax\\ \theta} P(X|\theta) * P(\theta)$

这里第二个等号原理：贝叶斯公式，观察到 $P(X)$ 与 $\theta$ 无关

贝叶斯估计

MAP严格意义上不是贝叶斯派用的方法。贝叶斯估计就是要求出来概率分布。

贝叶斯估计： $p(\theta|X)=\displaystyle\frac{p(X|\theta)*p(\theta)}{\int _{\theta} p(X|\theta)p(\theta)d\theta}$

应用，比如能用来做贝叶斯预测：数据 $X$ ，新样本数据 $\bar{x}$ ，求 $p(\bar{x}|X)$

用 $\theta$ 把 $X$ 和 $\bar{x}$ 联系起来

$p(\bar{x}|X)=\int_{\theta}p(\bar{x},\theta|X)d\theta=\int_{\theta}p(\bar{x}|\theta)*p(\theta|X)d\theta$

这里有疑问==这里假设了X和 $\bar{x}$ 独立吗，因为x之间独立同分布？

可以看到这里后半部分就是后验。

对比总结

贝叶斯派

$P(X)$ 的计算非常复杂，引申出很多新的计算方法。

贝叶斯发展出了概率图模型，贝叶斯本质就是求积分的问题，比如采样方法MCMC，比如蒙特卡洛
频率派

发展出统计机器学习，实际上是一个优化问题
- 设计模型，比如概率模型
- 得到loss function
- 解LF的算法，比如梯度下降

Math Basics - Gaussian Distribution - MLE

Data： $X = (x_1, \dots, x_N)^T_{N*p}$ ，其中 $x_i \in \R^p, \ x_i \ \substack{ iid \\ \sim} \ N(\mu, \Sigma)$

$\theta = (\mu, \Sigma)$ ，所以MLE： $\theta_{MLE}=\substack{argmax \\ \theta} P(X|\theta)$

简化计算，令 $p =1$ ， $\theta = (\mu, \sigma^2)$

高斯分布：

一维： $p(x) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2})$

高维： $p(x) = \frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))$

$\begin{aligned} L(\theta) &= log P(X|\theta) = \Sigma ^N _{i=1} log\ p(x_i|\theta)\\ &= \Sigma ^N _{i=1} log \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x_i-\mu)^2}{2\sigma^2}) \\&= \Sigma ^N _{i=1} log[\frac{1}{\sqrt{2\pi}} + log\frac{1}{\sigma}-\frac{(x_i-\mu)^2}{2\sigma^2}] \end{aligned}$

所以对 $\mu$ ：

$\mu_{MLE} = \substack{argmax\\ \mu}\ \Sigma_{i=1}^N (-\frac{(x_i-\mu)^2}{2\sigma^2}) = \substack{argmin\\ \mu}\ \Sigma_{i=1}^N (x_i-\mu)^2$

$\frac{\partial}{\partial \mu} \Sigma_{i=1}^N (x_i-\mu)^2 = \Sigma^N_{i=1}\ 2(\mu-x_i) = 0$

解得： $\mu_{MLE} = \displaystyle\frac{\Sigma^N_{i=1} x_i}{N}$

所以对 $\sigma^2$ ：

$\sigma^2_{MLE} = \substack{argmax \\ \sigma^2}\ \Sigma^N_{i=1} (-log\ \sigma-\frac{(x_i-\mu)^2}{2\sigma^2})$

$\frac{\partial}{\partial \sigma}\Sigma^N_{i=1} (-log\ \sigma-\frac{(x_i-\mu)^2}{2\sigma^2}) = -\frac{1}{\sigma}+\frac{(x_i-\mu)^2}{2}\frac{2}{\sigma^3}=0$

解得： $\sigma^2_{MLE}=\displaystyle\frac{\Sigma_{i=1}^N(x_i-\mu_{MLE})^2}{N} = \frac{1}{N}\Sigma_{i=1}^N\ x_i^2 - \mu^2_{MLE}$

Math Basics - Gaussian Distribution - MLE(unbiased vs biased)

无偏性准则：

满足 $E(\hat{\theta})=\theta$ 称 $\hat{\theta}$ 为 $\theta$ 的无偏估计。 $E(\hat{\theta})-\theta$ 称为偏差，若 $E(\hat{\theta}) \ne \theta,\ \substack{lim\\ n \rightarrow \infty} E(\hat{\theta})=\theta$ 则称为渐进无偏估计。

纠偏：若 $E(\hat{\theta})=a\theta+b$ ，则 $\frac{1}{a}(\hat{\theta}-b)$ 是无偏估计。

对于 $\mu_{MLE}$ ：

$E[\mu_{MLE}] = E[\frac{1}{N}\Sigma_{i=1}^N x_i] = \frac{1}{N}\Sigma_{i=1}^N E[x_i] = \mu$

所以 $\mu_{MLE}$ 是无偏估计

对于 $\sigma^2_{MLE}$ ：

$\begin{aligned} E[\sigma^2_{MLE}] &= E[\frac{1}{N}\Sigma_{i=1}^N\ x_i^2 - \mu^2_{MLE}] \\ &= E[\frac{1}{N}\Sigma_{i=1}^N\ x_i^2 - \mu^2] -E[\mu_{MLE}^2-\mu^2] \\ &= \frac{1}{N}\Sigma^N_{i=1}(E(x_i^2)-\mu^2)-(E(\mu^2_{MLE})-E^2(\mu_{MLE})) \\ &= \sigma^2 - Var(\mu_{MLE}) \end{aligned}$

求 $Var(\mu_{MLE})$ ：

$Var(\mu_{MLE}) = Var(\frac{\Sigma^N_{i=1} x_i}{N}) = \frac{1}{N^2} \Sigma_{i=1}^N\ Var(x_i) = \sigma^2/N$

所以：

$E[\sigma^2_{MLE}] = \frac{N-1}{N}\sigma^2$

所以 $\sigma^2_{MLE}$ 是有偏估计，修正为无偏估计是 $\displaystyle\frac{\Sigma_{i=1}^N(x_i-\mu_{MLE})^2}{N-1}$

无偏有偏的原因理解，有点没懂

Math Basics - Gaussian Distribution - from pdf perspective

从概率密度角度观察高斯分布。

正定矩阵广义定义：设 $M$ 是n阶方阵，如果对任何非零向量 $z$ ，都有 $z^TMz \gt 0$ ，其中 $z^T$ 表示 $z$ 的转置，就称M为正定矩阵

Data： $X = (x_1, \dots, x_N)^T_{N*p}$ ，其中 $x_i \in \R^p, \ x_i \ \substack{ iid \\ \sim} \ N(\mu, \Sigma)$

$p(x) = \frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))$

其中 $\mu=(\mu_1, \dots,\mu_p)^T$ ， $\Sigma=(\sigma_1, \dots, \sigma_p)_{p \times p}$ 。本节我们假定 $\Sigma$ 是正定的（实际上一定是半正定对称的）

$(x-\mu)^T\Sigma^{-1}(x-\mu)$ 可以看作 $x$ 和 $\mu$ 的马氏距离。 $\Sigma = I$ （单位矩阵）时，马氏距离=欧氏距离。

对于 $\Sigma$ 方差矩阵，进行特征分解：

前置知识：矩阵的特征分解_shuijinghua的博客-CSDN博客_特征分解

$\Sigma = U \Lambda U^T, \ UU^T = U^TU = I, \ \Lambda=diag(\lambda_i), i = 1, \dots,p$

$U$ 是特征向量组成的正交矩阵， $U=(u_1,\dots,u_p)_{p\times p}$

正交矩阵的转置就是正交矩阵的逆

所以：

$\begin{aligned} \Sigma &= U \Lambda U^T = (u_1\lambda_1, \dots, u_p\lambda_p) \left[\begin{matrix} u_1^T \\ \dots \\ u_p^T \end{matrix}\right] \\ &= \Sigma_{i=1} ^p u_i\lambda_iu_i^T \end{aligned}$

$\Sigma^{-1} = (U \Lambda U^T)^{-1} = U \Lambda^{-1}U^{T}$ ，其中 $\Lambda^{-1} = diag(\frac{1}{\lambda_i})$ ，

所以原式 $=\Sigma_{i=1} ^p u_i\ \frac{1}{\lambda_i}u_i^T$

回到马氏距离的式子：

$\begin{aligned} &(x-\mu)^T\Sigma^{-1}(x-\mu) \\ =& (x-\mu)^T\ \Sigma_{i=1} ^p u_i\frac{1}{\lambda_i}u_i^T(x-\mu) \\=& \Sigma_{i=1} ^p (x-\mu)^Tu_i\frac{1}{\lambda_i}u_i^T(x-\mu) \end{aligned}$

定义 $p\times 1$ 的向量 $y$ ， $y_i = (x-\mu)^Tu_i$ ，则原式 $=\displaystyle \Sigma_{i=1} ^p y_i\frac{1}{\lambda_i}y_i^T =\Sigma_{i=1} ^p \frac{y_i^2}{\lambda_i}$

怎么理解呢，拿 $p=2$ 举个例子，令马氏距离式子为 $\Delta$ ：

$\Delta = \frac{y_1^2}{\lambda_1} + \frac{y_2^2}{\lambda_2}$ ，取定它等于 $1$ 的话，这其实是个关于 $y_1, y_2$ 轴的椭圆，取定它的值不断变化（就是改变了概率），椭圆变大变小，其实是等高线（每个概率对应一个椭圆），这就是二维高斯分布的图像。

Math Basics - Gaussian Distribution - Limitation

局限性1

方差矩阵参数过多。

方差矩阵是对称的， $\Sigma_{p\times p}$ 实际上是有 $\frac{p(p+1)}{2}=O(p^2)$ 个参数。高维的话这样参数会很多，所以我们一般会做一些简化，比如假设 $\Sigma$ 是对角矩阵：

$\Sigma = \left( \begin{matrix} \lambda_1 & &\\ & \dots & \\ & & \lambda_p \end{matrix} \right)$

那前面就不需要做正交分解了，相当于不需要 $u_i$ 了，可以直接把关于 $y_i$ 的方程看作关于 $x_i$ 的方程。此时椭圆的图像就不是斜的了（之前是因为 $y_i$ 轴和 $x_i$ 轴有偏差）

进一步假设 $\lambda_i$ 的值全部相同，椭圆就会变成一个圆。这种情况叫各向同性。

举个例子：在factor analysis因子分析中，就假设 $z$ 是一个对角矩阵；概率PCA是因子分析的特殊情况， $z$ 是各向同性。

局限性2

比如对于两团分开的数据点，用一个高斯分布表达就不确切。解决用混合模型，比如两个高斯分布。

Math Basics - Gaussian Distribution - Margional & Conditional Probability

已知高斯分布，求边缘概率分布以及条件概率分布。

Data： $X = (x_1, \dots, x_N)^T_{N*p}$ ，其中 $x_i \in \R^p, \ x_i \ \substack{ iid \\ \sim} \ N(\mu, \Sigma)$

$p(x) = \frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))$

其中 $\mu=(\mu_1, \dots,\mu_p)^T$ ， $\Sigma=(\sigma_1, \dots, \sigma_p)_{p \times p}$ 。

所以可以把问题转化为：

已知 $X=\left( \begin{matrix} x_a \\ x_b\end{matrix} \right)$ ，其中 $x_a$ 是 $m$ 维， $x_b$ 是 $n$ 维， $m+n=p$

同理 $\mu=\left( \begin{matrix} \mu_a \\ \mu_b\end{matrix} \right)$ ， $\Sigma=\left( \begin{matrix} \Sigma_{aa} &\Sigma_{ab} \\ \Sigma_{ba} &\Sigma_{bb}\end{matrix} \right)$

求： $P(x_a)$ ， $P(x_b|x_a)$

PRML书有个方法：配方法。这里讲另一个。

前置定理： $X \sim N(\mu, \Sigma)$ ， $y = AX+B$ ，则 $y \sim N(A\mu+B, A\Sigma A^T)$

$X$ 是 $p \times 1$ 的， $A$ 是 $q \times p$

$x_a = \begin{matrix}(I_m & 0)\end{matrix} \left( \begin{matrix} x_a \\ x_b \end{matrix}\right)$ ，矩阵维数： $m\times 1, m \times p, p \times 1$

所以 $x_a \sim N(\mu_1, \Sigma_1)$ ，其中

$\mu_1 = \begin{matrix}(I_m & 0)\end{matrix} \mu = \mu_a$

$\Sigma_1 = \begin{matrix}(I_m & 0)\end{matrix} \Sigma \left( \begin{matrix}I_m \\ 0\end{matrix} \right)=\Sigma_{aa}$

所以 $x_a \sim N(\mu_a, \Sigma_{aa})$

对于 $P(x_b|x_a)$ ：

定义变量 $x_{b·a}=x_b-\Sigma_{ba}\Sigma_{aa}^{-1}x_a$ ，那么假如 $x_{b·a} \sim N(\bar{\mu},\bar{\Sigma})$ ，有 $x_b=x_{b·a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a$ ，就能求出结果。所以尝试求 $x_{b·a}$ 。

所以构造：（舒尔分解）

$x_{b·a}=x_b-\Sigma_{ba}\Sigma_{aa}^{-1}x_a$

$\mu_{b·a}=\mu_b - \Sigma_{ba}\Sigma_{aa}^{-1}\mu_a$

$\Sigma_{bb·a}=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}$

所以有：

$x_{b·a}=\begin{matrix}(-\Sigma_{ba}\Sigma_{aa}^{-1} & I_n)\left(\begin{matrix}x_a \\ x_b \end{matrix}\right) \end{matrix}$

然后根据前面的定理有：

$E(x_{b·a})=(\begin{matrix}-\Sigma_{ba}\Sigma_{aa}^{-1} & I_n\end{matrix})·\left( \begin{matrix} \mu_a \\ \mu_b \end{matrix} \right)=\mu_{b·a}$

$Var(x_{b·a})=(\begin{matrix}-\Sigma_{ba}\Sigma_{aa}^{-1} & I_n\end{matrix}) \left( \begin{matrix} \Sigma_{aa} &\Sigma_{ab} \\ \Sigma_{ba} &\Sigma_{bb}\end{matrix} \right) \left(\begin{matrix} (-\Sigma_{ba}\Sigma_{aa}^{-1})^T \\ I_n\end{matrix}\right)=\Sigma_{bb·a}$

所以 $x_{b·a} \sim N(\mu_{b·a}, \Sigma_{bb·a})$

证明 $x_{b·a}$ 和 $x_a$ 独立：

那么根据 $x_b=x_{b·a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a$ ：

$x_b | x_a = x_{b·a} | x_a + \Sigma_{ba}\Sigma_{aa}^{-1}x_a | x_a = x_{b·a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a$

所以 $E(x_b|x_a) = \mu_{b·a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a$ ， $Var(x_b|x_a) = \Sigma_{bb·a}$ 。

反过来也是一样的。

Math Basics - Gaussian Distribution - Joint Probability

下面利用上边四个量，求解线性模型：

已知： $p(x)=\mathcal{N}(\mu,\Lambda^{-1}),p(y|x)=\mathcal{N}(Ax+b,L^{-1})$ ，求解： $p(y),p(x|y)$ 。

解：令 $y=Ax+b+\epsilon,\epsilon\sim\mathcal{N}(0,L^{-1})$ ，所以 $\mathbb{E}[y]=\mathbb{E}[Ax+b+\epsilon]=A\mu+b$ ， $Var[y]=A \Lambda^{-1}A^T+L^{-1}$ 。因此：

$p(y)=\mathcal{N}(A\mu+b,L^{-1}+A\Lambda^{-1}A^T)$

引入 $z=\begin{pmatrix}x\\y\end{pmatrix}$ ，我们可以得到 $Cov[x,y]=\mathbb{E}[(x-\mathbb{E}[x])(y-\mathbb{E}[y])^T]$ 。

对于这个协方差可以直接计算：

$\begin{aligned} Cov(x,y) &= \mathbb{E}[(x-\mu)(Ax-A\mu+\epsilon)^T] \\ &=\mathbb{E}[(x-\mu)(x-\mu)^TA^T] \\ &=Var[x]A^T \\&=\Lambda^{-1}A^T \end{aligned}$

注意到协方差矩阵的对称性，所以

$p(z)=\mathcal{N}\begin{pmatrix}\mu\\A\mu+b\end{pmatrix},\begin{pmatrix}\Lambda^{-1}&\Lambda^{-1}A^T\\A\Lambda^{-1}&L^{-1}+A\Lambda^{-1}A^T\end{pmatrix}$

根据之前的公式，我们可以得到：

$\mathbb{E}[x|y]=\mu+\Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)^{-1}(y-A\mu-b)$

$Var[x|y]=\Lambda^{-1}-\Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)^{-1}A\Lambda^{-1}$

Linear Regression - Least Squre Method

假设数据集为： $\mathcal{D}={(x_1, y_1),(x_2, y_2),\cdots,(x_N, y_N)}$

后面我们记： $X=(x_1,x_2,\cdots,x_N)^T,Y=(y_1,y_2,\cdots,y_N)^T$

线性回归假设： $f(w)=w^Tx$

对这个问题，采用二范数定义的平方误差来定义损失函数：

$L(w)=\sum\limits_{i=1}^N||w^Tx_i-y_i||^2_2$

展开得到：

$\begin{aligned} L(w) &= (w^Tx_1-y_1,\cdots,w^Tx_N-y_N)\cdot (w^Tx_1-y_1,\cdots,w^Tx_N-y_N)^T\\ &= (w^TX^T-Y^T)\cdot (Xw-Y)\\ &= w^TX^TXw-Y^TXw-w^TX^TY+Y^TY\\ &= w^TX^TXw-2w^TX^TY+Y^TY \end{aligned}$

最小化这个值的 $\hat{w}$ ：

$\begin{aligned} \hat{w}=\mathop{argmin}\limits_wL(w)&\longrightarrow\frac{\partial}{\partial w}L(w)=0\\ &\longrightarrow2X^TX\hat{w}-2X^TY=0\\ &\longrightarrow \hat{w}=(X^TX)^{-1}X^TY=X^+Y \end{aligned}$

这个式子中 $(X^TX)^{-1}X^T$ 又被称为伪逆。对于行满秩或者列满秩的 $X$ ，可以直接求解，但是对于非满秩的样本集合，需要使用奇异值分解（SVD）的方法，对 $X$ 求奇异值分解，得到 $X=U\Sigma V^T$

于是： $X^+=V\Sigma^{-1}U^T$

在几何上，最小二乘法相当于模型（这里就是直线）和试验值的距离的平方求和，假设我们的试验样本张成一个 $p$ 维空间（满秩的情况）： $X=Span(x_1,\cdots,x_N)$

而模型可以写成 $f(w)=X\beta$ ，也就是 $x_1,\cdots,x_N$ 的某种组合，而最小二乘法就是说希望 $Y$ 和这个模型距离越小越好，于是它们的差应该与这个张成的空间垂直： $X^T\cdot(Y-X\beta)=0\longrightarrow\beta=(X^TX)^{-1}X^TY$