4.2 相关性函数¶
课程 | Statistical Modelling |
---|---|
作者 | Guangyu Wei |
发布 | 2025-06-15 |
状态 | Done |
Info
这学期的统计建模课程已经结束很久了。由于这是开卷考试并临近期末,我想做一个笔记来梳理知识点并进行复习。这门课程是外方引进的,涉及的知识点较为复杂且零碎,其中一些内容在主流教材中甚至查找不到相关资料,因此我花费了很多时间来寻找相关内容。
由于这是我个人的复习笔记,在某些知识点上我可能会进行较为深入的探讨,有时显得略微啰嗦。但我始终相信,除了掌握知识点本身,理解其背后的原理与逻辑同样重要。深入挖掘不仅能加深理解,也有助于建立更扎实的知识体系。如果你也在学习相关内容,希望这些笔记能为你提供一些思路和启发。
Tip
Question
Note
Warning
Danger
Error
Info
首先,我们将采用一种惯例,用大写字母表示随机变量,例如\(Y\).
用与之对应的小写字母表示随机变量的取值,例如\(y\).
1.1 多元高斯分布¶
人类对于世界的认识从来都是循序渐进,由表及里,由浅入深,从简单的高斯分布,即一个随机变量满足高斯分布,我们就会想如果两个变量放在一起,会不会有一个表示来刻画这两个变量的分布呢。那恰恰是有这样一个分布,叫作多维高斯分布。
多维高斯分布拥有与高斯分布形式一致的表达形式,对于一个服从多维高斯分布的随机向量\(Y\).
记为\(Y \sim N_r(\mu, \Sigma) ,\)代表r维随机向量\(Y\)服从多维高斯分布,这里均值是一个向量\(\mu\),而对应高斯分布中的方差项现在则称为协方差矩阵\(\Sigma\).
协方差矩阵定义为:
其中
协方差矩阵\(i,j\)位置的元素是第\(i,j\)个随机向量之间的协方差。这是从标量随机变量到高维随机向量的自然推广。
协方差在概率论与统计中用于衡量两个变量的总体误差。方差即是协方差的一种特殊情况,即两个变量相同的情况。
方差刻画的是样本整体的分散程度,\(\operatorname{Var}(Y) = E(X-\mu)^2,\)也即相对于中心的偏差程度,那么刻画两个随机变量的偏差用什么方法呢,这也就引入了协方差的概念:
那么看完随机变量和随机向量后,我们可以自然推广到随机矩阵
对于随机矩阵的介绍,外方课并没有过多涉及,感兴趣的同学可以自行查阅资料学习。
1.2 线性变换¶
对于一个随机向量\(Y\),其中\(E(Y)=\eta,Var(Y)=\Sigma\),并且有常数矩阵\(A_{m\times n}\)和\(b_{m \times 1}.\)此时我们有
对于一个随机矩阵\(\mathcal{Y}\)和一个常数矩阵\(A\).此时我们有
1.3 正态分布¶
如果\(Y \sim N_r(\mu, \Sigma) ,\)并且有常数矩阵\(A_{k\times r}\)和\(b_{k\times 1}\),那么有:
如果\(Y \sim N_r(\mu, \Sigma) ,\)并且有常数矩阵\(a_{r\times 1}\),那么有:
1.4 多元线性回归¶
- 回归分析是一类基于预测变量(predictor variables)来预测一个或多个响应变量(response variable)的方法。
假设解释变量为\(x_1,x_2,...,x_r\)这些变量被认为与响应变量\(y\)有关联。当我们对总体进行随机抽样时候,假设有\(n\)个个体,每个个体有模型:
其中\(y_i,x_{i1},x_{i2},...,x_{ir}\)表示对总体变量\(y,x_1,x_2,...,x_r\)的独立重复观测。按照总体模型假设和抽样方式,一般假设误差项有下述性质:
- \(E(e_i)=0\)
- \(Var(e_i)=\sigma^2\)
- \(Cov(e_i,e_j)=0,i\neq j\)
我们将其表述为矩阵的形式:
得到多元线性回归模型的矩阵形式:
以及假设\(E(\mathcal{E})=0, Var(\mathcal{E})=\sigma^2I_{n \times n}\)
在这里对于一个多元线性回归模型来说,我们需要\(X\)的列线性无关。为什么呢,请看下面证明:
Note
首先我们假设\(X\)是线性相关的,那么存在一个非零向量
使得
这意味着,如果我们为回归模型的系数向量\(\beta\)添加一个偏移量\(\alpha\),这个回归模型仍然成立,此时回归系数\(\beta\)就不是唯一的,因为我们可以有多个\(\beta\)对应相同的观测结果。
另一方面,如果\(X\)是线性无关的,那么我们有:
此时\(\beta\)就是唯一确定的。
对于多元线性回归模型,一般我们关心的任务有: - 参数及其函数的估计问题(最小二乘估计) - 参数估计量的性质 - 模型诊断 - 参数检验(正态性假设,似然比检验) - 变量选择问题 - 残差分析 - 模型的预测功能
在以下几节中,我们将依次讲解。
最小二乘估计¶
为了使得样本回归模型尽可能接近总体回归模型,我们就要使得回归方程的拟合值与实际观测值的误差越小越好。由于残差有正有负,为了便于数学上的处理,我们使用残差平方和最小准则来估计模型的回归参数。
向量\(\hat{\beta}\)是通过最小化残差平方和来得到的最优估计。目标函数为:
对于模型\(Y=X\beta+\mathcal{E}\),最小二乘法通过寻找\(\beta_0,\beta_1,...,\beta_r\),使残差平方和达到极小/最小值,则有:
根据微分求极值原理,\(\hat{\beta_0},\hat{\beta_1},\hat{\beta_2},...,\hat{\beta_p}\)应满足下列方程组:
对方程组进行整理得到矩阵形式表示的正规方程组:
移项得到:
当\((X^TX)^{-1}\)存在时,得回归参数的最小二乘估计为:
矩阵可逆时,行列式不为0,矩阵的秩等于列数,,这三个条件是可以互推的,
\(\(\begin{equation*}\left( X'X \right)^{-1} \Rightarrow \left| X'X \right| \neq 0 \Rightarrow \text{rank}(X'X) = p+1 \Rightarrow \text{rank}(X) = p+1, X_{n \times (p+1)} \Rightarrow n \geq p+1 \end{equation*}\)\)
在得到回归方程参数的最小二乘估计以后,就可以使用回归方程来求响应变量的回归值了。
类似地,称向量\(\hat{y} = X\hat{\beta} = (\hat{y}_1, \dots, \hat{y}_n)' \(为因变量向量\)y = X\beta = (y_1, \dots, y_n)'\)的拟合值。由式子(1.4.7)可得:
由式(1.4.8)可以看出,矩阵\(X(X^T X)^{-1} X^T\)的作用是把因变量\(y\)变为拟合值向量\(\hat{y}\),从公式上来看貌似是给\(y\)带了一顶帽子,因而形象地称矩阵\(H=X(X^T X)^{-1} X^T\)为帽子矩阵。
关于帽子矩阵实则有很多性质,在后面我做一些详细的讨论。
最小二乘估计量的性质¶
定理1.2 假设
其中\(E(\mathcal{E})=\mathbf{0}\) and \(\mathrm{Var}(\mathcal{E})=\sigma^{2}I.\)
则有:
-
\(E({\hat{\beta}})=\beta.\)
-
\(Var(\hat{\beta})=\sigma^2(X^T X)^{-1}.\)
-
\(E({s_e}^2)=\sigma^2.\)
定理1.3 假设
其中\(E(\mathcal{E})=\mathbf{0}\) and \(\mathrm{Var}(\mathcal{E})=\sigma^{2}I.\)
如果\(\mathcal{E}\sim N_n(\mathbf{0},\sigma^2I),\)则有:
- \(\hat{\beta}\sim N_{p}(\beta,\sigma^{2}(X^{T}X)^{-1}\)
- \(\frac{(n-p)s_e^2}{\sigma^2}\sim\chi_{n-p}^2\) independently of \(\hat{\beta}.\)