跳转至

4.2 相关性函数

课程 Statistical Modelling
作者 Guangyu Wei
发布 2025-06-15
状态 Done

Info

这学期的统计建模课程已经结束很久了。由于这是开卷考试并临近期末,我想做一个笔记来梳理知识点并进行复习。这门课程是外方引进的,涉及的知识点较为复杂且零碎,其中一些内容在主流教材中甚至查找不到相关资料,因此我花费了很多时间来寻找相关内容。

由于这是我个人的复习笔记,在某些知识点上我可能会进行较为深入的探讨,有时显得略微啰嗦。但我始终相信,除了掌握知识点本身,理解其背后的原理与逻辑同样重要。深入挖掘不仅能加深理解,也有助于建立更扎实的知识体系。如果你也在学习相关内容,希望这些笔记能为你提供一些思路和启发。

Tip

Question

Note

Warning

Danger

Error

Info

首先,我们将采用一种惯例,用大写字母表示随机变量,例如\(Y\).

用与之对应的小写字母表示随机变量的取值,例如\(y\).

1.1 多元高斯分布

人类对于世界的认识从来都是循序渐进,由表及里,由浅入深,从简单的高斯分布,即一个随机变量满足高斯分布,我们就会想如果两个变量放在一起,会不会有一个表示来刻画这两个变量的分布呢。那恰恰是有这样一个分布,叫作多维高斯分布。

多维高斯分布拥有与高斯分布形式一致的表达形式,对于一个服从多维高斯分布的随机向量\(Y\).

\[Y = \begin{pmatrix} Y_1 \\ Y_2 \\ \vdots \\ Y_n \end{pmatrix},\]

记为\(Y \sim N_r(\mu, \Sigma) ,\)代表r维随机向量\(Y\)服从多维高斯分布,这里均值是一个向量\(\mu\),而对应高斯分布中的方差项现在则称为协方差矩阵\(\Sigma\).

协方差矩阵定义为:

\[\operatorname{Var}(Y) = \Sigma = [\sigma_{ij}],\]

其中

\[\sigma_{ij} = \begin{cases} \operatorname{cov}(Y_i, Y_j) & \text{for } i \ne j, \\ \operatorname{var}(Y_i) & \text{for } i = j. \end{cases} \]

协方差矩阵\(i,j\)位置的元素是第\(i,j\)个随机向量之间的协方差。这是从标量随机变量到高维随机向量的自然推广。

协方差在概率论与统计中用于衡量两个变量的总体误差。方差即是协方差的一种特殊情况,即两个变量相同的情况。

方差刻画的是样本整体的分散程度,\(\operatorname{Var}(Y) = E(X-\mu)^2,\)也即相对于中心的偏差程度,那么刻画两个随机变量的偏差用什么方法呢,这也就引入了协方差的概念:

\[\mathrm{Cov}(X,Y)=E[(X-E[X])(Y-E[Y])]\]

那么看完随机变量和随机向量后,我们可以自然推广到随机矩阵

\[\mathcal{Y} = [Y_{ij}] \]

对于随机矩阵的介绍,外方课并没有过多涉及,感兴趣的同学可以自行查阅资料学习。

1.2 线性变换

对于一个随机向量\(Y\),其中\(E(Y)=\eta,Var(Y)=\Sigma\),并且有常数矩阵\(A_{m\times n}\)\(b_{m \times 1}.\)此时我们有

\[E(A\boldsymbol{Y}+\boldsymbol{b})=A\boldsymbol{\eta}+b\]
\[\operatorname{Var}(A\boldsymbol{Y}+\boldsymbol{b})=A\Sigma A^{T}\]

对于一个随机矩阵\(\mathcal{Y}\)和一个常数矩阵\(A\).此时我们有

\[E(A\mathcal{Y})=AE(\mathbf{\mathcal{Y}})\]

1.3 正态分布

如果\(Y \sim N_r(\mu, \Sigma) ,\)并且有常数矩阵\(A_{k\times r}\)\(b_{k\times 1}\),那么有:

\[AY+b\sim N_k(A\mu+b,A\Sigma A^T).\]

如果\(Y \sim N_r(\mu, \Sigma) ,\)并且有常数矩阵\(a_{r\times 1}\),那么有:

\[a^TY\sim N(a^T\mu,a^T\Sigma a).\]

1.4 多元线性回归

  • 回归分析是一类基于预测变量(predictor variables)来预测一个或多个响应变量(response variable)的方法。

假设解释变量为\(x_1,x_2,...,x_r\)这些变量被认为与响应变量\(y\)有关联。当我们对总体进行随机抽样时候,假设有\(n\)个个体,每个个体有模型:

\[\begin{equation} y_i=\beta_0+\beta_1x_{i1}+\beta_2x_{i2}+\cdots+\beta_rx_{ir}+e_i, \tag{1.4.1} \end{equation}\]

其中\(y_i,x_{i1},x_{i2},...,x_{ir}\)表示对总体变量\(y,x_1,x_2,...,x_r\)的独立重复观测。按照总体模型假设和抽样方式,一般假设误差项有下述性质:

  • \(E(e_i)=0\)
  • \(Var(e_i)=\sigma^2\)
  • \(Cov(e_i,e_j)=0,i\neq j\)

我们将其表述为矩阵的形式:

\[\boldsymbol{Y}=\begin{pmatrix}Y_1\\Y_2\\\vdots\\Y_n\end{pmatrix},X=\begin{pmatrix}1&x_{11}&x_{12}&\ldots&x_{1r}\\1&x_{21}&x_{22}&\ldots&x_{2r}\\\vdots&&&&\vdots\\1&x_{n1}&x_{n2}&\ldots&x_{nr}\end{pmatrix},\boldsymbol{\beta}=\begin{pmatrix}\beta_0\\\beta_1\\\vdots\\\beta_r\end{pmatrix},\boldsymbol{\mathcal{E}}=\begin{pmatrix}\mathcal{E}_1\\\mathcal{E}_2\\\vdots\\\mathcal{E}_n\end{pmatrix}.$$ $$\left.\left(\begin{array}{c}y_1\\y_2\\\vdots\\y_n\end{array}\right.\right)=\begin{pmatrix}1&x_{11}&\cdots&x_{1r}\\1&x_{21}&\cdots&x_{2r}\\\vdots&\vdots&\vdots&\vdots\\1&x_{n1}&\cdots&x_{nr}\end{pmatrix}\beta+\begin{pmatrix}e_1\\e_2\\\vdots\\e_n\end{pmatrix}$$ $$\Longleftrightarrow y=X\beta+e\]

得到多元线性回归模型的矩阵形式:

\[\begin{equation} Y=X\beta+\mathcal{E} \end{equation}\tag{1.4.2}\]

以及假设\(E(\mathcal{E})=0, Var(\mathcal{E})=\sigma^2I_{n \times n}\)

在这里对于一个多元线性回归模型来说,我们需要\(X\)的列线性无关。为什么呢,请看下面证明:

Note

首先我们假设\(X\)是线性相关的,那么存在一个非零向量

\[\alpha=(\alpha_0,\alpha_1,\ldots,\alpha_r)^T\]

使得

\[X\alpha=0.\]

这意味着,如果我们为回归模型的系数向量\(\beta\)添加一个偏移量\(\alpha\),这个回归模型仍然成立,此时回归系数\(\beta\)就不是唯一的,因为我们可以有多个\(\beta\)对应相同的观测结果。

另一方面,如果\(X\)是线性无关的,那么我们有:

\[X\alpha \Longleftrightarrow \alpha=0\]

此时\(\beta\)就是唯一确定的。

对于多元线性回归模型,一般我们关心的任务有: - 参数及其函数的估计问题(最小二乘估计) - 参数估计量的性质 - 模型诊断 - 参数检验(正态性假设,似然比检验) - 变量选择问题 - 残差分析 - 模型的预测功能

在以下几节中,我们将依次讲解。

最小二乘估计

为了使得样本回归模型尽可能接近总体回归模型,我们就要使得回归方程的拟合值与实际观测值的误差越小越好。由于残差有正有负,为了便于数学上的处理,我们使用残差平方和最小准则来估计模型的回归参数。

向量\(\hat{\beta}\)是通过最小化残差平方和来得到的最优估计。目标函数为:

\[\begin{equation} Q(\beta) = \|y - X\beta\|^2 \tag{1.4.3} \end{equation} \]

对于模型\(Y=X\beta+\mathcal{E}\),最小二乘法通过寻找\(\beta_0,\beta_1,...,\beta_r\),使残差平方和达到极小/最小值,则有:

\[\begin{equation} Q(\hat{\beta_0}, \hat{\beta_1}, \dots, \hat{\beta_p}) = \min \sum_{i=1}^{n} \left( y_i - \hat{\beta_0} - \hat{\beta_1} x_{i1} - \hat{\beta_2} x_{i2} + \dots + \hat{\beta_p} x_{ip} \right)^2 \tag{1.4.4} \end{equation} \]

根据微分求极值原理,\(\hat{\beta_0},\hat{\beta_1},\hat{\beta_2},...,\hat{\beta_p}\)应满足下列方程组:

\[\begin{equation} \left\{ \begin{array}{l} \frac{\partial Q}{\partial \beta_0} \Big|_{\beta_0 = \hat{\beta_0}} = -2 \sum_{i=1}^{n} \left( y_i - \hat{\beta_0} - \hat{\beta_1}x_{i1} - \hat{\beta_2}x_{i2} - \dots - \hat{\beta_p}x_{ip} \right) = 0 \\\\ \frac{\partial Q}{\partial \beta_1} \Big|_{\beta_1 = \hat{\beta_1}} = -2 \sum_{i=1}^{n} \left( y_i - \hat{\beta_0} - \hat{\beta_1}x_{i1} - \hat{\beta_2}x_{i2} - \dots - \hat{\beta_p}x_{ip} \right) x_{i1} = 0 \\\\ \vdots \\\\ \frac{\partial Q}{\partial \beta_p} \Big|_{\beta_p = \hat{\beta_p}} = -2 \sum_{i=1}^{n} \left( y_i - \hat{\beta_0} - \hat{\beta_1}x_{i1} - \hat{\beta_2}x_{i2} - \dots - \hat{\beta_p}x_{ip} \right) x_{ip} = 0 \end{array} \right. \tag{1.4.5} \end{equation}\]

对方程组进行整理得到矩阵形式表示的正规方程组

\[\begin{equation} X^T(y-X\hat{\beta})=0,\tag{1.4.6} \end{equation}\]

移项得到:

\[\begin{equation*} X^TX\hat{\beta}=X^Ty \end{equation*}\]

\((X^TX)^{-1}\)存在时,得回归参数的最小二乘估计为:

\[\begin{equation} \hat{\beta}=(X^TX)^{-1}X^Ty \tag{1.4.7} \end{equation}\]

矩阵可逆时,行列式不为0,矩阵的秩等于列数,,这三个条件是可以互推的,

\(\(\begin{equation*}\left( X'X \right)^{-1} \Rightarrow \left| X'X \right| \neq 0 \Rightarrow \text{rank}(X'X) = p+1 \Rightarrow \text{rank}(X) = p+1, X_{n \times (p+1)} \Rightarrow n \geq p+1 \end{equation*}\)\)

在得到回归方程参数的最小二乘估计以后,就可以使用回归方程来求响应变量的回归值了。

\[\hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_{i1} + \cdots + \hat{\beta}_p x_{ip} \]

类似地,称向量\(\hat{y} = X\hat{\beta} = (\hat{y}_1, \dots, \hat{y}_n)' \(为因变量向量\)y = X\beta = (y_1, \dots, y_n)'\)的拟合值。由式子(1.4.7)可得:

\[\begin{equation} \hat{\eta} = X\hat{\beta} = X(X^T X)^{-1} X^T y = Hy, \tag{1.4.8} \end{equation}\]

由式(1.4.8)可以看出,矩阵\(X(X^T X)^{-1} X^T\)的作用是把因变量\(y\)变为拟合值向量\(\hat{y}\),从公式上来看貌似是给\(y\)带了一顶帽子,因而形象地称矩阵\(H=X(X^T X)^{-1} X^T\)为帽子矩阵。

关于帽子矩阵实则有很多性质,在后面我做一些详细的讨论。

最小二乘估计量的性质

定理1.2 假设

\[\begin{equation*} Y=X\beta+\mathcal{E} \end{equation*}\]

其中\(E(\mathcal{E})=\mathbf{0}\) and \(\mathrm{Var}(\mathcal{E})=\sigma^{2}I.\)

则有:

  • \(E({\hat{\beta}})=\beta.\)

  • \(Var(\hat{\beta})=\sigma^2(X^T X)^{-1}.\)

  • \(E({s_e}^2)=\sigma^2.\)

定理1.3 假设

\[\begin{equation*} Y=X\beta+\mathcal{E} \end{equation*}\]

其中\(E(\mathcal{E})=\mathbf{0}\) and \(\mathrm{Var}(\mathcal{E})=\sigma^{2}I.\)

如果\(\mathcal{E}\sim N_n(\mathbf{0},\sigma^2I),\)则有:

  • \(\hat{\beta}\sim N_{p}(\beta,\sigma^{2}(X^{T}X)^{-1}\)
  • \(\frac{(n-p)s_e^2}{\sigma^2}\sim\chi_{n-p}^2\) independently of \(\hat{\beta}.\)