投影矩阵(Projection Matrix)和残差生成矩阵(Residual Maker Matrix)
我们来详细解释一下这两个矩阵:投影矩阵(Projection Matrix) $P_A$ 和残差生成矩阵(Residual Maker Matrix) $M_A$。
核心概念:投影
想象一下,你有一个高维空间(比如3维空间),和一个穿过这个空间的低维子空间(比如一个2维平面)。投影的作用就是将一个高维空间中的点,“垂直地”映射到这个低维子空间上。这个映射操作就是投影。
在你的公式中:
- $A$ 是一个 $n \times k$ 的矩阵($n > k$),它的列向量张成了一个 $k$ 维的子空间(我们称之为 列空间,Column Space of A,记作 $\text{Col}(A)$)。
- 我们的目标是将任意一个 $n$ 维向量 $y$ 投影到 $A$ 的列空间上。
1. 投影矩阵 $P_A$
定义:
\[P_A = A(A^\top A)^{-1}A^\top\]作用: 当它左乘一个向量 $y$ 时,会得到 $y$ 在 $A$ 的列空间上的投影向量 $\hat{y}$。
\[\hat{y} = P_A y\]这个 $\hat{y}$ 是 $A$ 的列空间中最接近原向量 $y$ 的点(在欧几里得距离的意义上)。
如何理解?
-
找到坐标(系数): $A$ 的列空间是由 $A$ 的所有列向量的线性组合构成的。我们要在列空间中找到最接近 $y$ 的点 $\hat{y}$,就需要找到一组系数 $\hat{\beta}$,使得 $A\hat{\beta} \approx y$。通过最小二乘法,可以推导出最优的系数为 $\hat{\beta} = (A^\top A)^{-1}A^\top y$。这部分 $(A^\top A)^{-1}A^\top$ 就像一个”系数计算器”。
-
重构投影向量: 有了最优系数 $\hat{\beta}$,我们将它代回,用 $A$ 的列向量进行线性组合,就得到了投影向量本身:
\[\hat{y} = A\hat{\beta} = A(A^\top A)^{-1}A^\top y\]所以,投影矩阵 $P_A$ 就是那个”一步到位”将 $y$ 变成其投影 $\hat{y}$ 的运算符。
关键性质:
- 幂等性(Idempotent): $P_A P_A = P_A$。投影一次之后,点已经在子空间上了,再次投影不会改变它的位置。
- 对称性(Symmetric): $P_A^\top = P_A$。
- $P_A A = A$。因为 $A$ 的每一列本身就在其列空间内,投影后还是它自己。
2. 残差生成矩阵 $M_A$
定义:
\[M_A = I - P_A = I - A(A^\top A)^{-1}A^\top\]作用: 当它左乘一个向量 $y$ 时,会得到投影后剩下的、无法被 $A$ 的列空间解释的部分,我们称之为残差向量(Residual Vector) $\hat{\epsilon}$。
\[\hat{\epsilon} = M_A y\]如何理解?
想象向量 $y$ 可以被分解为两个部分:
- 一部分落在 $A$ 的列空间内(可以被解释的部分),即 $\hat{y} = P_A y$。
- 另一部分与 $A$ 的列空间垂直(无法被解释的部分),即残差 $\hat{\epsilon}$。
用公式表示就是:
\[y = \hat{y} + \hat{\epsilon}\]代入 $P_A$ 和 $M_A$:
\[y = P_A y + M_A y\]所以,$M_A$ 的作用就是”提取”出那个垂直的、未被解释的残差部分。
关键性质:
- 幂等性(Idempotent): $M_A M_A = M_A$。
- 对称性(Symmetric): $M_A^\top = M_A$。
- $M_A A = 0$。因为 $A$ 的每一列投影后的残差都是零向量。
- $P_A M_A = 0$。投影和残差是相互垂直的,所以先取残差再投影,得到的是零向量。
一个直观的几何类比
把整个 $n$ 维空间想象成一个三维空间。
- $A$ 的列空间 $\text{Col}(A)$ 是一个二维平面。
- $P_A$ 就像一束垂直的光线,把空间中的任何点 $y$ 垂直地”打”到这个平面上,得到影子 $\hat{y}$。
- $M_A$ 则是测量点 $y$ 到平面的垂直距离(即残差 $\hat{\epsilon}$)。它就像是 $y$ 和它的影子 $\hat{y}$ 之间的连线。
在统计学/机器学习中的应用(非常重要!)
这几乎是最小二乘回归(Linear Regression)的核心线性代数表示。
- 我们有一个设计矩阵 $X$(就是这里的 $A$)。
- 有一个响应向量 $y$。
- 回归的目标是找到 $\hat{y} = X\hat{\beta}$,使得 $\hat{y}$ 尽可能接近 $y$。
-
拟合值(Fitted Values):
\[\hat{y} = X\hat{\beta} = X(X^\top X)^{-1}X^\top y = P_X y\]拟合值就是 $y$ 在 $X$ 的列空间上的投影。
-
残差(Residuals):
\[\hat{\epsilon} = y - \hat{y} = y - P_X y = (I - P_X)y = M_X y\]残差就是由残差生成矩阵 $M_X$ 作用在 $y$ 上得到的。
总结
- $P_A$: 投影算子。将向量投影到由 $A$ 的列所张成的子空间上。它给出了”模型”能够解释的部分。
- $M_A$: 残差生成器/正交补投影算子。它给出了向量中与 $A$ 的子空间垂直的部分,即”模型”无法解释的噪声或误差部分。
它们一起将一个向量 $y$ 完美地分解为两个正交的部分:$y = P_Ay + M_Ay$。这个分解是理解最小二乘回归、方差分析等众多统计方法的几何基础。
Enjoy Reading This Article?
Here are some more articles you might like to read next: