投影矩阵(Projection Matrix)和残差生成矩阵(Residual Maker Matrix)

我们来详细解释一下这两个矩阵:投影矩阵(Projection Matrix) $P_A$ 和残差生成矩阵(Residual Maker Matrix) $M_A$。

核心概念:投影

想象一下,你有一个高维空间(比如3维空间),和一个穿过这个空间的低维子空间(比如一个2维平面)。投影的作用就是将一个高维空间中的点,“垂直地”映射到这个低维子空间上。这个映射操作就是投影

在你的公式中:

  • $A$ 是一个 $n \times k$ 的矩阵($n > k$),它的列向量张成了一个 $k$ 维的子空间(我们称之为 列空间,Column Space of A,记作 $\text{Col}(A)$)。
  • 我们的目标是将任意一个 $n$ 维向量 $y$ 投影到 $A$ 的列空间上。

1. 投影矩阵 $P_A$

定义:

\[P_A = A(A^\top A)^{-1}A^\top\]

作用: 当它左乘一个向量 $y$ 时,会得到 $y$ 在 $A$ 的列空间上的投影向量 $\hat{y}$。

\[\hat{y} = P_A y\]

这个 $\hat{y}$ 是 $A$ 的列空间中最接近原向量 $y$ 的点(在欧几里得距离的意义上)。

如何理解?

  1. 找到坐标(系数): $A$ 的列空间是由 $A$ 的所有列向量的线性组合构成的。我们要在列空间中找到最接近 $y$ 的点 $\hat{y}$,就需要找到一组系数 $\hat{\beta}$,使得 $A\hat{\beta} \approx y$。通过最小二乘法,可以推导出最优的系数为 $\hat{\beta} = (A^\top A)^{-1}A^\top y$。这部分 $(A^\top A)^{-1}A^\top$ 就像一个”系数计算器”。

  2. 重构投影向量: 有了最优系数 $\hat{\beta}$,我们将它代回,用 $A$ 的列向量进行线性组合,就得到了投影向量本身:

    \[\hat{y} = A\hat{\beta} = A(A^\top A)^{-1}A^\top y\]

    所以,投影矩阵 $P_A$ 就是那个”一步到位”将 $y$ 变成其投影 $\hat{y}$ 的运算符。

关键性质:

  • 幂等性(Idempotent): $P_A P_A = P_A$。投影一次之后,点已经在子空间上了,再次投影不会改变它的位置。
  • 对称性(Symmetric): $P_A^\top = P_A$。
  • $P_A A = A$。因为 $A$ 的每一列本身就在其列空间内,投影后还是它自己。

2. 残差生成矩阵 $M_A$

定义:

\[M_A = I - P_A = I - A(A^\top A)^{-1}A^\top\]

作用: 当它左乘一个向量 $y$ 时,会得到投影后剩下的、无法被 $A$ 的列空间解释的部分,我们称之为残差向量(Residual Vector) $\hat{\epsilon}$。

\[\hat{\epsilon} = M_A y\]

如何理解?

想象向量 $y$ 可以被分解为两个部分:

  1. 一部分落在 $A$ 的列空间内(可以被解释的部分),即 $\hat{y} = P_A y$。
  2. 另一部分与 $A$ 的列空间垂直(无法被解释的部分),即残差 $\hat{\epsilon}$。

用公式表示就是:

\[y = \hat{y} + \hat{\epsilon}\]

代入 $P_A$ 和 $M_A$:

\[y = P_A y + M_A y\]

所以,$M_A$ 的作用就是”提取”出那个垂直的、未被解释的残差部分。

关键性质:

  • 幂等性(Idempotent): $M_A M_A = M_A$。
  • 对称性(Symmetric): $M_A^\top = M_A$。
  • $M_A A = 0$。因为 $A$ 的每一列投影后的残差都是零向量。
  • $P_A M_A = 0$。投影和残差是相互垂直的,所以先取残差再投影,得到的是零向量。

一个直观的几何类比

把整个 $n$ 维空间想象成一个三维空间。

  • $A$ 的列空间 $\text{Col}(A)$ 是一个二维平面。
  • $P_A$ 就像一束垂直的光线,把空间中的任何点 $y$ 垂直地”打”到这个平面上,得到影子 $\hat{y}$。
  • $M_A$ 则是测量点 $y$ 到平面的垂直距离(即残差 $\hat{\epsilon}$)。它就像是 $y$ 和它的影子 $\hat{y}$ 之间的连线。

在统计学/机器学习中的应用(非常重要!)

这几乎是最小二乘回归(Linear Regression)的核心线性代数表示。

  • 我们有一个设计矩阵 $X$(就是这里的 $A$)。
  • 有一个响应向量 $y$。
  • 回归的目标是找到 $\hat{y} = X\hat{\beta}$,使得 $\hat{y}$ 尽可能接近 $y$。
  1. 拟合值(Fitted Values):

    \[\hat{y} = X\hat{\beta} = X(X^\top X)^{-1}X^\top y = P_X y\]

    拟合值就是 $y$ 在 $X$ 的列空间上的投影。

  2. 残差(Residuals):

    \[\hat{\epsilon} = y - \hat{y} = y - P_X y = (I - P_X)y = M_X y\]

    残差就是由残差生成矩阵 $M_X$ 作用在 $y$ 上得到的。

总结

  • $P_A$: 投影算子。将向量投影到由 $A$ 的列所张成的子空间上。它给出了”模型”能够解释的部分。
  • $M_A$: 残差生成器/正交补投影算子。它给出了向量中与 $A$ 的子空间垂直的部分,即”模型”无法解释的噪声或误差部分。

它们一起将一个向量 $y$ 完美地分解为两个正交的部分:$y = P_Ay + M_Ay$。这个分解是理解最小二乘回归、方差分析等众多统计方法的几何基础。




Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • PWY(2011)及PDF展示与操作示例
  • Chen et al. (2025) 泡沫政策反事实分析:渐进理论与推断速查手册
  • 不等式
  • 范数(Norm)的作用与常用总结
  • Phillips & Magdalinos (2007) 渐进结论与阶数速查手册