投影矩阵（Projection Matrix）和残差生成矩阵（Residual Maker Matrix）

我们来详细解释一下这两个矩阵：投影矩阵（Projection Matrix） $P_A$ 和残差生成矩阵（Residual Maker Matrix） $M_A$。

想象一下，你有一个高维空间（比如3维空间），和一个穿过这个空间的低维子空间（比如一个2维平面）。投影的作用就是将一个高维空间中的点，“垂直地”映射到这个低维子空间上。这个映射操作就是投影。

在你的公式中：

$A$ 是一个 $n \times k$ 的矩阵（$n > k$），它的列向量张成了一个 $k$ 维的子空间（我们称之为 列空间，Column Space of A，记作 $\text{Col}(A)$）。
我们的目标是将任意一个 $n$ 维向量 $y$ 投影到 $A$ 的列空间上。

定义：

\[P_A = A(A^\top A)^{-1}A^\top\]

作用： 当它左乘一个向量 $y$ 时，会得到 $y$ 在 $A$ 的列空间上的投影向量 $\hat{y}$。

\[\hat{y} = P_A y\]

这个 $\hat{y}$ 是 $A$ 的列空间中最接近原向量 $y$ 的点（在欧几里得距离的意义上）。

如何理解？

找到坐标（系数）： $A$ 的列空间是由 $A$ 的所有列向量的线性组合构成的。我们要在列空间中找到最接近 $y$ 的点 $\hat{y}$，就需要找到一组系数 $\hat{\beta}$，使得 $A\hat{\beta} \approx y$。通过最小二乘法，可以推导出最优的系数为 $\hat{\beta} = (A^\top A)^{-1}A^\top y$。这部分 $(A^\top A)^{-1}A^\top$ 就像一个”系数计算器”。
重构投影向量：有了最优系数 $\hat{\beta}$，我们将它代回，用 $A$ 的列向量进行线性组合，就得到了投影向量本身：
\[\hat{y} = A\hat{\beta} = A(A^\top A)^{-1}A^\top y\]
所以，投影矩阵 $P_A$ 就是那个”一步到位”将 $y$ 变成其投影 $\hat{y}$ 的运算符。

关键性质：

定义：

\[M_A = I - P_A = I - A(A^\top A)^{-1}A^\top\]

作用： 当它左乘一个向量 $y$ 时，会得到投影后剩下的、无法被 $A$ 的列空间解释的部分，我们称之为残差向量（Residual Vector） $\hat{\epsilon}$。

\[\hat{\epsilon} = M_A y\]

如何理解？

想象向量 $y$ 可以被分解为两个部分：

用公式表示就是：

\[y = \hat{y} + \hat{\epsilon}\]

代入 $P_A$ 和 $M_A$：

\[y = P_A y + M_A y\]

所以，$M_A$ 的作用就是”提取”出那个垂直的、未被解释的残差部分。

关键性质：

把整个 $n$ 维空间想象成一个三维空间。

这几乎是最小二乘回归（Linear Regression）的核心线性代数表示。

拟合值（Fitted Values）:
\[\hat{y} = X\hat{\beta} = X(X^\top X)^{-1}X^\top y = P_X y\]
拟合值就是 $y$ 在 $X$ 的列空间上的投影。
残差（Residuals）:
\[\hat{\epsilon} = y - \hat{y} = y - P_X y = (I - P_X)y = M_X y\]
残差就是由残差生成矩阵 $M_X$ 作用在 $y$ 上得到的。

它们一起将一个向量 $y$ 完美地分解为两个正交的部分：$y = P_Ay + M_Ay$。这个分解是理解最小二乘回归、方差分析等众多统计方法的几何基础。

Enjoy Reading This Article?