确定随机阶数的方法

用于记录学习中的问题与解答、关键笔记、资源与复盘。

在实际研究中，确定随机阶数通常会遵循一个大致的工作流程：

写出定义：明确序列的数学定义（如解形式、递归形式、估计量形式）。
尝试矩计算：先试试看能否计算方差或更高阶矩。这是最直观的起点。
寻找极限分布：如果能找到合适的标准化因子使其收敛到非退化分布，这是黄金标准。
利用过程性质：检查序列是否是鞅、马尔可夫过程等，并应用相应的不等式或极限定理。
分解与比较：将序列分解为主项和残差项，主项用已知方法处理，并证明残差项是更高阶无穷小（$o_p(a_T)$）。
使用通用框架：对于统计估计量，考虑它是否是一个经验过程的表现，然后应用经验过程理论的结果。

1. 计算矩（Moments）的阶数

如果能够计算出序列矩的渐近阶，通常可以推断出概率阶。

核心思想：如果 $E\lvert X_T \rvert^p \asymp b_T^p$（即 $E\lvert X_T \rvert^p$ 与 $b_T^p$ 同阶），那么通常有 $X_T = O_p(b_T)$。
常用特例（马尔可夫不等式）：如果 $E(\lvert X_T \rvert^2) = O(c_T^2)$，那么由切比雪夫不等式： $P(\lvert X_T \rvert > M c_T) \le \frac{E(\lvert X_T \rvert^2)}{M^2 c_T^2} = O(1)/M^2$ 这正好满足 $O_p(c_T)$ 的定义。
优点：计算期望和方差通常比求极限分布更容易。
缺点：矩可能不存在；即使存在，$E\lvert X_T \rvert^p$ 有界只能推出 $O_p(1)$，但可能抓不住更紧的阶（例如，方差可能趋于零，此时是 $o_p(1)$，但矩方法只能告诉你它是 $O_p(1)$）。

2. 利用收敛性结果 1

这是最强大、最精确的方法。

核心思想：找到一个缩放序列 $a_T$，使得 $X_T / a_T$ 依分布收敛到一个非退化的随机变量。
结论：如果成立，则 $X_T = O_p(a_T)$。
优点：不仅给出了阶，还给出了极限分布，可以进行更精确的统计推断。
例子：单位根过程、近单位根过程、各种估计量的渐近理论。

3. 递归/微分方程法

对于由递归方程定义的序列（如时间序列模型、随机算法），可以通过分析递归关系来确定阶数。

核心思想：将递归方程“缩放”，然后求解一个确定的极限微分方程或代数方程。
例子：
1. 随机递归：$Y_t = (1 - \gamma_T) Y_{t-1} + u_t$。假设 $Var(u_t) = \sigma^2$。在平稳状态下，两边取方差（近似地）： $Var(Y_t) \approx (1 - 2\gamma_T) Var(Y_{t-1}) + \sigma^2$ 解得 $Var(Y_t) \approx \frac{\sigma^2}{2\gamma_T}$。因此 $Y_t = O_p(1/\sqrt{\gamma_T})$。
2. ODE 方法：随机逼近算法 $X_{t+1} = X_t + \gamma_t (h(X_t) + \xi_t)$，其轨迹可以由常微分方程 $\dot{x} = h(x)$ 近似，其波动阶为 $O_p(\sqrt{\gamma_t})$。

4. 鞅方法

如果序列可以表示为一个鞅，那么可以利用鞅的收敛定理和最大不等式来确定其阶数。

核心思想：利用鞅差序列的性质。
关键工具：
- 鞅最大值不等式（如 Doob 不等式）：如果 ${S_t}$ 是一个鞅，那么 $E[\max_{k \le t} \lvert S_k \rvert^2] \le 4 E[\lvert S_t \rvert^2]$。这表明 $L^2$ 有界的鞅是 $O_p(1)$。
- 鞅中心极限定理：可以给出更精确的阶和分布。
优点：对于许多统计估计量和随机过程，其误差项可以分解为鞅差和，从而方便地确定阶数。

5. 耦合（Coupling）与比较法

将一个复杂的序列与一个已知阶数的、更简单的序列进行比较。

核心思想：如果 $ \lvert X_T \rvert \le \lvert Y_T \rvert $ 几乎必然（或依概率成立），且 $Y_T = O_p(a_T)$，那么 $X_T = O_p(a_T)$。
例子：在证明 M-估计量的一致性时，常常将其与目标函数在真值处的行为进行比较，后者可能是一个已知阶数的经验过程。

6. 经验过程理论

在统计学中，许多估计量可以表示为在函数类上的经验过程。

核心思想：利用一致律（Uniform Law of Large Numbers）和Donsker定理（泛函中心极限定理）来确定经验过程的一致范数或上确界的阶数。
关键结果：
- 一致收敛：$\sup_{f \in \mathcal{F}} \lvert \mathbb{P}_n f - P f \rvert = o_p(1)$，前提是函数类 $\mathcal{F}$ 是 P-Glivenko-Cantelli 类。
- 收敛速率：如果 $\mathcal{F}$ 是 Donsker 类，那么该经验过程是 $O_p(1/\sqrt{n})$。
优点：提供了处理一大类统计问题的统一框架。

这些方法并非互斥，而是常常结合使用。例如，可能先用矩方法猜出阶数 $a_T$，然后再通过证明 $X_T/a_T$ 收敛到非退化分布来严格确认它。

例题

考虑一个近单位根过程：

$X_t = \rho_T X_{t-1} + \varepsilon_t, \quad t=1,2,\dots,T$ 其中：

$\rho_T = 1 - \frac{1}{T}$（局部到单位根）
$\varepsilon_t \stackrel{i.i.d.}{\sim} (0, \sigma^2)$，为简单取 $\sigma^2=1$
初始条件 $X_0 = 0$

我们想求 $X_T$（即最后一个观测值）的随机阶数 $O_p(\cdot)$。

方法1：精确解 + 收敛到非退化分布

步骤1：写出精确解 $X_T = \sum_{j=1}^T \rho_T^{T-j} \varepsilon_j$

步骤2：缩放并找极限分布 我们猜测阶数是 $O_p(\sqrt{T})$，所以看： $\frac{X_T}{\sqrt{T}} = \frac{1}{\sqrt{T}} \sum_{j=1}^T \rho_T^{T-j} \varepsilon_j$ 注意 $\rho_T^{T-j} = \left(1 - \frac{1}{T}\right)^{T-j} \to e^{-1} \cdot e^{j/T}$ 在某种意义下（后面更精确处理）。

实际上，经典结论（Phillips, 1987）：对于 $t = \lfloor rT \rfloor$， $\frac{X_{\lfloor rT \rfloor}}{\sqrt{T}} \Rightarrow \sigma \int_0^r e^{-(r-s)} dW(s)$ 其中 $W(s)$ 是布朗运动。当 $r=1$ 时： $\frac{X_T}{\sqrt{T}} \Rightarrow \sigma \int_0^1 e^{-(1-s)} dW(s) \sim \mathcal{N}\left(0, \sigma^2 \frac{1-e^{-2}}{2}\right)$ 这是一个非退化正态分布 ⇒ $X_T = O_p(\sqrt{T})$。

方法2：矩计算（方差阶数）

计算方差： $\text{Var}(X_T) = \sum_{j=1}^T \rho_T^{2(T-j)} \cdot 1$ 令 $k = T-j$，则 $k=0,\dots,T-1$： $\text{Var}(X_T) = \sum_{k=0}^{T-1} \rho_T^{2k} = \frac{1 - \rho_T^{2T}}{1 - \rho_T^2}$ 代入 $\rho_T = 1 - \frac{1}{T}$： $1 - \rho_T^2 = 1 - \left(1 - \frac{1}{T}\right)^2 = \frac{2}{T} - \frac{1}{T^2} \sim \frac{2}{T}$ $\rho_T^{2T} = \left(1 - \frac{1}{T}\right)^{2T} \to e^{-2}$ 所以： $\text{Var}(X_T) \sim \frac{1 - e^{-2}}{2/T} = \frac{T}{2}(1 - e^{-2})$ 因此 $\text{Var}(X_T) = O(T)$ ⇒ 标准差为 $O(\sqrt{T})$。

由切比雪夫不等式：对任意 $M>0$， $P\left( \frac{|X_T|}{\sqrt{T}} > M \right) \le \frac{\text{Var}(X_T)/T}{M^2} \to \frac{\frac12(1-e^{-2})}{M^2}$ 所以 $X_T/\sqrt{T} = O_p(1)$，即 $X_T = O_p(\sqrt{T})$。

方法3：递归/微分方程法

将过程视为随机近似： $X_t - X_{t-1} = -\frac{1}{T} X_{t-1} + \varepsilon_t$ 在连续时间近似中，令 $t = \lfloor \tau T \rfloor$，定义 $x_T(\tau) = \frac{X_{\lfloor \tau T \rfloor}}{\sqrt{T}}$。 ** 该随机近似对应的 ODE 为： $\frac{dx}{d\tau} = -x$ 解为 $x(\tau) = x(0) e^{-\tau}$。但这是均值路径。波动项来自 $\varepsilon_t$ 累积，其标准差为 $O(1)$ 在缩放后 ⇒ 缩放过程 $x_T(\tau)$ 是 $O_p(1)$ 的 ⇒ 原过程 $X_t = O_p(\sqrt{T})$。

方法4：鞅方法

将 $X_T$ 稍微变形。注意 $M_t = \sum_{j=1}^t \rho_T^{-j} \varepsilon_j$ 是一个鞅（关于自然滤子），因为 $E[\varepsilon_t\mid\mathcal{F}_{t-1}]=0$。

那么： $X_T = \rho_T^T \sum_{j=1}^T \rho_T^{-j} \varepsilon_j = \rho_T^T M_T$ $M_T$ 是鞅，其方差： $\text{Var}(M_T) = \sum_{j=1}^T \rho_T^{-2j} \approx \frac{\rho_T^{-2} (1 - \rho_T^{-2T})}{1 - \rho_T^{-2}}$ 由于 $\rho_T^{-2} = (1 - 1/T)^{-2} \approx 1 + 2/T$，计算可得 $\text{Var}(M_T) = O(T)$（实际上发散的），所以 $M_T = O_p(\sqrt{T})$。

而 $\rho_T^T \to e^{-1}$，所以 $X_T = e^{-1} M_T + o_p(\sqrt{T}) = O_p(\sqrt{T})$。

方法5：耦合与比较法

我们可以将 $X_T$ 与一个单位根过程 $Y_t = Y_{t-1} + \varepsilon_t, Y_0=0$ 比较。

已知 $Y_T = \sum_{j=1}^T \varepsilon_j = O_p(\sqrt{T})$。

注意： $X_T - Y_T = \sum_{j=1}^T (\rho_T^{T-j} - 1) \varepsilon_j$ 对于 $j$ 离 $T$ 较远时，$\rho_T^{T-j} \approx e^{-(T-j)/T}$ 与 1 的差是 $O(1)$ 乘以 $\varepsilon_j$，但数量级？计算方差： $\text{Var}(X_T - Y_T) = \sum_{j=1}^T (\rho_T^{T-j} - 1)^2$ 用积分近似：令 $s = j/T$， $\rho_T^{T-j} = (1-1/T)^{T(1-s)} \approx e^{-(1-s)}$ 所以： $\text{Var}(X_T - Y_T) \approx T \int_0^1 (e^{-(1-s)} - 1)^2 ds = O(T)$ 因此 $X_T - Y_T = O_p(\sqrt{T})$。

已知 $Y_T = O_p(\sqrt{T})$，由三角不等式： $|X_T| \le |Y_T| + |X_T - Y_T| = O_p(\sqrt{T}) + O_p(\sqrt{T}) = O_p(\sqrt{T})$

方法6：经验过程方法

这里不太直接适用，因为 $X_T$ 不是标准的经验过程，但我们可以把它看成加权和经验： $X_T = \sum_{j=1}^T w_{T,j} \varepsilon_j, \quad w_{T,j} = \rho_T^{T-j}$ 这是一个线性过程，权重满足 $\sum w_{T,j}^2 = O(T)$（前面方差算过），所以属于一个“权函数类”，其上确界（这里就一个）是 $O_p(\sqrt{T})$。更深的经验过程理论会研究此类加权和的一致行为，结论一致。

总结

我们用了 5 种方法（方法6不太典型）都得到： $X_T = O_p(\sqrt{T})$

方法1 最精确，还给出极限分布。
方法2 最常用且简单，算方差即可。
方法3 直观（物理视角）。
方法4 利用了序列的鞅结构。
方法5 通过比较已知阶数的序列。

在实际研究中，通常先用方法2（矩）猜阶数，再用方法1（极限分布）严格证明。