确定随机阶数的方法

用于记录学习中的问题与解答、关键笔记、资源与复盘。

在实际研究中,确定随机阶数通常会遵循一个大致的工作流程:

  1. 写出定义:明确序列的数学定义(如解形式、递归形式、估计量形式)。
  2. 尝试矩计算:先试试看能否计算方差或更高阶矩。这是最直观的起点。
  3. 寻找极限分布:如果能找到合适的标准化因子使其收敛到非退化分布,这是黄金标准。
  4. 利用过程性质:检查序列是否是鞅、马尔可夫过程等,并应用相应的不等式或极限定理。
  5. 分解与比较:将序列分解为主项和残差项,主项用已知方法处理,并证明残差项是更高阶无穷小($o_p(a_T)$)。
  6. 使用通用框架:对于统计估计量,考虑它是否是一个经验过程的表现,然后应用经验过程理论的结果。

1. 计算矩(Moments)的阶数

如果能够计算出序列矩的渐近阶,通常可以推断出概率阶。

  • 核心思想:如果 $E\lvert X_T \rvert^p \asymp b_T^p$(即 $E\lvert X_T \rvert^p$ 与 $b_T^p$ 同阶),那么通常有 $X_T = O_p(b_T)$。
  • 常用特例(马尔可夫不等式): 如果 $E(\lvert X_T \rvert^2) = O(c_T^2)$,那么由切比雪夫不等式: \(P(\lvert X_T \rvert > M c_T) \le \frac{E(\lvert X_T \rvert^2)}{M^2 c_T^2} = O(1)/M^2\) 这正好满足 $O_p(c_T)$ 的定义。
  • 优点:计算期望和方差通常比求极限分布更容易。
  • 缺点:矩可能不存在;即使存在,$E\lvert X_T \rvert^p$ 有界只能推出 $O_p(1)$,但可能抓不住更紧的阶(例如,方差可能趋于零,此时是 $o_p(1)$,但矩方法只能告诉你它是 $O_p(1)$)。

2. 利用收敛性结果 1

这是最强大、最精确的方法。

  • 核心思想:找到一个缩放序列 $a_T$,使得 $X_T / a_T$ 依分布收敛到一个非退化的随机变量。
  • 结论:如果成立,则 $X_T = O_p(a_T)$。
  • 优点:不仅给出了阶,还给出了极限分布,可以进行更精确的统计推断。
  • 例子:单位根过程、近单位根过程、各种估计量的渐近理论。

3. 递归/微分方程法

对于由递归方程定义的序列(如时间序列模型、随机算法),可以通过分析递归关系来确定阶数。

  • 核心思想:将递归方程“缩放”,然后求解一个确定的极限微分方程或代数方程。
  • 例子
    1. 随机递归:$Y_t = (1 - \gamma_T) Y_{t-1} + u_t$。假设 $Var(u_t) = \sigma^2$。在平稳状态下,两边取方差(近似地): \(Var(Y_t) \approx (1 - 2\gamma_T) Var(Y_{t-1}) + \sigma^2\) 解得 $Var(Y_t) \approx \frac{\sigma^2}{2\gamma_T}$。因此 $Y_t = O_p(1/\sqrt{\gamma_T})$。
    2. ODE 方法:随机逼近算法 $X_{t+1} = X_t + \gamma_t (h(X_t) + \xi_t)$,其轨迹可以由常微分方程 $\dot{x} = h(x)$ 近似,其波动阶为 $O_p(\sqrt{\gamma_t})$。

4. 鞅方法

如果序列可以表示为一个鞅,那么可以利用鞅的收敛定理和最大不等式来确定其阶数。

  • 核心思想:利用鞅差序列的性质。
  • 关键工具
    • 鞅最大值不等式(如 Doob 不等式):如果 ${S_t}$ 是一个鞅,那么 $E[\max_{k \le t} \lvert S_k \rvert^2] \le 4 E[\lvert S_t \rvert^2]$。这表明 $L^2$ 有界的鞅是 $O_p(1)$。
    • 鞅中心极限定理:可以给出更精确的阶和分布。
  • 优点:对于许多统计估计量和随机过程,其误差项可以分解为鞅差和,从而方便地确定阶数。

5. 耦合(Coupling)与比较法

将一个复杂的序列与一个已知阶数的、更简单的序列进行比较。

  • 核心思想:如果 $ \lvert X_T \rvert \le \lvert Y_T \rvert $ 几乎必然(或依概率成立),且 $Y_T = O_p(a_T)$,那么 $X_T = O_p(a_T)$。
  • 例子:在证明 M-估计量的一致性时,常常将其与目标函数在真值处的行为进行比较,后者可能是一个已知阶数的经验过程。

6. 经验过程理论

在统计学中,许多估计量可以表示为在函数类上的经验过程。

  • 核心思想:利用一致律(Uniform Law of Large Numbers)和Donsker定理(泛函中心极限定理)来确定经验过程的一致范数或上确界的阶数。
  • 关键结果
    • 一致收敛:$\sup_{f \in \mathcal{F}} \lvert \mathbb{P}_n f - P f \rvert = o_p(1)$,前提是函数类 $\mathcal{F}$ 是 P-Glivenko-Cantelli 类。
    • 收敛速率:如果 $\mathcal{F}$ 是 Donsker 类,那么该经验过程是 $O_p(1/\sqrt{n})$。
  • 优点:提供了处理一大类统计问题的统一框架。

这些方法并非互斥,而是常常结合使用。例如,可能先用矩方法猜出阶数 $a_T$,然后再通过证明 $X_T/a_T$ 收敛到非退化分布来严格确认它。

例题

考虑一个近单位根过程

\(X_t = \rho_T X_{t-1} + \varepsilon_t, \quad t=1,2,\dots,T\) 其中:

  • $\rho_T = 1 - \frac{1}{T}$(局部到单位根)
  • $\varepsilon_t \stackrel{i.i.d.}{\sim} (0, \sigma^2)$,为简单取 $\sigma^2=1$
  • 初始条件 $X_0 = 0$

我们想求 $X_T$(即最后一个观测值)的随机阶数 $O_p(\cdot)$。


方法1:精确解 + 收敛到非退化分布

步骤1:写出精确解 \(X_T = \sum_{j=1}^T \rho_T^{T-j} \varepsilon_j\)

步骤2:缩放并找极限分布 我们猜测阶数是 $O_p(\sqrt{T})$,所以看: \(\frac{X_T}{\sqrt{T}} = \frac{1}{\sqrt{T}} \sum_{j=1}^T \rho_T^{T-j} \varepsilon_j\) 注意 $\rho_T^{T-j} = \left(1 - \frac{1}{T}\right)^{T-j} \to e^{-1} \cdot e^{j/T}$ 在某种意义下(后面更精确处理)。

实际上,经典结论(Phillips, 1987):对于 $t = \lfloor rT \rfloor$, \(\frac{X_{\lfloor rT \rfloor}}{\sqrt{T}} \Rightarrow \sigma \int_0^r e^{-(r-s)} dW(s)\) 其中 $W(s)$ 是布朗运动。当 $r=1$ 时: \(\frac{X_T}{\sqrt{T}} \Rightarrow \sigma \int_0^1 e^{-(1-s)} dW(s) \sim \mathcal{N}\left(0, \sigma^2 \frac{1-e^{-2}}{2}\right)\) 这是一个非退化正态分布 ⇒ $X_T = O_p(\sqrt{T})$。


方法2:矩计算(方差阶数)

计算方差: \(\text{Var}(X_T) = \sum_{j=1}^T \rho_T^{2(T-j)} \cdot 1\) 令 $k = T-j$,则 $k=0,\dots,T-1$: \(\text{Var}(X_T) = \sum_{k=0}^{T-1} \rho_T^{2k} = \frac{1 - \rho_T^{2T}}{1 - \rho_T^2}\) 代入 $\rho_T = 1 - \frac{1}{T}$: \(1 - \rho_T^2 = 1 - \left(1 - \frac{1}{T}\right)^2 = \frac{2}{T} - \frac{1}{T^2} \sim \frac{2}{T}\) \(\rho_T^{2T} = \left(1 - \frac{1}{T}\right)^{2T} \to e^{-2}\) 所以: \(\text{Var}(X_T) \sim \frac{1 - e^{-2}}{2/T} = \frac{T}{2}(1 - e^{-2})\) 因此 $\text{Var}(X_T) = O(T)$ ⇒ 标准差为 $O(\sqrt{T})$。

由切比雪夫不等式:对任意 $M>0$, \(P\left( \frac{|X_T|}{\sqrt{T}} > M \right) \le \frac{\text{Var}(X_T)/T}{M^2} \to \frac{\frac12(1-e^{-2})}{M^2}\) 所以 $X_T/\sqrt{T} = O_p(1)$,即 $X_T = O_p(\sqrt{T})$。


方法3:递归/微分方程法

将过程视为随机近似: \(X_t - X_{t-1} = -\frac{1}{T} X_{t-1} + \varepsilon_t\) 在连续时间近似中,令 $t = \lfloor \tau T \rfloor$,定义 $x_T(\tau) = \frac{X_{\lfloor \tau T \rfloor}}{\sqrt{T}}$。 ** 该随机近似对应的 ODE 为: \(\frac{dx}{d\tau} = -x\) 解为 $x(\tau) = x(0) e^{-\tau}$。但这是均值路径。波动项来自 $\varepsilon_t$ 累积,其标准差为 $O(1)$ 在缩放后 ⇒ 缩放过程 $x_T(\tau)$ 是 $O_p(1)$ 的 ⇒ 原过程 $X_t = O_p(\sqrt{T})$。


方法4:鞅方法

将 $X_T$ 稍微变形。注意 $M_t = \sum_{j=1}^t \rho_T^{-j} \varepsilon_j$ 是一个鞅(关于自然滤子),因为 $E[\varepsilon_t\mid\mathcal{F}_{t-1}]=0$。

那么: \(X_T = \rho_T^T \sum_{j=1}^T \rho_T^{-j} \varepsilon_j = \rho_T^T M_T\) $M_T$ 是鞅,其方差: \(\text{Var}(M_T) = \sum_{j=1}^T \rho_T^{-2j} \approx \frac{\rho_T^{-2} (1 - \rho_T^{-2T})}{1 - \rho_T^{-2}}\) 由于 $\rho_T^{-2} = (1 - 1/T)^{-2} \approx 1 + 2/T$,计算可得 $\text{Var}(M_T) = O(T)$(实际上发散的),所以 $M_T = O_p(\sqrt{T})$。

而 $\rho_T^T \to e^{-1}$,所以 $X_T = e^{-1} M_T + o_p(\sqrt{T}) = O_p(\sqrt{T})$。


方法5:耦合与比较法

我们可以将 $X_T$ 与一个单位根过程 $Y_t = Y_{t-1} + \varepsilon_t, Y_0=0$ 比较。

已知 $Y_T = \sum_{j=1}^T \varepsilon_j = O_p(\sqrt{T})$。

注意: \(X_T - Y_T = \sum_{j=1}^T (\rho_T^{T-j} - 1) \varepsilon_j\) 对于 $j$ 离 $T$ 较远时,$\rho_T^{T-j} \approx e^{-(T-j)/T}$ 与 1 的差是 $O(1)$ 乘以 $\varepsilon_j$,但数量级?计算方差: \(\text{Var}(X_T - Y_T) = \sum_{j=1}^T (\rho_T^{T-j} - 1)^2\) 用积分近似:令 $s = j/T$, \(\rho_T^{T-j} = (1-1/T)^{T(1-s)} \approx e^{-(1-s)}\) 所以: \(\text{Var}(X_T - Y_T) \approx T \int_0^1 (e^{-(1-s)} - 1)^2 ds = O(T)\) 因此 $X_T - Y_T = O_p(\sqrt{T})$。

已知 $Y_T = O_p(\sqrt{T})$,由三角不等式: \(|X_T| \le |Y_T| + |X_T - Y_T| = O_p(\sqrt{T}) + O_p(\sqrt{T}) = O_p(\sqrt{T})\)


方法6:经验过程方法

这里不太直接适用,因为 $X_T$ 不是标准的经验过程,但我们可以把它看成加权和经验: \(X_T = \sum_{j=1}^T w_{T,j} \varepsilon_j, \quad w_{T,j} = \rho_T^{T-j}\) 这是一个线性过程,权重满足 $\sum w_{T,j}^2 = O(T)$(前面方差算过),所以属于一个“权函数类”,其上确界(这里就一个)是 $O_p(\sqrt{T})$。更深的经验过程理论会研究此类加权和的一致行为,结论一致。


总结

我们用了 5 种方法(方法6不太典型)都得到: \(X_T = O_p(\sqrt{T})\)

  • 方法1 最精确,还给出极限分布。
  • 方法2 最常用且简单,算方差即可。
  • 方法3 直观(物理视角)。
  • 方法4 利用了序列的鞅结构。
  • 方法5 通过比较已知阶数的序列。

在实际研究中,通常先用方法2(矩)猜阶数,再用方法1(极限分布)严格证明。





Enjoy Reading This Article?

Here are some more articles you might like to read next:

  • PWY(2011)及PDF展示与操作示例
  • Chen et al. (2025) 泡沫政策反事实分析:渐进理论与推断速查手册
  • 不等式
  • 范数(Norm)的作用与常用总结
  • 投影矩阵(Projection Matrix)和残差生成矩阵(Residual Maker Matrix)