确定随机阶数的方法
用于记录学习中的问题与解答、关键笔记、资源与复盘。
在实际研究中,确定随机阶数通常会遵循一个大致的工作流程:
- 写出定义:明确序列的数学定义(如解形式、递归形式、估计量形式)。
- 尝试矩计算:先试试看能否计算方差或更高阶矩。这是最直观的起点。
- 寻找极限分布:如果能找到合适的标准化因子使其收敛到非退化分布,这是黄金标准。
- 利用过程性质:检查序列是否是鞅、马尔可夫过程等,并应用相应的不等式或极限定理。
- 分解与比较:将序列分解为主项和残差项,主项用已知方法处理,并证明残差项是更高阶无穷小($o_p(a_T)$)。
- 使用通用框架:对于统计估计量,考虑它是否是一个经验过程的表现,然后应用经验过程理论的结果。
1. 计算矩(Moments)的阶数
如果能够计算出序列矩的渐近阶,通常可以推断出概率阶。
- 核心思想:如果 $E\lvert X_T \rvert^p \asymp b_T^p$(即 $E\lvert X_T \rvert^p$ 与 $b_T^p$ 同阶),那么通常有 $X_T = O_p(b_T)$。
- 常用特例(马尔可夫不等式): 如果 $E(\lvert X_T \rvert^2) = O(c_T^2)$,那么由切比雪夫不等式: \(P(\lvert X_T \rvert > M c_T) \le \frac{E(\lvert X_T \rvert^2)}{M^2 c_T^2} = O(1)/M^2\) 这正好满足 $O_p(c_T)$ 的定义。
- 优点:计算期望和方差通常比求极限分布更容易。
- 缺点:矩可能不存在;即使存在,$E\lvert X_T \rvert^p$ 有界只能推出 $O_p(1)$,但可能抓不住更紧的阶(例如,方差可能趋于零,此时是 $o_p(1)$,但矩方法只能告诉你它是 $O_p(1)$)。
2. 利用收敛性结果 1
这是最强大、最精确的方法。
- 核心思想:找到一个缩放序列 $a_T$,使得 $X_T / a_T$ 依分布收敛到一个非退化的随机变量。
- 结论:如果成立,则 $X_T = O_p(a_T)$。
- 优点:不仅给出了阶,还给出了极限分布,可以进行更精确的统计推断。
- 例子:单位根过程、近单位根过程、各种估计量的渐近理论。
3. 递归/微分方程法
对于由递归方程定义的序列(如时间序列模型、随机算法),可以通过分析递归关系来确定阶数。
- 核心思想:将递归方程“缩放”,然后求解一个确定的极限微分方程或代数方程。
- 例子:
- 随机递归:$Y_t = (1 - \gamma_T) Y_{t-1} + u_t$。假设 $Var(u_t) = \sigma^2$。在平稳状态下,两边取方差(近似地): \(Var(Y_t) \approx (1 - 2\gamma_T) Var(Y_{t-1}) + \sigma^2\) 解得 $Var(Y_t) \approx \frac{\sigma^2}{2\gamma_T}$。因此 $Y_t = O_p(1/\sqrt{\gamma_T})$。
- ODE 方法:随机逼近算法 $X_{t+1} = X_t + \gamma_t (h(X_t) + \xi_t)$,其轨迹可以由常微分方程 $\dot{x} = h(x)$ 近似,其波动阶为 $O_p(\sqrt{\gamma_t})$。
4. 鞅方法
如果序列可以表示为一个鞅,那么可以利用鞅的收敛定理和最大不等式来确定其阶数。
- 核心思想:利用鞅差序列的性质。
- 关键工具:
- 鞅最大值不等式(如 Doob 不等式):如果 ${S_t}$ 是一个鞅,那么 $E[\max_{k \le t} \lvert S_k \rvert^2] \le 4 E[\lvert S_t \rvert^2]$。这表明 $L^2$ 有界的鞅是 $O_p(1)$。
- 鞅中心极限定理:可以给出更精确的阶和分布。
- 优点:对于许多统计估计量和随机过程,其误差项可以分解为鞅差和,从而方便地确定阶数。
5. 耦合(Coupling)与比较法
将一个复杂的序列与一个已知阶数的、更简单的序列进行比较。
- 核心思想:如果 $ \lvert X_T \rvert \le \lvert Y_T \rvert $ 几乎必然(或依概率成立),且 $Y_T = O_p(a_T)$,那么 $X_T = O_p(a_T)$。
- 例子:在证明 M-估计量的一致性时,常常将其与目标函数在真值处的行为进行比较,后者可能是一个已知阶数的经验过程。
6. 经验过程理论
在统计学中,许多估计量可以表示为在函数类上的经验过程。
- 核心思想:利用一致律(Uniform Law of Large Numbers)和Donsker定理(泛函中心极限定理)来确定经验过程的一致范数或上确界的阶数。
- 关键结果:
- 一致收敛:$\sup_{f \in \mathcal{F}} \lvert \mathbb{P}_n f - P f \rvert = o_p(1)$,前提是函数类 $\mathcal{F}$ 是 P-Glivenko-Cantelli 类。
- 收敛速率:如果 $\mathcal{F}$ 是 Donsker 类,那么该经验过程是 $O_p(1/\sqrt{n})$。
- 优点:提供了处理一大类统计问题的统一框架。
这些方法并非互斥,而是常常结合使用。例如,可能先用矩方法猜出阶数 $a_T$,然后再通过证明 $X_T/a_T$ 收敛到非退化分布来严格确认它。
例题
考虑一个近单位根过程:
\(X_t = \rho_T X_{t-1} + \varepsilon_t, \quad t=1,2,\dots,T\) 其中:
- $\rho_T = 1 - \frac{1}{T}$(局部到单位根)
- $\varepsilon_t \stackrel{i.i.d.}{\sim} (0, \sigma^2)$,为简单取 $\sigma^2=1$
- 初始条件 $X_0 = 0$
我们想求 $X_T$(即最后一个观测值)的随机阶数 $O_p(\cdot)$。
方法1:精确解 + 收敛到非退化分布
步骤1:写出精确解 \(X_T = \sum_{j=1}^T \rho_T^{T-j} \varepsilon_j\)
步骤2:缩放并找极限分布 我们猜测阶数是 $O_p(\sqrt{T})$,所以看: \(\frac{X_T}{\sqrt{T}} = \frac{1}{\sqrt{T}} \sum_{j=1}^T \rho_T^{T-j} \varepsilon_j\) 注意 $\rho_T^{T-j} = \left(1 - \frac{1}{T}\right)^{T-j} \to e^{-1} \cdot e^{j/T}$ 在某种意义下(后面更精确处理)。
实际上,经典结论(Phillips, 1987):对于 $t = \lfloor rT \rfloor$, \(\frac{X_{\lfloor rT \rfloor}}{\sqrt{T}} \Rightarrow \sigma \int_0^r e^{-(r-s)} dW(s)\) 其中 $W(s)$ 是布朗运动。当 $r=1$ 时: \(\frac{X_T}{\sqrt{T}} \Rightarrow \sigma \int_0^1 e^{-(1-s)} dW(s) \sim \mathcal{N}\left(0, \sigma^2 \frac{1-e^{-2}}{2}\right)\) 这是一个非退化正态分布 ⇒ $X_T = O_p(\sqrt{T})$。
方法2:矩计算(方差阶数)
计算方差: \(\text{Var}(X_T) = \sum_{j=1}^T \rho_T^{2(T-j)} \cdot 1\) 令 $k = T-j$,则 $k=0,\dots,T-1$: \(\text{Var}(X_T) = \sum_{k=0}^{T-1} \rho_T^{2k} = \frac{1 - \rho_T^{2T}}{1 - \rho_T^2}\) 代入 $\rho_T = 1 - \frac{1}{T}$: \(1 - \rho_T^2 = 1 - \left(1 - \frac{1}{T}\right)^2 = \frac{2}{T} - \frac{1}{T^2} \sim \frac{2}{T}\) \(\rho_T^{2T} = \left(1 - \frac{1}{T}\right)^{2T} \to e^{-2}\) 所以: \(\text{Var}(X_T) \sim \frac{1 - e^{-2}}{2/T} = \frac{T}{2}(1 - e^{-2})\) 因此 $\text{Var}(X_T) = O(T)$ ⇒ 标准差为 $O(\sqrt{T})$。
由切比雪夫不等式:对任意 $M>0$, \(P\left( \frac{|X_T|}{\sqrt{T}} > M \right) \le \frac{\text{Var}(X_T)/T}{M^2} \to \frac{\frac12(1-e^{-2})}{M^2}\) 所以 $X_T/\sqrt{T} = O_p(1)$,即 $X_T = O_p(\sqrt{T})$。
方法3:递归/微分方程法
将过程视为随机近似: \(X_t - X_{t-1} = -\frac{1}{T} X_{t-1} + \varepsilon_t\) 在连续时间近似中,令 $t = \lfloor \tau T \rfloor$,定义 $x_T(\tau) = \frac{X_{\lfloor \tau T \rfloor}}{\sqrt{T}}$。 ** 该随机近似对应的 ODE 为: \(\frac{dx}{d\tau} = -x\) 解为 $x(\tau) = x(0) e^{-\tau}$。但这是均值路径。波动项来自 $\varepsilon_t$ 累积,其标准差为 $O(1)$ 在缩放后 ⇒ 缩放过程 $x_T(\tau)$ 是 $O_p(1)$ 的 ⇒ 原过程 $X_t = O_p(\sqrt{T})$。
方法4:鞅方法
将 $X_T$ 稍微变形。注意 $M_t = \sum_{j=1}^t \rho_T^{-j} \varepsilon_j$ 是一个鞅(关于自然滤子),因为 $E[\varepsilon_t\mid\mathcal{F}_{t-1}]=0$。
那么: \(X_T = \rho_T^T \sum_{j=1}^T \rho_T^{-j} \varepsilon_j = \rho_T^T M_T\) $M_T$ 是鞅,其方差: \(\text{Var}(M_T) = \sum_{j=1}^T \rho_T^{-2j} \approx \frac{\rho_T^{-2} (1 - \rho_T^{-2T})}{1 - \rho_T^{-2}}\) 由于 $\rho_T^{-2} = (1 - 1/T)^{-2} \approx 1 + 2/T$,计算可得 $\text{Var}(M_T) = O(T)$(实际上发散的),所以 $M_T = O_p(\sqrt{T})$。
而 $\rho_T^T \to e^{-1}$,所以 $X_T = e^{-1} M_T + o_p(\sqrt{T}) = O_p(\sqrt{T})$。
方法5:耦合与比较法
我们可以将 $X_T$ 与一个单位根过程 $Y_t = Y_{t-1} + \varepsilon_t, Y_0=0$ 比较。
已知 $Y_T = \sum_{j=1}^T \varepsilon_j = O_p(\sqrt{T})$。
注意: \(X_T - Y_T = \sum_{j=1}^T (\rho_T^{T-j} - 1) \varepsilon_j\) 对于 $j$ 离 $T$ 较远时,$\rho_T^{T-j} \approx e^{-(T-j)/T}$ 与 1 的差是 $O(1)$ 乘以 $\varepsilon_j$,但数量级?计算方差: \(\text{Var}(X_T - Y_T) = \sum_{j=1}^T (\rho_T^{T-j} - 1)^2\) 用积分近似:令 $s = j/T$, \(\rho_T^{T-j} = (1-1/T)^{T(1-s)} \approx e^{-(1-s)}\) 所以: \(\text{Var}(X_T - Y_T) \approx T \int_0^1 (e^{-(1-s)} - 1)^2 ds = O(T)\) 因此 $X_T - Y_T = O_p(\sqrt{T})$。
已知 $Y_T = O_p(\sqrt{T})$,由三角不等式: \(|X_T| \le |Y_T| + |X_T - Y_T| = O_p(\sqrt{T}) + O_p(\sqrt{T}) = O_p(\sqrt{T})\)
方法6:经验过程方法
这里不太直接适用,因为 $X_T$ 不是标准的经验过程,但我们可以把它看成加权和经验: \(X_T = \sum_{j=1}^T w_{T,j} \varepsilon_j, \quad w_{T,j} = \rho_T^{T-j}\) 这是一个线性过程,权重满足 $\sum w_{T,j}^2 = O(T)$(前面方差算过),所以属于一个“权函数类”,其上确界(这里就一个)是 $O_p(\sqrt{T})$。更深的经验过程理论会研究此类加权和的一致行为,结论一致。
总结
我们用了 5 种方法(方法6不太典型)都得到: \(X_T = O_p(\sqrt{T})\)
- 方法1 最精确,还给出极限分布。
- 方法2 最常用且简单,算方差即可。
- 方法3 直观(物理视角)。
- 方法4 利用了序列的鞅结构。
- 方法5 通过比较已知阶数的序列。
在实际研究中,通常先用方法2(矩)猜阶数,再用方法1(极限分布)严格证明。
Enjoy Reading This Article?
Here are some more articles you might like to read next: