class: center, middle, inverse, title-slide .title[ # OLS的大样本性质及假设检验(Asymptotics of OLS and hypothesis testing) ] .author[ ### 文旷宇 ] .institute[ ### 华中科技大学 ] --- class: left, middle layout: true
--- ### 主要内容 - OLS的大样本性质 - 一致性 - 渐进正态性 - 假设检验 - 异方差 - 存在异方差时一致性 - 存在异方差时渐进正态性 - 可行的GLS --- ### OLS估计量的大样本性质 - 对于模型 `\(Y_i=X_i'\beta+u_i\)`,其中 `\(X_i,\beta\)`是k维列向量, `\(u_i\)`是残差 - 有如下假定: - `\(E[X_iu_i]=0\)`,即 `\(cov(X_i,u_i)=0\)` - 一组观测点 `\(\{(Y_i,X_i)\}\quad i=1,2,\cdots,n\)`独立同分布 - `\(E[X_iX_i']\)`是一个有限的严格正定矩阵 (在这里没有对同方差或者异方差做假定;也没有要求残差正态分布,只需要四阶矩存在即可) --- ###一致性 - 证明: `\(\hat{\beta}_{OLS}\rightarrow^P\beta\)` `$$\begin{aligned}\hat{\beta}_{OLS}&=(X'X)^{-1}X'Y\\&=\big(\frac{1}{n}\sum\limits_{i=1}^nX_iX_i'\big)^{-1}\big(\frac{1}{n}\sum\limits_{i=1}^nX_iY_i\big)\\&=\big(\frac{1}{n}\sum\limits_{i=1}^nX_iX_i'\big)^{-1}\big[\frac{1}{n}\sum\limits_{i=1}^nX_i(X_i'\beta+u_i)\big]\\&=\beta+\big(\frac{1}{n}\sum\limits_{i=1}^nX_iX_i'\big)^{-1}\big(\frac{1}{n}\sum\limits_{i=1}^nX_iu_i\big)\end{aligned}$$` 其中, `\(\frac{1}{n}\sum\limits_{i=1}^nX_iX_i'\rightarrow^PE[X_iX_i']\)` , `\(\frac{1}{n}\sum\limits_{i=1}^nX_iu_i\rightarrow^PE[X_iu_i]\)` , `\(\Rightarrow\qquad\big(\frac{1}{n}\sum\limits_{i=1}^nX_iX_i'\big)^{-1}\big(\frac{1}{n}\sum\limits_{i=1}^nX_iu_i\big)\rightarrow^P\big[E[X_iX_i']\big]^{-1}E[X_iu_i]=0\)` `\(\Rightarrow\qquad\hat{\beta}_{OLS}\rightarrow^P\beta\)`,即 `\(\hat{\beta}_{OLS}\)`是 `\(\beta\)`的一致估计量。 --- ###渐进正态性 - 证明: `\(\sqrt{n}(\hat{\beta}_{OLS}-\beta)\rightarrow^dN(0,V)\)` 其中, `\(V=Q^{-1}\Omega Q^{-1}\quad Q=E[X_iX_i']\quad \Omega=E[u_i^2X_iX_i']\)` `$$\begin{aligned}\hat{\beta}_{OLS}&=\big(\frac{1}{n}\sum\limits_{i=1}^nX_iX_i'\big)^{-1}\big(\frac{1}{n}\sum\limits_{i=1}^nX_iY_i\big)\\&=\beta+\big(\frac{1}{n}\sum\limits_{i=1}^nX_iX_i'\big)^{-1}\big(\frac{1}{n}\sum\limits_{i=1}^nX_iu_i\big)\end{aligned}$$` `$$\sqrt{n}(\hat{\beta}_{OLS}-\beta)=\big(\frac{1}{n}\sum\limits_{i=1}^nX_iX_i'\big)^{-1}\big(\frac{1}{\sqrt{n}}\sum\limits_{i=1}^nX_iu_i\big)$$` 其中, `\(\frac{1}{n}\sum\limits_{i=1}^nX_iX_i'\rightarrow^PE[X_iX_i']\)` , `\(\frac{1}{\sqrt{n}}\sum\limits_{i=1}^nX_iu_i\rightarrow^dN(0,\Omega)\)` --- ###渐进正态性(续) - `$$\sqrt{n}(\hat{\beta}_{OLS}-\beta)=\big(\frac{1}{n}\sum\limits_{i=1}^nX_iX_i'\big)^{-1}\big(\frac{1}{\sqrt{n}}\sum\limits_{i=1}^nX_iu_i\big)$$` `\(\Rightarrow\qquad\big(\frac{1}{n}\sum\limits_{i=1}^nX_iX_i'\big)^{-1}\big(\frac{1}{\sqrt{n}}\sum\limits_{i=1}^nX_iu_i\big)\rightarrow^dQ^{-1}N(0,\Omega)\)` `\(\Rightarrow\qquad\sqrt{n}(\hat{\beta}_{OLS}-\beta)\rightarrow^dQ^{-1}N(0,\Omega)=N(0,Q^{-1}\Omega Q^{-1})\)` - 注:当添加同方差假定时,即 `\(E[u_i|X_i]=0\qquad E[u_i^2|X_i]=\sigma^2\)` `\(\Omega=E[u_i^2X_iX_i']=E\big[E[u_i^2X_iX_i'|X_i]\big]=E\big[X_iX_i'E[u_i^2|X_i]\big]=\sigma^2E[X_iX_i']=\sigma^2Q\)` `\(V=Q^{-1}\Omega Q^{-1}=\sigma^2Q^{-1}\)` --- ###估计协方差矩阵 - 有限样本下做 `\(\hat{\beta}_{OLS}\)`的方差的近似,即 `\(AVar(\hat{\beta}_{OLS})=\frac{\hat{V}}{n}\)` 。 - 过程如下: `\(\begin{aligned}Var[\hat\beta|X]&=\sigma^2(X'X)^{-1}\\&=\sigma^2(\sum_{i=1}^nX_iX_i')^{-1}\\&=\frac{1}{n}\sigma^2(\frac{1}{n}\sum_{i=1}^nX_iX_i')^{-1}\rightarrow\sigma^2\frac{1}{n}Q^{-1}\end{aligned}\)` - `\(\hat{\beta} \sim N(\beta,\frac{1}{n}\sigma^2Q^{-1})\)` - 渐近方差 `\(AVar(\hat\beta)\approx\frac{1}{n}\hat{Q}^{-1}\hat{\Omega}\hat{Q}^{-1}\rightarrow\)`异方差稳健标准误 - 在同方差的假定下, `\(AVar(\hat{\beta})\approx\frac{\hat{\sigma}^2}{n}\hat{Q}^{-1}\)`,其中 `\(\hat{\sigma}^2=\frac{1}{n}\sum_{i=1}^n(Y_i-X_i'\hat{\beta})^2\)` - 一般在限定同方差的假定下估计会更准确,信息更多,方差更小;若真存在异方差,则可能会高估显著性。 --- ###假设检验 - 对总体进行检验,标准化后的距离趋向于一个分布,若以极小的概率出现在分布的尾部,则可以认为距离较远。 `$$H_0:\beta_k=\beta_{k,0} \quad H_1:\beta_k\not=\beta_{k,0}$$` - 在大样本有渐近分布: `$$\sqrt{n}(\hat{\beta_k}-\beta_k)\rightarrow^dN(0,V_{kk})\Rightarrow\qquad \frac{\sqrt{n}(\hat{\beta}_k-\beta_k)}{\sqrt{V_{kk}}}\rightarrow^dN(0,1)$$` - 因为 `\(V_{kk}\)`在真实世界未知,在这里我们用 `\(\hat{V_{kk}}\)`进行替换,那么 `\(\frac{\sqrt{n}(\hat{\beta}_k-\beta_k)}{\sqrt{\hat{V}_{kk}}}\rightarrow^dN(0,1)\)` 还会成立吗? - `\(\frac{\sqrt{n}(\hat{\beta}_k-\beta_k)}{\sqrt{\hat{V}_{kk}}}=\frac{\sqrt{n}(\hat{\beta}_k-\beta_k)}{\sqrt{V_{kk}}}\cdot \frac{\sqrt{V_{kk}}}{\sqrt{\hat{V}_{kk}}}\)` ,只要 `\(\hat{V}_{kk}\)`是一致估计量,那么 `\(\sqrt{\hat{V}_{kk}}\rightarrow^P\sqrt{V_{kk}}\)` ,所以 `\(\frac{\sqrt{V_{kk}}}{\sqrt{\hat{V}_{kk}}}\rightarrow^P1\)` ,此时 `\(\frac{\sqrt{n}(\hat{\beta}_k-\beta_k)}{\sqrt{\hat{V}_{kk}}}\rightarrow^dN(0,1)\)` 成立。 --- ###Delta Method 大样本下,假设检验的限制条件可以是线性的,也可以是非线性的。 `$$H_0:h(\beta)=0\qquad H_1:h(\beta)\neq0$$` - 已知 `\(\hat{\beta}\)` 是一个k维随机向量,并假定 `\(\sqrt{n}(\hat{\beta}-\beta)\rightarrow^dY\quad (n\rightarrow\infty)\)` ,其中 `\(\beta\)`是一个 k维常向量,Y是一个随机向量,如果函数 `\(h(\cdot):R^k\rightarrow R^m\)` (代表 `\(k\)`个 `\(\beta\)`, `\(m\)`个限制条 件)在 `\(\beta\)` 的某个开区间内连续可导,那么 `$$\sqrt{n}(h(\hat{\beta})-h(\beta))\rightarrow^d\frac{\partial h(\beta)}{\partial \beta'}Y$$` - eg1. `\(h(\beta)=\left[\begin{matrix}\beta_1\\{\vdots}\\\beta_k\end{matrix}\right]\)`,eg2. `\(h(\beta)=\left[\begin{matrix}\beta_1^2+\beta_2^2\\\beta_3+\beta_4\end{matrix}\right]\)`,其 `\(k\)`=4, `\(m\)`=2。 --- ###Delta Method(续) - eg. `\(h(\beta)=\left[\begin{matrix}\beta_1^2+\beta_2^2-1\\\beta_3-\beta_4\end{matrix}\right]\)` - 对于上例 `\(\frac{\partial h(\beta)}{\partial \beta'}=\left[\begin{matrix}\frac{\partial h_1}{\partial\beta_1}&\frac{\partial h_1}{\partial \beta_2}&{\cdots}&\frac{\partial h_1}{\partial\beta_4}\\\frac{\partial h_2}{\partial\beta_1}&\frac{\partial h_2}{\partial \beta_2}&{\cdots}&\frac{\partial h_2}{\partial\beta_4}\end{matrix}\right]\)`,有 `\(\sqrt{n}(h(\hat{\beta})-h(\beta))\rightarrow^d\left[\begin{matrix}2\beta_1 & 2\beta_2&0&0\\ 0&0 & 1&-1\end{matrix}\right]N(0,V)\)` - `\(\frac{\partial h(\beta)}{\partial \beta'}\)`是一个 `\(m\times k\)` 维的矩阵,第 `\(i-j\)`个元素是 `\(\frac{\partial h_i(\beta)}{\partial \beta_j'}\)`。 --- ###Delta Mehtod(续) - `$$\sqrt{n}(h(\hat{\beta})-h(\beta))\rightarrow^d\frac{\partial h(\beta)}{\partial \beta'}Y\Rightarrow \sqrt{n}(h(\hat{\beta})-h(\beta))\rightarrow^dN(0,\frac{\partial h(\beta)}{\partial \beta'}V\frac{\partial h(\beta)}{\partial \beta})$$` - `$$h(\hat{\beta})-h(\beta)\sim N(0,\frac{1}{n}\frac{\partial h(\beta)}{\partial \beta'}V\frac{\partial h(\beta)}{\partial \beta})$$` - 原假设 `\(h(\beta)=0\)`,因此上式变形为: `\(\Big[\frac{1}{n}\frac{\partial h(\beta)}{\partial \beta'}V\frac{\partial h(\beta)}{\partial \beta}\Big]^{-\frac{1}{2}}h(\hat{\beta})\sim N(0,I_m)\)` `\(h(\hat{\beta})'\Big[\frac{1}{n}\frac{\partial h(\beta)}{\partial \beta'}V\frac{\partial h(\beta)}{\partial \beta}\Big]^{-1}h(\hat{\beta}) \rightarrow^d\chi_m^2\)` - `\(V,h(\beta)\)`都未知,替换为一致估计量依然收敛于卡方分布: `\(n h(\hat{\beta})'\Big[\frac{\partial h(\hat{\beta})}{\partial \beta'}\hat{V}\frac{\partial h(\hat{\beta})}{\partial \beta}\Big]^{-1}h(\hat{\beta}) \rightarrow^d\chi_m^2\)` --- ###Wald test statistic `$$W_n=nh(\hat{\beta})'\big[\frac{\partial h(\beta)}{\partial \beta'}V\frac{\partial h(\beta)}{\partial \beta}\big]^{-1}h(\hat{\beta})\rightarrow^d \chi^2_q$$` - 由于 `\(V\)` 未知,用 `\(\hat{V}\)`来估计 `\(V\)`。 - 如果 `\(W_n>\chi^2_{1-\alpha,q}\)` ,则拒绝原假设。 - eg. `\(h(\beta)=\beta_1\)`时,Wald统计量 `\(W_n=nh(\hat{\beta})'V_{11}^{-1}h(\hat{\beta}) \Rightarrow h(\hat{\beta})'(\frac{V_{11}}{n})^{-1}h(\hat{\beta})\)` `\(=\frac{h(\hat{\beta})'}{\sqrt{\frac{V_{11}}{n}}}\frac{h(\hat{\beta})}{\sqrt{\frac{V_{11}}{n}}}\)` - 其中 `\(\frac{h(\hat{\beta})'}{\sqrt{\frac{V_{11}}{n}}}\sim N(0,1)\)`。 --- ###异方差 当异方差存在时,OLS仍然是无偏一致的但是非最有效。 若存在异方差,即 `\(E[u_i|X_i]=0 \quad E[u_i^2|X_i]=Var(u_i|X_i)=\sigma^2(X_i)\)` 记 `\(\sigma(X_i)=\sigma_i\)` 回顾一元线性回归: `\(Y_i=X_i'\beta + u_i\)` ,其中 `\(u_i\)` 异方差 两边同除以 `\(\sigma_i\)` , 得 `\(\frac{Y_i}{\sigma_i}=\frac{X_i'}{\sigma_i}\beta + \frac{u_i}{\sigma_i}\)` 令 `\(Y_i^*=\frac{Y_i}{\sigma_i} \qquad X_i^*=\frac{X_i}{\sigma_i} \qquad u_i^*=\frac{u_i}{\sigma_i}\)` 则 `\(Y_i^*={X_i^*}'\beta+ u_i^*\)` `\(E[u_i^{*2}|X_i]=E[\frac{u_i^2}{\sigma_i^2}|X_i]=\frac{1}{\sigma_i^2}E[u_i^2|X_i]=1\)` 记 `\(Y^*=D^{-\frac{1}{2}}Y \quad X^*=D^{-\frac{1}{2}}X\)` --- ###异方差(续) 估计量为 $$ `\begin{aligned} \hat{\beta}_{GLS}&=[{X^*}'X^*]^{-1}{X^*}'Y^* \\&=[X'D^{-\frac{1}{2}}D^{-\frac{1}{2}}X]^{-1}[X'D^{-\frac{1}{2}}D^{-\frac{1}{2}}Y] \\&=[X'D^{-1}X]^{-1}X'D^{-1}Y \end{aligned}` $$ 其中, `\(D_{n\times n}=\left[\begin{matrix} \sigma_1^2 &0 & \cdots &0\\0 &\sigma_2^2 &\cdots &0\\\vdots &\vdots &\ddots &\vdots\\0 &0 &\cdots &\sigma_n^2\end{matrix}\right]\)` --- ###异方差(续) `\(\because Y=X\beta+U\)` `\(\begin{aligned}\therefore \hat{\beta}_{GLS}&=[X'D^{-1}X]^{-1}X'D^{-1}(X\beta+U) \\& =\beta+(X'D^{-1}X)^{-1}X'D^{-1}U\end{aligned}\)` `\(\because E[U|X]=0\)` `\(\therefore E\{(X'D^{-1}X)^{-1}X'D^{-1}U|X\}=(X'D^{-1}X)^{-1}X'D^{-1}E(U|X)=0\)` $$ `\begin{aligned} &E(\hat{\beta}_{GLS})=\beta \\&Var(\hat{\beta}_{GLS}|X)=(X'D^{-1}X)^{-1}X'D^{-1}Var(U|X)D^{-1}X(X'D^{-1}X)^{-1}=(X'D^{-1}X)^{-1} \end{aligned}` $$ 当同方差的条件满足时, `\(D_{n\times n}\)` 退化成了 `\(\sigma^2I\)` ,此时, `\(Var(\hat{\beta}_{GLS}|X)=\sigma^2(X'X)^{-1}=Var(\hat{\beta}_{OLS}|X)\)` 。 --- ###大样本性质(存在异方差时) 对于 `\(\frac{Y_i}{\sigma_i}=\frac{X_i}{\sigma_i}\beta + \frac{u_i}{\sigma_i}\)` 将GLS估计量写成求和形式为 $$ `\begin{aligned} \hat{\beta}_{GLS}&=\bigg(\sum\limits_{i=1}^n(\frac{X_i}{\sigma_i})(\frac{X_i}{\sigma_i})'\bigg)^{-1}\bigg(\sum\limits_{i=1}^n(\frac{X_i}{\sigma_i})(\frac{Y_i}{\sigma_i})\bigg) \\&=\bigg(\sum\limits_{i=1}^n\sigma_i^{-2}X_iX_i'\bigg)^{-1}\bigg(\sum\limits_{i=1}^n\sigma_i^{-2}X_iY_i\bigg) \end{aligned}` $$ 然后判断其一致性和渐进正态性。 --- ###一致性 $$ `\begin{aligned} \hat{\beta}_{GLS}&=\bigg(\sum\limits_{i=1}^n\sigma_i^{-2}X_iX_i'\bigg)^{-1}\bigg(\sum\limits_{i=1}^n\sigma_i^{-2}X_iY_i\bigg) \\&=\bigg(\frac{1}{n}\sum\limits_{i=1}^n\sigma_i^{-2}X_iX_i'\bigg)^{-1}\bigg(\frac{1}{n}\sum\limits_{i=1}^n\sigma_i^{-2}X_iY_i\bigg) \\&=\beta+\bigg(\frac{1}{n}\sum\limits_{i=1}^n\sigma_i^{-2}X_iX_i'\bigg)^{-1}\bigg(\frac{1}{n}\sum\limits_{i=1}^n\sigma_i^{-2}X_iu_i\bigg) \end{aligned}` $$ 其中, `\(\frac{1}{n}\sum\limits_{i=1}^n\sigma_i^{-2}X_iX_i' \rightarrow^P E[\sigma_i^{-2}X_iX_i']\)` , `\(\frac{1}{n}\sum\limits_{i=1}^n\sigma_i^{-2}X_iu_i \rightarrow^P E[\sigma_i^{-2}X_iu_i]\)` 而 `\(E[\sigma_i^{-2}X_iu_i]=E\big[E[\sigma_i^{-2}X_iu_i|X_i]\big]=E[\sigma_i^{-2}X_iE(u_i|X_i)]\)` 当 `\(E(u_i|X_i)=0\)` 成立时,有 `\(\hat{\beta}_{GLS}\rightarrow^P\beta\quad(n\rightarrow\infty)\)` ,即一致性成立。 **需要注意的是**,在OLS的大样本性质中,即使是弱化的外生性条件 `\(E[u_iX_i]=0\)` 成立情形下也可以推出 `\(\frac{1}{n}\sum\limits_{i=1}^n\sigma_i^{-2}X_iu_i \rightarrow^P E[\sigma_i^{-2}X_iu_i]=0\)` ,但在GLS估计中,弱化的外生性条件并不能推出 `\(E[\sigma_i^{-2}X_iu_i]=0\)` 。 --- ###渐进正态性 `$$\sqrt{n}(\hat{\beta}_{GLS}-\beta)=\bigg(\frac{1}{n}\sum\limits_{i=1}^n\sigma_i^{-2}X_iX_i'\bigg)^{-1}\bigg(\frac{1}{\sqrt{n}}\sum\limits_{i=1}^n\sigma_i^{-2}X_iu_i\bigg)$$` 其中, `\(\frac{1}{n}\sum\limits_{i=1}^n\sigma_i^{-2}X_iX_i' \rightarrow^P E[\sigma_i^{-2}X_iX_i']\)` , `\(\frac{1}{\sqrt{n}}\sum\limits_{i=1}^n\sigma_i^{-2}X_iu_i \rightarrow^d N\big(0,Var(\sigma_i^{-2}X_iu_i)\big)\)` `\(\begin{aligned} \because Var(\sigma_i^{-2}X_iu_i)&=E[\sigma_i^{-2}X_iu_iu_iX_i'\sigma_i^{-2}]\\&=E\big[E[\sigma_i^{-2}X_iu_iu_iX_i'\sigma_i^{-2}|X_i]\big] \\&=E[\sigma_i^{-2}X_iE(u_i^2|X_i)X_i'\sigma_i^{-2}] \\&=E[\sigma_i^{-2}X_iX_i'] \end{aligned}\)` `\(\therefore \frac{1}{\sqrt{n}}\sum\limits_{i=1}^n\sigma_i^{-2}X_iu_i \rightarrow^d N\big(0,E[\sigma_i^{-2}X_iX_i']\big)\)` `\(\sqrt{n}(\hat{\beta}_{GLS}-\beta) \rightarrow^d E[\sigma_i^{-2}X_iX_i']^{-1}N\big(0,E[\sigma_i^{-2}X_iX_i']\big)=N(0,E[\sigma_i^{-2}X_iX_i']^{-1})\)` --- ###可行的GLS 步骤: - 运行OLS估计,得到残差 `\(\hat{u}_i \quad i=1,2,\cdots,n\)` - 对公式 `\(\hat{u}_i^2=Z_i'\alpha+\epsilon_i\)` 进行回归,得 `\(\hat{\alpha}\)` 其中, `\(Z_i=[X_{1i},X_{2i},\cdots,X_{ki},X_{1i}X_{2i},X_{2i}X_{3i},\cdots,X_{1i}^2,X_{2i}^2,\cdots]\)` - `\(\hat{\sigma}_i^2=Z_i'\hat{\alpha}\)` GLS理论上可减少方差,但不可行,因为不知道 `\(\sigma^2_i\)` ,若想估计,须估计 `\(\hat{\sigma}^2_i\)` ,但如果估计不准确,会影响最终估计。因此现实中往往直接使用OLS,或稳健标准误,效果可能更好。