class: center, middle, inverse, title-slide .title[ # 线性回归(Linear Regression) ] .author[ ### 文旷宇 ] .institute[ ### 华中科技大学 ] --- class: left, middle layout: true
--- ### 主要内容 - 线性回归框架、假设与估计量 - 估计量的性质 - 模型误设:遗漏相关变量与包含不相关变量 --- ### 回归框架 - 假设 `\(n\)` 个独立同分布样本点: `\((Y_1,X_1),(Y_2,X_2),\cdots, (Y_n,X_n)\)` - 线性回归方程 `\(Y_i=\beta_0 +\beta_1 X_{1i} + \beta_2 X_{2i} +\cdots + \beta_k X_{ki}+u_i\)`,其中 `\(u_i\)` 为残差, `\(X_{1i},\cdots,X_{ki}\)` 为 `\(k\)` 个解释变量, `\(Y_i\)` 为被解释变量 - 记 `\(\beta=(\beta_0,\beta_1,\cdots,\beta_k)'\)` 以及 `\(X_i = (1,X_{1i},\cdots,X_{ki})'\)`,线性回归方程可以写成向量形式 `\(Y_i = X_i'\beta +u_i\)` --- ###回归框架(续) - 矩阵形式 `\(Y=X\beta +U\)` 其中, `\(Y=\left[\matrix{Y_1\\Y_2\\\vdots\\Y_n}\right]\)` , `\(X=\left[\matrix{1&X_{11}&X_{21}&\cdots&X_{k1}\\1&X_{12}&X_{22}&\cdots&X_{k2}\\\vdots&\vdots&\vdots&\ddots&\vdots\\1&X_{1n}&X_{2n}&\cdots&X_{kn}}\right]\)` (列为变量、行为样 本点), `\(\beta=\left[\matrix{\beta_0\\\beta_1\\\vdots\\\beta_k}\right]\)` , `\(U=\left[\matrix{u_1\\u_2\\\vdots\\u_n}\right]\)` --- ### 线性回归假设条件 对于线性回归 `\(Y=X\beta +U\)`: - 外生: `\(E(U|X)=0\)` ,核心假设条件 - 满秩: `\(rank(X)=k+1\)` ,该假设排除了共线性可能 - 同方差: `\(var(U|X)=\sigma^2 \cdot I\)` ,属于“锦上添花”型假设条件 在独立同分布样本假设条件下,外生假设条件也可表述为 `\(E(u_i|X_i)=0\)` ,同方差假设条件可表述为 `\(var(u_i|X_i) = \sigma^2\)` --- ###矩估计 对于 `\(Y_i=X_i'\beta + u_i\)`, 根据外生假设条件和迭代期望法则,有 `\(E(u_i X_i)=E[E(u_i X_i|X_i)]=E[X_i(E(u_i|X_i))]=0\)` `\(\Rightarrow E((Y_i-X_i'\beta)X_i)=0\)` `\(\Rightarrow E(X_i Y_i-X_i X_i'\beta)=0\)` `\(\Rightarrow E(X_i Y_i)-E(X_i X_i')\beta=0\)` ,根据满秩假设条件,矩阵 `\(E(X_i X_i')\)` 可逆, `\(\Rightarrow\beta=E(X_i X_i')^{-1}E(X_i Y_i)\)` --- ###矩估计(续) `\(\Rightarrow\beta=E(X_i X_i')^{-1}E(X_i Y_i)\)` 设 `\(X=\left[\matrix{X_1'\\X_2'\\\vdots\\X_n'}\right]\)` , `\(X'=\left[\matrix{X_1&X_2&\cdots&X_n}\right]\)` , `\(Y=\left[\matrix{Y_1\\Y_2\\\vdots\\Y_n}\right]\)` 有 `\(X'X=\left[\matrix{X_1&X_2&\cdots&X_n}\right]\left[\matrix{X_1'\\X_2'\\\vdots\\X_n'}\right]=\displaystyle\sum^n_{i=1}{X_iX_i'}\)` 得到, `\(\hat{\beta}_{MM}=(\displaystyle\frac{1}{n}\sum_{i=1}^{n} {X_i X_i'})^{-1} (\displaystyle\frac{1}{n}\sum_{i=1}^{n} {X_i Y_i})=(X'X)^{-1}X'Y\)` --- ###OLS估计 OLS通过最小二乘法原则选择一组解释变量的线性函数的参数:最小化数据集中残差的平方和。 `\(\min \displaystyle\sum_{i=1}^{n}{(Y_i-X_i'\beta)^{2}} \Leftrightarrow \min\sum_{i=1}^{n} {u_i^2}\)` `\(\begin{aligned} s(\beta)&=(Y-X\beta)'(Y-X\beta)\\&=(Y'-\beta' X')(Y-X\beta)\\&=Y'Y-Y'X\beta-\beta'X'Y+\beta'X'X\beta\\&=Y'Y-2\beta'X'Y+\beta'X'X\beta\end{aligned}\)` `\(\displaystyle\frac{\partial s(\beta)}{\partial \beta}=-2X'Y+2X'X\beta=0\)` `\(\Rightarrow (X'X)\beta=X'Y\)` `\(\Rightarrow \hat{\beta}_{OLS}=(X'X)^{-1}X'Y = X^{+}Y\)` ,其中 `\(X^{+}\)` 为广义逆矩阵,当 `\(X\)` 是满秩矩阵的时候, `\(X^{+} = (X'X)^{-1}X'\)` --- ###OLS估计量的性质 - OLS估计量是最优线性无偏估计量,即BLUE(Best Linear Unbiased Estimate),该性质依赖同方差假设条件。 - `\(\hat{\beta}_{OLS}\)` 是关于 `\(Y\)` 的线性估计量,因为 `\(\hat Y\)` 可以表示为 `\(S(X)Y\)` 的形式,其中 `\(S(X) = X(X'X)^{-1}X\)` 只与解释变量 `\(X\)` 有关。 - `\(\hat{\beta}_{OLS}\)` 是无偏估计量。 `\(\begin{aligned}E(\hat{\beta}_{OLS})&=E(E(\hat{\beta}_{OLS}|X))\\&=E(E((X'X)^{-1}X'Y|X))\\&=E((X'X)^{-1}X'E(Y|X))\\&=E((X'X)^{-1}X'X\beta)\\&=\beta\end{aligned}\)` --- ###OLS估计量的性质(续) - 如果同方差假定成立,则有 `\(var(\hat{\beta}_{OLS}|X)=\sigma^{2} (X'X)^{-1}\)`。 `$$\begin{aligned}\hat{\beta}_{OLS}= (X'X)^{-1}X'Y= (X'X)^{-1}X'(X\beta+U)= \beta +(X'X)^{-1}X'U\end{aligned}$$` `$$\begin{aligned}var(\hat{\beta}_{OLS})&= var((X'X)^{-1}X'U|X)\\&= (X'X)^{-1}X' var(U|X) X(X'X)^{-1}\\&= \sigma^2 (X'X)^{-1} X'X (X'X)^{-1}\\&=\sigma^2 (X'X)^{-1}\end{aligned}$$` - 若残差方差 `\(\sigma^2\)` 增大,则 `\(var(\hat{\beta}_{OLS})\)` 也会变大; - 若 `\(X\)` 中存在变量间相关系数的绝对值接近1,则 `\((X'X)^{-1}\)` 会很大,同时 `\(var(\hat{\beta}_{OLS})\)` 也会很大。 - 设 `\(U\thicksim N(0,\sigma^2 I)\)` ,则 `\(\hat{\beta}_{OLS} \thicksim N(\beta , \sigma^2 (X'X)^{-1})\)` 。 - 有效性: `\(var(\hat{\beta}_{OLS}|X)\)` 是最小的。 --- ### `\(\sigma^2\)` 估计量 - 由 `\(Y=X\beta +U\)` 可得OLS估计量: `\(\hat{\beta}_{OLS}= (X'X)^{-1}X'Y\)` `$$\hat{Y}= X\hat{\beta}_{OLS}=X(X'X)^{-1}X'Y$$` `$$\hat{U}= Y-\hat{Y}= (I-X(X'X)^{-1}X')Y$$` - 设投影矩阵 `\(P_x= X(X'X)^{-1}X'\)` , `\(M_x= I-X(X'X)^{-1}X'\)` - 投影矩阵 `\(P_x,M_x\)`的性质如下: (1) `\(P_x,M_x\)` 为对称、幂等矩阵。 `$$P_x P_x= X(X'X)^{-1}X' X(X'X)^{-1}X'=X(X'X)^{-1}X'= P_x$$` (2) `\(P_x \cdot M_x = P_x(I-P_x)=P_xI-P_xP_x=P_x-P_x=0\)` `\(\Longrightarrow\)` `\(\hat{Y}\perp \hat{U}\)` --- ### `\(\sigma^2\)` 估计量(续) 得到投影矩阵之后,继续上文的推导: `\(\hat{U}= M_x Y= M_x (X\beta +U)= \underbrace{M_x \cdot X\beta}_{x投影到x空间的剩余为0}+ M_x U= M_x U\)` `\(\hat{U'}\hat{U}= U'M_x'M_xU= U'M_xU= tr(U'M_xU)= tr(M_xUU')\)` `\(\begin{aligned}E(\hat{U'}\hat{U})&= E(tr(M_xUU'))= tr(E(M_xUU'))= tr(M_xE(UU'|X))\\&= tr(M_x\cdot\sigma^2\cdot I)= \sigma^2 tr(M_x)=\sigma^2 (n-tr(P_x))\\&=\sigma^2 (n-tr(X(X'X)^{-1}X')) \\&=\sigma^2 (n-tr((X'X)^{-1}X'X)) \\&=\sigma^2 (n-tr(I))= (n-k-1)\sigma^2\end{aligned}\)` 残差方差的无偏估计量 `\(\hat{\sigma}^2= \displaystyle\frac{1}{n-k-1}\hat{U'}\hat{U}\)` --- ### 分块回归 - 若回归中解释变量分为核心解释变量和控制变量,式子如下: `$$Y= X_1\beta_1 + X_2\beta_2 +U$$` - 则有: `$$\begin{aligned}\hat{\beta}_{1,OLS}&=(X_1'M_2X_1)^{-1} X_1' M_2 Y\\&=(X_1'M_2'M_2 X_1)^{-1} X_1' M_2'M_2Y\\&=[(M_2X_1)'(M_2X_1)]^{-1}(M_2X_1)'M_2Y\\&= (\tilde{X_1'}\tilde{X_1})^{-1} \tilde{X_1} \tilde{Y} \end{aligned}$$` 其中, `\(M_2= I-X_2(X_2'X_2)^{-1}X_2'\)` , `\(\tilde{X_1}= M_2X_1\)` , `\(\tilde{Y}=M_2Y\)` - 思考:估计量 `\(\hat \beta_{1,OLS}\)` 的“逐步回归”解释 --- ###遗漏相关变量(Omitting relevant variable) 设原模型为: `\(Y=X_1\beta_1+X_2\beta_2+U\)` 若遗漏相关变量 `\(X_2\)` ,则: `\(Y=X_1\beta_1+U\)` `$$\beta_1=(X_1'X_1)^{-1} X_1'Y=(X_1'X_1)^{-1} X_1'(X_1\beta_1+X_2\beta_2+U)\\=\beta_1+(X_1'X_1)^{-1} X_1'X_2\beta_2+(X_1'X_1)^{-1} X_1'U$$` 由 `\(E(U|X)=0\)` ,有: `\(E(\widetilde\beta_1|X)= \beta_1+(X_1'X_1)^{-1} X_1'X_2\beta_2\)` 所以,遗漏相关解释变量会使估计量有偏,除非 `\(X_1,X_2\)`独立。 --- ###遗漏相关变量(Omitting relevant variable)(续) - 在同方差 `\(var[U|X_1,X_2]=\sigma^2I\)` 的假定下,进一步考察估计量的方差。 遗漏变量之后 `\(var(\widetilde\beta_1|X)=\sigma^2 (X_1'X_1)^{-1}\)` 遗漏变量之前 `\(var(\hat\beta_1|X)=\sigma^2 (X_1M_2X_1)^{-1}\)` 而 `\(X_1'X_1-X_1'M_2X_1=X_1'(I-M_2)X_1=X_1'P_2'P_2X_1=(P_2X_1)'P_2X_1\geq 0\)` 因此,有 `\((X_1'X_1)^{-1} \leq (X_1'M_2X_1)^{-1}\)` 故而 `\(var(\widetilde\beta_1|X)\leq var(\hat\beta_1|X)\)` - 所以,遗漏相关解释变量会使得估计量的条件方差变小。 --- ###包含不相关变量(Including irrelevant variable) 设原模型为: `\(Y=X_1\beta_1+U\)` 若包含不相关变量 `\(X_2\)` ,则: `\(Y=X_1\beta_1+X_2\beta_2+U\)` `$$\beta_1=(X_1'M_2X_1)^{-1} X_1'M_2Y=(X_1'M_2X_1)^{-1} X_1'M_2(X_1\beta_1+U)\\=\beta_1+(X_1'M_2X_1)^{-1} X_1'M_2U$$` 由 `\(E(U|X)=0\)` ,有: `\(E(\widetilde\beta_1)= \beta_1\)` 包含不相关变量之后 `\(var(\widetilde\beta_1|X)=\sigma^2 (X_1M_2X_1)^{-1}\)` 包含不相关变量之前 `\(var(\hat\beta_1|X)=\sigma^2 (X_1'X_1)^{-1}\)` 因此, `\(var(\hat\beta_1|X)\leq var(\widetilde\beta_1|X)\)` 所以,包含不相关变量时,得到的估计量仍是无偏估计量,但方差会变大。