class: center, middle, inverse, title-slide .title[ # 第八讲: 多元回归的有效性评估 ] .author[ ### 文旷宇 ] .institute[ ### 华中科技大学 ] --- <style type="text/css"> pre{ max-height:400px; overflow-y:auto; } </style>
### 主要内容 - 来自观测数据的因果效应估计:内部和外部有效性 - 内部有效性的威胁 - 外部有效性的威胁 - 多元回归分析的内部有效性威胁 - 遗漏变量偏差 - 回归函数形式的误设 - 变量测量误差 - 缺失数据和样本选择 - 双向因果关系 - 利用回归模型预测 --- ###内部和外部有效性——一些概念 - 研究总体 - 从中抽样的个人、公司、学区等实体的全体 - 感兴趣的总体 - 运用研究得到的因果推断的实体总体 - 如中学校长想将有关加利福尼亚小学学区的班级规模和测试成绩结论推广到中学总体中(感兴趣的总体) - 内部有效 - 有关因果效应的统计推断对研究总体是正确的 - 外部有效 - 从研究总体及其环境中得到的相关推断和结论可推广到其他总体和环境中 - 内部和外部有效性区分了研究总体及其环境 V.S. 推广的总体及其环境 --- ###内部有效性的威胁 - 因果效应是利用回归函数的估计得到的,假设检验是利用回归系数的估计及其标准误得到的 - 内部有效性由两部分组成 - 因果效应估计量应该无偏、一致。如若 `\(\hat \beta_{STR}\)` 为某个回归中学生/教师比变化一个单位对测试成绩效应的OLS估计量,则 `\(\beta_{STR}\)` 应该是学生/教师比变化的真实总体因果效应 `\(\beta_{STR}\)` 的一致、无偏估计量。 - 假设检验和置信区间应该具有要求的显著性水平。如置信区间为 `\(\hat \beta_{STR}\pm1.96SE(\hat \beta_{STR})\)`,则在重复样本中该置信区间应该以 `\(95\%\)` 的概率包含真实总体的因果效应 `\(\beta_{STR}\)`。 --- ###外部有效性的威胁 - 总体间的差异 - 研究总体和感兴趣的总体间的差异 - 实验室利用动物总体(研究总体)如老鼠来研究化学药品的毒性,实验结论被推广用来制定全体人类(感兴趣的总体)的健康和安全规章 - 环境的差异 - 制度环境的差异(公立大学VS宗教大学)、法律的差异(法律处罚的差异)、自然环境的差异(加利福尼亚南部的车尾野餐会VS阿拉斯加的费尔班克斯的车尾野餐会) - 如两所大学对酗酒的惩罚措施不同,则其中一所大学内反酗酒活动就不能推广到另一所总体相同的大学 - 应用 - 将加利福尼亚学区数据得到的效应推广到大学是不合理的,因为大学生及其教育环境与小学不同 - 但推广到美国其他小学学区的标准化测试成绩效应估计中相对较合理 --- ###多元回归分析的内部有效性威胁 - 如果回归系数估计量无偏、一致,且由其标准误差得到的置信区间与要求的显著水平相等 - 则基于回归分析的研究具有内部有效性 - 但有时多元回归系数OLS估计量即使在大样本下仍然有偏,主要因为 - 遗漏变量偏差 - 回归函数形式误设 - 自变量测量不精确 - 样本选择 - 双向因果 --- ###遗漏变量偏差 - 回归中漏掉了某个**不仅是 `\(Y\)` 的决定因素而且与一个或多个回归变量相关**的变量时就会产生遗漏变量偏差 - 遗漏变量偏差即使在大样本下依然存在,故OLS估计量是**非一致**的 - 解决办法 - 遗漏变量可观测 `\(\longrightarrow\)` 在多元回归中加入该变量 - 有足够的控制变量 (保证条件均值独立: `\(E(u_i|X_{1i},X_{2i})=E(u_i|X_{2i})\)` ) `\(\longrightarrow\)` 将控制变量引入模型消除兴趣变量系数的潜在偏差 - 但是,包含不属于该回归(总体回归系数为0)的变量会降低其他回归系数估计量的精确度 - 因此,是否要加入该变量取决于感兴趣的系数估计量偏差和方差之间的权衡 --- ###遗漏变量偏差 - **没有足够的控制变量**时遗漏变量偏差的解决方法 - 利用同一观测个体在不同时间点上的观测数据 - 如可以收集1995年同一学区的测试成绩和相关数据,然后再收集2000年的数据,我们称之为**面板数据** - 利用工具变量回归 - 利用随机对照试验研究感兴趣的效应 --- ###回归函数形式的误设 - 函数形式误设是在**估计的回归函数形式与总体回归函数形式不同**时产生的 - 如真实的总体回归函数是非线性的而估计出的回归是线性的 - 函数形式误设也是一种**遗漏变量偏差**,通常导致OLS估计量**有偏** - 上例中遗漏变量放映回归函数中缺少的非线性部分 - 总体回归函数为二次多项式,则遗漏自变量二次项的回归将出现遗漏变量偏差 - 函数形式误设往往可通过观察数据和回归函数估计图发现 - 解决方法 - 因变量连续 - 第八章非线性函数中介绍的方法:多项式、对数模型 - 因变量离散/二元:第11章将具体介绍 --- ###仿真模拟 .panelset[ .panel[.panel-name[] .panel[.panel-name[Code] ```r # 设置随机数种子以确保结果的可重复性 set.seed(3) # 生成一个模拟数据集 #X是均匀分布的随机数,Y是X的平方加上正态分布的随机噪声 X <- runif(100, -5, 5) Y <- X^2 + rnorm(100) # 使用lm函数估计回归模型,并输出模型的系数 ms_mod <- lm(Y ~ X) ms_mod ``` ] .panel[.panel-name[Output] ``` ## ## Call: ## lm(formula = Y ~ X) ## ## Coefficients: ## (Intercept) X ## 8.11363 -0.04684 ``` ] ] .panel[.panel-name[] .panel[.panel-name[Code] ```r # 使用plot函数绘制一组数据点 #X和Y分别表示横纵坐标,main参数设置了图表的标题,pch参数设置了数据点的样式(这里是圆形),col参数设置了数据点的颜色(这里是钢蓝色)。 plot(X, Y, main = "函数形式误设", pch = 20, col = "steelblue") # 使用abline函数绘制线性回归线 # ms_mod是一个已经拟合好的线性回归模型,col参数设置了回归线的颜色(这里是红色),lwd参数设置了回归线的宽度(这里是2) abline(ms_mod, col = "red", lwd = 2) #使用legend函数添加图例 #bg参数设置图例的背景颜色(这里是透明),cex参数设置了图例文本的大小(这里是0.8),lwd参数设置了图例边框的宽度(这里是2),col参数设置了图例边框的颜色(这里是红色),legend参数设置了图例的标签 legend("bottomright", bg = "transparent", cex = 0.8, lwd = 2, col ="red", legend = "线性回归线") ``` ] .panel[.panel-name[Output] ![](Lecture_8_Internal_Validity_files/figure-html/unnamed-chunk-3-1.png)<!-- --> ] ] .panel[.panel-name[注] - 截距估计值为8.1,斜率估计值接近0 - 观测值增多(大样本)时仍会出现这种情况,因为模型误设导致OLS估计量有偏且非一致 - 观察图像还可以知道 - 靠近 `\(X=-3,X=3\)` 的观测值的回归误差相对较小 - 观测值靠近 `\(X=-4,X=4\)` 以及 `\(X=0\)` 时回归误差增大 ] ] --- ###变量的测量误差 - 概念 - 假设在测试成绩对学生/教师比回归中,我们不小心弄混了数据,得到了五年级测试成绩对十年级学生/教师比的回归 - 五年级学生/教师比和十年级学生/教师比相关但是不同,这一混淆会导致系数估计有偏 - 像这样来自自变量的度量误差叫做**变量的测量误差偏差**,即使在大样本下依然存在,会导致OLS估计量**不一致** - 产生原因 - 调查时应答者给出错误回答,如涉及收入等隐私或利益问题 - 数据电子化记录时录入错误 --- ###自变量的测量误差 - 变量的测量误差为什么会造成回归变量和误差项之间的相关性呢? - 不妨设回归中只有一个回归变量 `\(X_i\)` (如实际收入),但是被不准确地度量为 `\(\tilde{X_i}\)` - 总体回归方程 `\(Y_i=\beta_0+\beta_1X_i+u_i\)` 被不准确地估计为 `$$Y_i=\beta_0+\beta_1\tilde{X_i}+[\beta_1(X_i-\tilde{X_i})+u_i]=\beta_0+\beta_1\tilde{X_i}+v_i$$` - 用 `\(\tilde{X_i}\)` 表示的总体回归方程误差项 `\(v_i=\beta_1(X_i-\tilde{X_i})+u_i\)` ,包含 `\(X_i\)` 和 `\(\tilde{X_i}\)` 的差值 - 若差值与 `\(\tilde{X_i}\)` 相关,则**回归变量 `\(\tilde{X_i}\)`和误差项相关,且 `\(\hat \beta_i\)` 有偏、非一致** - ** `\(\hat \beta_i\)` 的偏差大小和符号**取决于 `\(\tilde{X_i}\)` 和 `\(X_i-\tilde{X_i}\)` 间的相关系数 --- ###自变量的测量误差-偏差 `$$\hat \beta_1 \stackrel{P}{\longrightarrow}\frac{\sigma_X^2}{\sigma_X^2+\sigma_w^2}\beta_1$$` - 测量的误差可简单地通过在自变量真实值中加入随机要素来表示 `\(\longrightarrow \hat \beta_1\)` 非一致 - 测量误差大到没有保留 `\(X_i\)` 中必要信息的极端情况下 `$$\frac{\sigma_X^2}{\sigma_X^2+\sigma_w^2}\stackrel{P}{\longrightarrow}0,\quad \hat \beta_1 \stackrel{P}{\longrightarrow}0$$` - 没有测量误差时 `$$\sigma_w^2=0,\quad \hat \beta_1 \stackrel{P}{\longrightarrow}\beta_1$$` --- ###仿真模拟 .panelset[ .panel[.panel-name[] .panel[.panel-name[Code] ```r # 设置随机数种子为1,以确保每次运行结果的一致性 set.seed(1) # 加载mvtnorm包,该包提供了多元正态分布的相关函数 library(mvtnorm) ``` ] .panel[.panel-name[Output] ``` ## Warning: 程辑包'mvtnorm'是用R版本4.3.3 来建造的 ``` .panel[.panel-name[Code] ```r #使用rmvnorm函数生成1000个样本点,这些样本点来自均值为(50, 100)、协方差矩阵为[[10, 5], [5, 10]]的二维正态分布 #将生成的数据存储在名为dat的数据框中 dat <- data.frame( rmvnorm(1000, c(50, 100), sigma = cbind(c(10, 5), c(5, 10)))) # 将列名设置为"X"和"Y" colnames(dat) <- c("X", "Y") # 创建noerror_mod模型,该模型假设X和Y之间没有测量误差 noerror_mod <- lm(Y ~ X, data = dat) # 创建error_mod模型,该模型假设X和Y之间存在测量误差 #通过向X添加正态分布的随机噪声来模拟测量误差。噪声的标准差为sqrt(10) dat$X <- dat$X + rnorm(n = 1000, sd = sqrt(10)) error_mod <- lm(Y ~ X, data = dat) # 输出两个模型的估计系数 noerror_mod$coefficients error_mod$coefficients ``` ] .panel[.panel-name[Output] ``` ## (Intercept) X ## 76.3002047 0.4755264 ## (Intercept) X ## 87.276004 0.255212 ``` ] ] .panel[.panel-name[] .panel[.panel-name[Code] ```r # 绘制样本数据 #使用plot函数绘制数据点 plot(dat$X, dat$Y, pch = 20, col = "steelblue", xlab = "X", ylab = "Y") # 添加总体函数回归线 # 在当前图形上绘制一条斜率为75、截距为0.5、颜色为深绿色、线宽为1.5的直线 abline(coef = c(75, 0.5), col = "darkgreen", lwd = 1.5) # 添加无误差估计模型回归线 abline(noerror_mod, col = "purple", lwd = 1.5) # 添加有误差估计模型回归线 abline(error_mod, col = "darkred", lwd = 1.5) # 添加图例来区分三种类型的回归线 legend("topleft", bg = "transparent", cex = 0.8, lty = 1, #lty = 1指定图例线条的类型为实线(1) col = c("darkgreen", "purple", "darkred"), legend = c("Population", "No Errors", "Errors")) ``` ] .panel[.panel-name[Output] ![](Lecture_8_Internal_Validity_files/figure-html/unnamed-chunk-5-1.png)<!-- --> ] ]] --- ###自变量的测量误差——最佳猜测模型 - 假设应答者对真实价值做出自己的最佳猜测,回应变量 `\(\tilde X_i\)` 被设定为给定应答者可获得信息条件下 `\(X_i\)` 的条件均值 - 如果测量误差 `\(\tilde X_i-X_i\)` 与回应变量 `\(\tilde X_i\)` 相关,这种相关性对预测 `\(X_i\)` 是有用的 - 那么预测还有改进的空间, `\(\tilde X_i\)` 不是最佳猜测 - 由于 `\(\tilde X_i\)` 为最佳猜测,测量误差 `\(\tilde X_i-X_i\)` 与回应变量 `\(\tilde X_i\)` 不相关,即 `$$E[(\tilde X_i-X_i)\tilde X_i]=0$$` - 若应答者信息与 `\(u_i\)` 不相关( `\(Cov(\tilde X_i,u_i)=0\)` ) - `\(\longrightarrow \tilde X_i\)` 与误差项 `\(v_i\)` 不相关 - `\(\longrightarrow \hat \beta_1\)` 是一致估计 --- ###自变量的测量误差——等比例误报 - 假设存在故意误报,比如所有应答者只报告了收入的90%,则 `\(\tilde X_i=0.9 X_i\)`。 - 真实回归方程: `\(Y_i = \beta_0 +\beta_1 X_i + u_i\)`。 - 实际所做的回归: `\(Y_i = \beta_0 + \beta_1 \tilde X_i +v_i\)`,其中 `\(v_i = 0.1 \beta_1 X_i+u_i\)` - `\(\hat \beta_1\)` 将存在10%的向上偏差。为什么? --- ###因变量的测量误差 - `\(Y\)` 中有纯粹的测量误差 - 增加回归方差和 `\(\hat \beta_1\)` 的方差 - 不引起 `\(\hat \beta_1\)` 发生偏差 - 假设 `\(\quad Y_i\text{(真实值)}=\tilde Y_i\text{(测量值)}+w_i\text{(随机测量误差)}\)` ,则 `$$\tilde Y_i=\beta_0+\beta_1X_i+v_i,\quad v_i=w_i+u_i$$` - `\(w_i\)` 随机 `\(\longrightarrow\)` `\(w_i,X_i\)` 独立 `\(\longrightarrow\)` `\(E(w_i|X_i)=0\)` `\(\longrightarrow\)` `\(\hat \beta_i\)` 无偏 - 由于 `\(var(v_i)>var(u_i)\)` ,相比无测量误差, `\(var(\hat \beta_1)\)` 偏大 --- ###变量的测量误差的解决方法 - 最佳:获得 `\(X\)` 的精确度量 - **工具变量回归** - 取决于另一个与真实值 `\(X_i\)` 相关而与测量误差不相关的变量(**“工具”变量**) - 建立测量误差的数学模型(略) - 用得到的公式调整估计值 - 测量变量=真实值+随机测量误差 - 已知或估计出 `\(\frac{\sigma_w^2}{\sigma_X^2}\)` ,可得修正后的 `\(\beta_1\)` 估计量 --- ###缺失数据和样本选择 - **数据缺失完全随机**,与 `\(X\)` 或者 `\(Y\)` 的取值无关时 - **减少样本量,不会引起偏差** - 例如,随机抽取100位同班同学进行调查,随机丢掉一半调查记录 `\(\longrightarrow\)` 只得到50个同班同学记录的随机样本 `\(\longrightarrow\)` 就好像从来没有调查过那些丢掉的个体一样 `\(\longrightarrow\)` 随机丢掉记录不会引起偏差 - **数据的缺失与 `\(X\)` 有关** - **减少样本容量,不会引入偏差** - 例如,在班级规模——师生比的例子中,假如只采用了学生/教师比超过20的地区 `\(\longrightarrow\)` 尽管不能得出 `\(STR \leq 20\)` 时有关的结论,但也不会在 `\(STR >20\)` 的分析中引入偏差 --- ###仿真模拟 .panelset[ .panel[.panel-name[] .panel[.panel-name[Code] ```r # 设置随机数种子为1,保证结果可重复 set.seed(1) # 使用rmvnorm函数模拟一个包含1000个观测值的数据框dat,其中每个观测值都符合正态分布,均值分别为50和100,协方差矩阵为[[10, 5], [5, 10]] dat <- data.frame( rmvnorm(1000, c(50, 100), sigma = cbind(c(10, 5), c(5, 10)))) colnames(dat) <- c("X", "Y") # 将500个观测值标记为灰色,其余观测值用蓝色表示 id <- sample(1:1000, size = 500) plot(dat$X[-id], dat$Y[-id], col = "steelblue", pch = 20, cex = 0.8, xlab = "X", ylab = "Y") points(dat$X[id], dat$Y[id], cex = 0.8, col = "gray", pch = 20) # 添加总体回归线,其斜率为75,截距为0.5 abline(coef = c(75, 0.5), col = "darkgreen", lwd = 1.5) # 添加无误差模型的回归线 abline(noerror_mod) # 估计模型c1,即去掉了随机选择的500个观测值后的情况,并添加相应的回归线,颜色为紫色 dat <- dat[-id, ] c1_mod <- lm(dat$Y ~ dat$X, data = dat) abline(c1_mod, col = "purple") # 添加图例 legend("bottomright", lty = 1, bg = "transparent", cex = 0.8, col = c("darkgreen", "black", "purple"), legend = c("Population", "Full sample", "500 obs. randomly selected")) ``` ] .panel[.panel-name[Output] ![](Lecture_8_Internal_Validity_files/figure-html/unnamed-chunk-6-1.png)<!-- --> ] ] .panel[.panel-name[注] - 灰色的点代表被丢弃的500个观察值。 - 使用剩余的观察值时,估计结果仅与使用完整样本得到的结果略有偏差。 - 根据回归变量的值随机选择数据具有减少样本大小的效果,并且不会引入估计偏差。 - 下面我们将删除所有X>45的观察值,重新估计模型并进行比较。 ]] --- ###仿真模拟 .panelset[ .panel[.panel-name[] .panel[.panel-name[Code] ```r # 设置随机种子为1,保证结果可重复 set.seed(1) # 模拟数据 # 生成一个包含1000个观测值的数据框,其中每个观测值有两个变量X和Y。这些观测值是从正态分布中随机抽取的,均值向量为c(50, 100),协方差矩阵为cbind(c(10, 5), c(5, 10)) dat <- data.frame( rmvnorm(1000, c(50, 100), sigma = cbind(c(10, 5), c(5, 10)))) colnames(dat) <- c("X", "Y") # 标记观测值 # X>=45的观测值标记为灰色,其余为钢蓝色 id <- dat$X >= 45 plot(dat$X[-id], dat$Y[-id], col = "steelblue", cex = 0.8, pch = 20, xlab = "X", ylab = "Y") points(dat$X[id], dat$Y[id], col = "gray", cex = 0.8, pch = 20) # 添加总体回归线,该线的斜率为75,截距为0.5 abline(coef = c(75, 0.5), col = "darkgreen", lwd = 1.5) # 添加完整样本估计的回归线 abline(noerror_mod) # 估计仅包含灰色点的模型,添加紫色回归线 id <- which(dat$X >= 45) dat <- dat[-id, ] c2_mod <- lm(dat$Y ~ dat$X, data = dat) abline(c2_mod, col = "purple") # 添加图例 legend("topleft", lty = 1, bg = "transparent", cex = 0.8, col = c("darkgreen", "black", "purple"), legend = c("Population", "Full sample",expression(paste("Obs.with ",X <= 45)))) ``` ] .panel[.panel-name[Output] ![](Lecture_8_Internal_Validity_files/figure-html/unnamed-chunk-7-1.png)<!-- --> ] ] .panel[.panel-name[注] - 请注意,尽管我们丢弃了超过90%的所有观察值,但估计的回归函数非常接近基于完整样本估计的直线 - 在第三种情况下,我们面临样本选择偏差。我们可以通过仅使用 `\(X_i<55\)` 和 `\(Y_i>100\)` 的观察值来说明这一点 ]] --- ###仿真模拟 .panelset[ .panel[.panel-name[] .panel[.panel-name[Code] ```r # 设置随机种子为1,保证结果可重复 set.seed(1) # 模拟数据 # 生成一个包含1000个观测值的数据框,其中每个观测值有两个变量X和Y。这些观测值是从正态分布中随机抽取的,均值向量为c(50, 100),协方差矩阵为cbind(c(10, 5), c(5, 10))。 dat <- data.frame( rmvnorm(1000, c(50,100), sigma = cbind(c(10,5), c(5,10)))) colnames(dat) <- c("X","Y") # 标记观测值 # X<=55和Y>=100的观测值标记为钢蓝色,其余为灰色 id <- which(dat$X <= 55 & dat$Y >= 100) plot(dat$X[-id], dat$Y[-id], col = "gray", cex = 0.8, pch = 20, xlab = "X", ylab = "Y") points(dat$X[id], dat$Y[id], col = "steelblue", cex = 0.8, pch = 20) # 添加总体回归线,该线的斜率为75,截距为0.5 abline(coef = c(75, 0.5), col = "darkgreen", lwd = 1.5) # 添加完整样本估计的回归线 abline(noerror_mod) # 估计仅包含钢蓝色点的模型,添加回归线 dat <- dat[id, ] c3_mod <- lm(dat$Y ~ dat$X, data = dat) abline(c3_mod, col = "purple") # 添加图例 legend("bottomright", lty = 1, bg = "transparent", cex = 0.8, col = c("darkgreen", "black", "purple"), legend = c("Population", "Full sample",expression(paste(X <= 55,"&",Y >= 100)))) ``` ] .panel[.panel-name[Output] ![](Lecture_8_Internal_Validity_files/figure-html/unnamed-chunk-8-1.png)<!-- --> ] ] ] --- ###缺失数据和样本选择 - **数据的缺失与选择有关**,选择的过程与因变量 `\(Y\)` 的取值相关,超出了只依赖回归自变量 `\(X\)` 的范围 - 导致误差项与回归自变量相关,产生OLS估计量偏差——**样本选择偏差** - 抽样过程影响数据的可得性且与因变量有关时产生 - 样本选择偏差导致一个/多个回归变量与误差项相关 `\(\longrightarrow\)` OLS估计量**有偏且非一致** - 例如,在“伦敦赢了”中的民意调查实例中,所取的是有电话的机动车车主随机样本,而不是投票者的随机样本 `\(\longrightarrow\)` 没有汽车没有电话者的投票结果**数据缺失,抽样非随机** - 1936年有电话的机动车车主更可能是共和党 `\(\longrightarrow\)` **样本选择方法**(随机选择机动车车主的电话号码)与**因变量**(在1936年支持总统的人)相关 --- ###双向因果关系 - 之前我们假定因果关系是从回归变量到因变量的( `\(X\)` 导致 `\(Y\)` ) - 但如果因果关系同时也是从因变量到一个或多个回归变量( `\(Y\)` 导致 `\(X\)` )呢? - 像这样,因果关系是向前的也是向后的,即为**双向因果关系** - OLS估计量有偏、非一致 - 例如,在学生/教师比对测试成绩的影响研究中,假定政府主动对测试成绩差的学区雇佣教师给予资助,则因果关系是双向的 - 低学生/教师比会带来高测试成绩,但同时又由于政府资助计划使低测试成绩导致低学生/教师比 --- ###双向因果关系 - 误差项和回归变量间的相关性可通过引入因果关系相反的附加方程表示 `$$Y_i=\beta_0+\beta_1X_i+u_i$$` `$$X_i=\gamma_0+\gamma_1Y_i+v_i$$` - 假设 `\(u_i<0,\)` `\(\longrightarrow\)` `\(Y_i\)` 变小 `\(\longrightarrow\)` `\(\gamma_1>0\)` 时 `\(X_i\)` 变小 `\(\longrightarrow\)` `\(X_i,u_i\)` 正相关 - 双向因果关系偏差 - 除 `\(X\)` 到 `\(Y\)` 的因果关系外,还存在 `\(Y\)` 到 `\(X\)` 的因果关系 - 也称联立方程偏差 - 解决方法 - 工具变量回归 - 设计随机对照试验使反向因果失效 --- ###OLS标准误非一致的原因 - **异方差** - 历史原因使回归软件默认输出同方差适用标准误 - 当回归误差为异方差时,基于这些标准误进行的假设检验和置信区间是不可靠的 - 解决方法 - 利用异方差稳健的标准误 - 利用异方差稳健的方差估计量构造 `\(F\)` 统计量 --- ###OLS标准误非一致的原因 - **不同观测间的误差项的相关性** - 数据从总体中随机抽样获得 `\(\longrightarrow\)` 不同观测间误差独立分布,不相关 - 抽样**部分随机**时 `\(\longrightarrow\)` 构成回归误差的变量始终存在 `\(\longrightarrow\)` **误差项的序列相关性**可能出现在**面板数据**(多个学区多年的数据)和**时间序列数据**(一个学区多年的数据)中 - 同一个总体在不同时间点上的重复观测,如同一学区不同年份的观测数据 - 抽样**受地理影响**,存在反映地理影响的遗漏变量 - 影响 - 不同观测间的随机误差**不会**使OLS估计量有偏或非一致 - 但是**违反第二个最小二乘假设**: `\((X_{1i},X_{2i},···,X_{ki},Y_i)\)` 独立同分布 - 导致无论同方差适用还是异方差稳健OLS标准误都不正确,即**不能利用它们构造出要求置信水平下的置信区间** --- ###利用回归进行预测时的内部和外部有效性 - 利用回归模型进行预测时,对**外部有效性**的关注就显得非常重要,而对因果效应的无偏估计关注就不那么重要了 - **利用回归模型预测** - 之前我们讨论了缩小学区内班级规模会使测试成绩提高多少的问题,因为我们想知道班级规模变化对测试成绩的**因果效应** - 现在我们想知道当地学校的教学质量如何,但是我们只知道班级规模数据,不知道测试成绩数据 - 因此我们需要基于与测试成绩相关的数据(特别是班级规模)来预测某个学区的平均测试成绩 - 怎么预测呢? --- ###利用回归模型预测 - 在第4章中测试成绩对学生/教师比的回归 `$$\widehat{TestScore}=698.9-2.28 \times STR$$`遗漏了全体学生构成、校外学习机会等变量 `\(\longrightarrow\)` 斜率估计量有偏 `\(\longrightarrow\)` 不能准确估计班级规模对测试成绩的因果效应 - 但是现在我们只希望回归能解释不同学区间测试成绩的大部分变动并希望回归稳定,以便根据该回归结果可以得到对测试成绩的可靠预测值 - **虽然遗漏变量偏差不适用于回答因果效应问题,但可用于预测** - 回归模型的系数即使没有因果关系解释,也能得到可靠的预测 `\(\longrightarrow\)` **回归模型具有预测功能** `\(\longrightarrow\)` 想要得到可靠预测 `\(\longrightarrow\)` 回归估计必须具有良好的解释能力 `\(\longrightarrow\)` 系数必须准确估计且平稳 --- ###小结 - 内部有效 - 关于因果效应的统计推断对研究总体而言是正确的 - 外部有效 - 研究总体及其环境中得到的推断和结论可以推广到其他总体及其环境中 - 两类内部有效性威胁 - 回归变量和误差项相关 `\(\longrightarrow\)` OLS估计量非一致 - 存在遗漏变量、函数形式误设、回归变量度量有误差、样本不是随机抽取、回归变量和因变量间存在双向因果关系 - 标准误不准确时置信区间和假设检验都不正确 - 误差为异方差时运用了同方差适用的标准误、不同观测间误差项相关 - 回归模型用于预测时回归系数不需要是因果效应的无偏估计,关键在于外部有效性