class: center, middle, inverse, title-slide .title[ # 第一讲: 计量经济学简介以及概率论复习 ] .author[ ### 文旷宇 ] .institute[ ### 华中科技大学 ] --- <style type="text/css"> pre{ max-height:400px; overflow-y:auto; } </style>
### 主要内容 - 什么是计量经济学 - 简单的经济学问题 - 课程要求 - 概率论与统计学回顾 --- ### 什么是计量经济学 - 运用经济学的理论和统计学的工具分析经济数据 - 使用个人或集体数据回答经济问题 - 数据来源:试验数据,观测数据 - 试验数据:设计试验得到数据,花费大量时间和精力 - 观测数据:通过观察试验之外的实际行为获得 - 数据类型:截面数据,时间序列数据,面板数据 - 截面数据:多个个体在一个时期内的观测值组成 - 时间序列数据:一个个体在多个时期内的观测值组成 - 面板数据:多个个体在一个时期内的观测值组成 - 关注因果关系: `\(X\)` 的变化导致的 `\(Y\)` 的变化 - 随机对照实验 V.S. 基于观测数据的因果推断 --- ### 经济学中因果推断的例子 - 缩小班级规模会提高小学教育质量吗? - 住房贷款市场中存在种族歧视吗? - 烟草税能在多大程度上减少吸烟? - 提高啤酒税能减少交通致死率吗? --- ### 课程要求 - 运用回归工具分析经济数据 - 解释实证分析结果 - 了解计量经济学方法及其理论背景、各种假设 - 使用R演示经验性的分析 --- ### 概率论回顾 - 随机变量及其概率分布 - 随机变量,概率分布,累积概率分布,概率密度,伯努利随机变量,随机变量的线性函数 - 描述概率分布形状的量: - 均值,方差,峰度,偏度 - 两个随机变量及其联合分布: - 联合发布,边缘分布,条件分布 - 迭代期望法则 - 均值,方差,协方差 - 常用的概率分布: - 正态分布,卡方分布,t分布,F分布 --- ###随机变量和概率分布 - **结果**:随机过程可能发生的**互斥**的后果 - **概率**:长期观测的结果发生的次数比例 - **样本空间** - 所有可能结果的集合,如掷骰子{1,2,3,4,5,6} - **事件** - 样本的子集,一个/多个结果的集合 - **随机变量** - 一个随即结果的数值概括,可分为离散型随机变量和连续型随机变量 - **概率分布** - 变量的所有可能取值及每个取值发生的概率列表,所有概率之和为1 --- ###离散随机变量的概率分布——掷骰子 .panelset[ .panel[ .panel-name[R Code] ```r # 生成一个长度为6、每个元素都为1/6的概率向量,并绘制其概率分布图 # 生成概率向量,使用rep函数创建一个长度为6的向量,其中每个元素都是1/6 probability <- rep(1/6, 6) # 绘制概率散点图 # 使用barplot函数绘制概率分布图。这里只给出了一个参数,即probability向量,表示要绘制的内容 # 为x轴设置的标签表示“结果”,为y轴设置的标签,表示“概率” barplot(probability, xlab = "结果", ylab="概率", main = "离散随机变量:骰子示数的概率分布图", col = "lightblue", border = "black", names.arg = 1:6) ``` ] .panel[ .panel-name[Plot] ![](Lecture_1_Introduction_and_Review_of_Probability_files/figure-html/oplot-1.png) ] ] --- ### 随机变量及其概率分布 - 累积概率分布(CDF):随机变量小于或等于某个特定值的概率 - 仍然以掷骰子为例 - 以 `\(S\)` 表示骰子掷得的点数 - 其概率为 `\(P(S=s)\)` - 其累积概率为 `\(F(S)=P(S\leqslant s)\)` |||||||| |:---:|:---:|:---:|:---:|:---:|:---:|:---:| | outcome(结果) | 1 | 2 | 3 | 4 | 5 | 6 | | Probability(概率)| `\(\frac{1}{6}\)` | `\(\frac{1}{6}\)` | `\(\frac{1}{6}\)` | `\(\frac{1}{6}\)` | `\(\frac{1}{6}\)` | `\(\frac{1}{6}\)` | | CDF(累积概率分布)| `\(\frac{1}{6}\)` | `\(\frac{2}{6}\)` | `\(\frac{3}{6}\)` | `\(\frac{4}{6}\)` | `\(\frac{5}{6}\)` | `\(\frac{6}{6}\)` | - 累积概率分布图应该是什么样的? --- ###离散随机变量的累积概率分布——掷骰子 .panelset.sideways[ .panel[.panel-name[Code] ```r # 定义骰子的可能结果 outcomes <- 1:6 # 计算每个结果的概率 probabilities <- rep(1/6, length(outcomes)) # 计算累积概率 cumulative_probabilities <- cumsum(probabilities) # 绘制累积概率分布图 barplot(cumulative_probabilities, names.arg = outcomes, # 设置x轴标签为骰子的结果 xlab = "Outcomes", # x轴标签 ylab = "Cumulative Probability", # y轴标签 main = "Cumulative Probability Distribution of a Fair Die", # 图形标题 col = "lightblue", # 设置条形颜色 ylim = c(0, 1), # 设置y轴范围 axis.pos = 1) # 设置x轴位置在底部 # 添加网格线 grid(nx = NULL, ny = NULL, col = "lightgray", lty = "dotted") ``` ] .panel[.panel-name[Output] ![](Lecture_1_Introduction_and_Review_of_Probability_files/figure-html/unnamed-chunk-2-1.png)<!-- --> ] ] --- ### 贝努力随机变量 - 结果取0或1的二值随机变量,其概率分布称贝努力分布 $$ G= `\begin{cases} 1,概率为p\\ 0,概率为1-p \end{cases}` $$ - 例如,成功的概率为 `\(p\)`,不成功的概率为 `\(1-p\)`。 - 均值 `\(E(G)=\mu_G=1\times p+0\times(1-p)=p\)` - 方差 <br> `\(\begin{aligned}Var(G)&=\sigma_G^2\\&=(0-p)^2\times(1-p)+(1-p)^2\times p\\&=p(1-p)\end{aligned}\)` - 标准差 `\(\sigma_G=\sqrt {p(1-p)}\)` --- ### 二项分布 - 在 `\(n\)` 次贝努力试验中,成功的次数 `\(K\)` 遵循二项分布 `\(K\sim B(n,p)\)` - 试验成功的概率 `\(f(k)=C_n^k \cdot p^k \cdot (1-p)^{n-k}=\frac{n!}{k!(n-k)!}\)` ```r # sample()从中提取结果的元素集可以不由数字组成。我们不妨模拟抛硬币的结果H(heads)和T(tails) sample(c("H", "T"), 1) ## [1] "H" # 试验次数(size)为10,每次成功的概率为0.5,求成功的次数(x)为5时的概率值 dbinom(x = 5, size = 10, prob = 0.5) ## [1] 0.2460938 ``` --- ### 二项分布 - 成功的次数 `\(K\)` 在 `\([a,b]\)` 范围内的概率为: - `\(P(a \leq K \leq b)=P(K \leq b)-P(K \leq a)\)` ```r # 方法一:利用 'dbinom()'计算 P(4 <= k <= 7) # 试验次数(size)为10,每次成功的概率为0.5,求成功的次数x在4-7之间时的概率值 sum(dbinom(x = 4:7, size = 10, prob = 0.5)) ## [1] 0.7734375 # 方法二:使用 pbinom(),二项分布的分布函数来计算 pbinom(size = 10, prob = 0.5, q = 7) - pbinom(size = 10, prob = 0.5, q = 3) ## [1] 0.7734375 ``` --- ### 连续型随机变量及其概率分布 - **累积概率分布**: - 随机变量小于或等于某个特定值的概率: `\(P(S\leq s)\)` - **概率密度函数(p.d.f.)**: - 用来表示连续型随机变量的概率 - 因为连续型随机变量可取连续值,不适合像离散型随机变量一样罗列出所有可能的概率取值 - 随机变量落入两点间的概率等于位于这两点间概率密度函数曲线下方的面积 - 概率密度函数和累积分布函数用不同的形式传递了相同的信息 --- ###仿真模拟——概率密度图 .panelset[ .panel[.panel-name[Code] ```r # 绘制概率密度函数图 # 创建一个从-5到5的向量x,该向量包含1000个等间距的点 x <- seq(-5,5,length.out=1000) # 使用dt函数计算自由度(df)为3的t分布的概率密度函数值,并将结果存储在f1中 f1 <- dt(x,df=3) # 绘制f1(即df=3的t分布的PDF)与x的图形。type='l'指定绘制线图。ylim=c(0,.5)设置y轴的范围为0到0.5 plot(x,f1,type='l',ylim=c(0,.5)) # 在同一个图上,使用lines函数添加自由度为6的t分布的PDF。col=2设置该线的颜色为红色 lines(x,dt(x,df=6),col=2) # 添加自由度为10的t分布的PDF,并将颜色设置为绿色 lines(x,dt(x,df=10),col=3) # 添加自由度为20的t分布的PDF lines(x,dt(x,df=20),col=4) # 添加标准正态分布(均值为0,标准差为1)的PDF,并将颜色设置为紫色 lines(x,dnorm(x),col=5) ``` ] .panel[.panel-name[Output] ![](Lecture_1_Introduction_and_Review_of_Probability_files/figure-html/unnamed-chunk-5-1.png)<!-- --> ] ] --- ### 均值(期望) - 离散型随机变量: `\(E(Y)=\sum_{i=1}^{k}y_iP(Y=y_i)=\mu_Y\)` - 例如,以 `\(S\)` 表示某一周内下雪的天数,其概率为 `\(P(S=s)\)` ,累积概率为 `\(F(S)=P(S\leqslant s)\)` |||||||||| |:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:| | outcome(天数) | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | | Probability(概率)|0.20|0.25|0.20|0.15|0.10|0.05|0.04|0.01| | CDF(累积概率分布)|0.20|0.45|0.65|0.80|0.90|0.95|0.99|1.00| `$$\begin{aligned} E(S)&=0·0.2+1·0.25+2·0.2+3·0.15\\ &+4·0.1+5·0.05+6·0.04+7·0.01\\&= 2.06\end{aligned}$$` - 均值,期望值,**代表数据的平均水平** - 连续型随机变量: `\(E(Y)=\int_{-\infty}^{\infty}yf(y)\,dy\)` --- ### 方差 - 离散型随机变量: `\(\sigma^2=Var(Y)=E(Y-\mu_Y)^2=\sum_{i=1}^{k}(y_i-\mu_y)^2P(Y=y_i)\)` - 例如,仍然以 `\(S\)` 表示某一周内下雪的天数,其概率为 `\(P(S=s)\)` ,累积概率为 `\(F(S)=P(S\leqslant s)\)` |||||||||| |:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:| | outcome(天数) | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | | Probability(概率)|0.20|0.25|0.20|0.15|0.10|0.05|0.04|0.01| | CDF(累积概率分布)|0.20|0.45|0.65|0.80|0.90|0.95|0.99|1.00| `$$\begin{aligned} Var(S)&=(0-2.06)^2·0.2+(1-2.06)^2·0.25+(2-2.06)^2·0.2+···\\ &+(5-2.06)^2·0.05+(6-2.06)^2·0.04+(7-2.06)^2·0.01\\&= 2.94\end{aligned}$$` - 标准差 `\(\sigma_Y=\sqrt{Var(Y)},\)` 和 `\(Y\)` 单位相同,**衡量数据的离散程度** - 连续型随机变量: `\(\sigma^2=Var(Y)=E(Y-\mu_Y)^2=\int_{-\infty}^{\infty}(y-\mu_y)^2f(y)\,dy\)` --- ### 偏度 - **是统计数据分布偏斜方向的度量**,衡量分布的对称性 - 偏度定义为 `\(E\left[\frac{Y-\mu_Y}{\sigma_y}\right]^3\)`,无单位,改变 `\(Y\)` 的单位不会改变它的偏度 - 分类: - 正偏(右尾)分布:分布具有较长的右尾, `\((Y-\mu_Y)^3\)` 的正值部分不能完全被其负值部分抵消,于是偏度为正 - 负偏(左尾)分布:分布具有较长的左尾, `\((Y-\mu_Y)^3\)` 的负值部分不能完全被其正值部分抵消,于是偏度为负 - 偏度为0,对称分布 --- ### 峰度 - **度量分布尾部厚薄的指标**,衡量了 `\(Y\)` 的方差多大部分是由极端值(异常值)引起的 - 峰度定义为 `\(E\left[\frac{Y-\mu_Y}{\sigma_y}\right]^4\)`,非负,无单位,改变 `\(Y\)` 的单位不会改变它的峰度 - 尖峰(厚尾): - 服从正态分布的随机变量峰度为3,**峰度超过3的随机变量比正态随机变量的尾部要厚** - 如果分布的尾部较厚,,则 `\(Y\)` 偏离其均值的极端值较多,平均来讲将导致较大的 `\((Y-\mu_Y)^4\)` 值,故**厚尾分布的峰度一般较大** - 矩: - `\(Y^r\)` 的期望值称为随机变量 `\(Y\)` 的 `\(r\)` 阶矩 - `\(Y\)` 的期望为 `\(Y\)` 的一阶矩, `\(Y\)` 的方差为 `\(Y\)` 的前二阶矩的函数,偏度是其前三阶矩的函数,峰度是其前四阶矩的函数 --- ### 二维随机变量 - 前述的概率分布是最简单的情况,大多数情况下,我们感兴趣的经济学问题都是二至多个随机变量,这就需要用到联合分布、边缘分布以及条件分布 #### 联合分布 - 两个随机变量 `\(X\)` 和 `\(Y\)` 的联合概率分布可以记为 `\(P(X=x,Y=y)\)`,是两个随机变量同时取某些值的概率 - 例如, $$ Y= `\begin{cases} 1,&\text{下雪}\\ 0,&\text{不下雪} \end{cases}` \tag{1} $$ $$ X= `\begin{cases} 1,&\text{非常冷}\\ 0,&\text{不冷} \end{cases}` \tag{2} $$ - 那么,它们的联合分布是: --- ### 联合分布和边缘分布 - `\(X\)` 和 `\(Y\)` 的联合分布 ||||| |:-----:|:-----:|:-----:|:---:| ||非常冷 ( `\(X=1\)` )|不冷( `\(X=0\)` )|总和| |下雪 ( `\(Y=1\)` )|0.15|0.07|0.22| |不下雪( `\(Y=0\)` )|0.15|0.63|0.78| |总和|0.30|0.70|1.00| - 边缘分布 - 随机变量 `\(Y\)` 的边缘概率分布是 `\(Y\)` 的概率分布的另一种表述。用来区分其与另一个随机变量的联合概率分布。 - 例如,下雪的概率 `\(P(Y=1)=Pr(X=1,Y=1)+P(X=0,Y=1)=0.22\)` --- ### 条件分布 - 给定另一随机变量 `\(X\)` 取某特定值条件下,随机变量 `\(Y\)` 的分布称为给定 `\(X\)` 时 `\(Y\)` 的条件分布 - 当 `\(X\)` 取 `\(x\)` 时 `\(Y\)` 取 `\(y\)` 的条件概率记为 `\(P(Y=y|X=x)\)` - `\(P(Y=y|X=x)=\frac{P(Y=y,X=x)}{P(X=x)}\)` - 例如,已知非常冷的情况下下雪的概率为 `\(P(Y=1|X=1)=\frac{0.15}{0.3}=0.5\)` - 条件期望: `\(E(Y|X=x)=\sum_{i=1}^{k}y_iP(Y=y_i|X=x)\)` - 例如,已知非常冷的情况下下雪天数的期望为 `\(\begin{aligned}E(Y|X=1)&=1\cdot P(Y=1|X=1)+0\cdot P(Y=0|X=1)\\&=1\cdot 0.5+0\cdot 0.5\\&=0.5\end{aligned}\)` - 期望的迭代原则: `\(E(Y)=\sum_iE(Y|X=x_i)P(X=x_i)=E[E(Y|X)]\)` - 条件方差: `\(Var(Y|X=x)=\sum_{}[y_i-E(Y|X=x)]^2P(Y=y_i|X=x)\)` --- ### 独立性 - 若 `\(X\)` 和 `\(Y\)` 独立: - 离散型随机变量: - `\(P(Y=y|X=x)=P(Y=y)\)` - `\(P(Y=y,X=x)=P(X=x)P(Y=y)\)` - 连续性随机变量: - `\(f(Y=y|X=x)=f(Y=y)\)` - `\(f(Y=y,X=x)=f(X=x)f(Y=y)\)` - `\(E(Y|X)=E(Y)\)` - `\(Var(X+Y)=Var(X)+Var(Y)=\sigma_X^2+\sigma_Y^2\)` --- ### 协方差 - **是衡量两个变量同时变动程度的一个指标** `\(\begin{aligned}Cov(X,Y)&=\sigma_{XY}\\&=E[(X-\mu_X)(Y-\mu_Y)]\\&=\sum_{i=1}^{k}\sum_{j=1}^{l}(x_j-\mu_X)(y_i-\mu_y)\cdot P(X=x_j,Y=y_i)\end{aligned}\)` ||||| |:-----:|:-----:|:-----:|:---:| ||很冷 ( `\(X=1\)` )|不冷( `\(X=0\)` )|总和| |下雪 ( `\(Y=1\)` )|0.15|0.07|0.22| |不下雪( `\(Y=0\)` )|0.15|0.63|0.78| |总和|0.30|0.70|1.00| `\(\begin{aligned}Cov(X,Y)&=(1-0.3)(1-0.22)\cdot 0.15+(1-0.3)(0-0.22)\cdot 0.15\\&+(0-0.3)(1-0.22)\cdot 0.07+(0-0.3)(0-0.22)\cdot 0.63\\&=0.084\end{aligned}\)` --- ### 相关系数 - `\(Corr(X,Y)=\frac{Cov(X,Y)}{\sqrt{(Var(X)Var(Y))} }\)` - 相关系数取值范围为 `\([-1,1]\)`,无单位 - `\(|Corr(X,Y)|\leq1\)` - `\(|\sigma_{XY}|\leq\sqrt{\sigma_X^2\sigma_Y^2}\)` - 相关系数的绝对值越大,相关性越强 - `\(Corr(X,Y)=0\leftrightarrow\)` `\(X、Y\)` 线性不相关 `\(\neq\)` `\(X、Y\)` 独立 - `\(E(Y|X)=E(Y) \leftrightarrow Cov(X,Y)=0 \text{且} Corr(X,Y)=0\)` --- ### 随机变量线性变换的期望与方差 - 假设 `\(X\)` 是一个随机变量, `\(E(x)=\mu_X,Var(X)=\sigma_X^2,Y=a+bX\)` - 那么 `\(Y\)` 是一个新的随机变量: - 均值:<br> `\(E(Y)=\mu_Y=E(a+bX)=a+bE(X)=a+b\mu_X\)` - 方差:<br> `\(\begin{aligned}Var(Y)&=\sigma_Y^2\\&=E(Y-\mu_Y)^2\\&=E[((a+bX)-(a+b\mu_X))]^2\\&=E[b^2(X-\mu_X)^2]\\&=b^2E[(X-\mu_X)^2]\\&=b^2\sigma_Y^2\end{aligned}\)` --- ### 随机变量线性组合的均值、方差和协方差 - `\(X、Y\)` 是两个随机变量,新的随机变量 `\(Z=aX+bY\)`,则 - 均值: `$$E(Z)=E(aX+bY)=aE(X)+bE(Y)$$` - 方差与协方差: `$$\begin{aligned}Var(Z)&=Var(aX+bY)\\&=E\{[(aX+bY)-(a\mu_X+b\mu_Y)]^2\}\\&=E\{[a(X-\mu_X)+b(Y-\mu_Y)]^2\}\\&=E\{a^2(X-\mu_X)^2+b^2(Y-\mu_Y)^2+2ab(X-\mu_X)(Y-\mu_Y)\}\\&=a^2E[(X-\mu_X)^2]+b^2E[(Y-\mu_Y)^2]+2abE[(X-\mu_X)(Y-\mu_Y)]\\&=a^2Var(X)+b^2Var(Y)+2abCov(X,Y)\end{aligned}$$` - 进一步有 `$$E(aX+bY+c)=a\mu_X+b\mu_Y+c$$` --- ### 正态分布 - 经济学中最常用的概率密度函数是正态分布: `$$f_Y(y)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left[-\frac{(y-\mu)^2}{2\sigma^2}\right]$$` - 我们记均值为 `\(\mu\)`,方差为 `\(\sigma^2\)` 的正态分布为 `\(Y\sim N(\mu,\sigma^2)\)`。 - 正态密度曲线关于均值对称,且落入 `\((\mu-1.96\sigma,\mu+1.96\sigma)\)` 的概率约为95% - 均值为0方差为1的正态分布称之为标准正态分布,通常使用 `\(\phi(y)\)` 表示标准正态分布的密度函数,使用 `\(\Phi(y)\)` 表示其分布函数。 - `\(Y\)` 的标准化:令 `\(Z=\frac{Y-\mu}{\sigma}\)`,那么 `\(Z\sim N(0,1)\)` 服从标准正态分布。 - 正态分布的偏度为0,峰度为3 --- ###标准正态密度函数图 .panelset[ .panel[.panel-name[Code] ```r # 绘制标准正态分布(均值为0,标准差为1)的概率密度函数(PDF) # dnorm函数计算给定x值的正态分布的概率密度 curve(dnorm(x), # 设置x轴的范围为-3.5到3.5 xlim = c(-3.5, 3.5), # 设置y轴的标签为“密度” ylab = "密度", # 设置图的主标题为“标准正态密度函数” main = "标准正态密度函数") ``` ] .panel[.panel-name[Output] ![](Lecture_1_Introduction_and_Review_of_Probability_files/figure-html/unnamed-chunk-6-1.png)<!-- --> ] ] --- ###标准正态累积分布函数图 .panelset[ .panel[.panel-name[Code] ```r # 绘制标准正态分布的累积分布函数(CDF) # pnorm函数计算给定x值的正态分布的累积概率 curve(pnorm(x), # 设置x轴的范围为-3.5到3.5 xlim = c(-3.5, 3.5), # 设置y轴的标签为“概率” ylab = "概率", # 设置图的主标题为“标准正态累积分布函数” main = "标准正态累积分布函数") ``` ] .panel[.panel-name[Output] ![](Lecture_1_Introduction_and_Review_of_Probability_files/figure-html/unnamed-chunk-7-1.png)<!-- --> ] ] --- ### 卡方分布 - `\(m\)` 个独立标准正态随机变量平方和的分布称为卡方分布。该分布有一个参数 `\(m\)` ,称为自由度。 - 令 `\(Z_1,Z_2,···,Z_m\)` 为 `\(m\)` 个独立的标准正态随机变量,则 `\(\sum_{i=1}^{m}Z_i \sim \chi_m^2\)` - 常用于假设检验 |上分位数| |:---:|:---:|:---:|:---:| |自由度|10%|5%|1%| |1|2.71|3.84|6.63| |2|4.61|5.99|9.21| |3|6.25|7.81|11.34| |4|7.78|9.49|13.28| |5|9.24|11.07|15.09| --- ###卡方分布图 .panelset[ .panel[.panel-name[Code] ```r # 绘制卡方分布的概率密度函数(PDF) # dchisq函数计算给定x值的卡方分布的概率密度,参数df=3表示自由度为3的卡方分布 curve(dchisq(x, df = 3), # 设置x轴的范围为0到10 xlim = c(0, 10), # 设置y轴的范围为0到1,使概率密度函数的值在0到1之间 ylim = c(0, 1), # 设置绘制概率密度函数的颜色为蓝色 col = "blue", # 设置y轴的标签为空字符串,因为我们已经在主标题中描述了y轴代表的内容 ylab = "", # 设置图的主标题为“卡方分布的概率密度函数和累积分布函数,M=3” main = "p.d.f. and c.d.f of Chi-Squared Distribution, M = 3") # 在现有图形上添加累积分布函数(CDF) # pchisq函数计算给定x值的卡方分布的累积概率,参数df=3表示自由度为3的卡方分布 curve(pchisq(x, df = 3), # 设置x轴的范围为0到10,与PDF的范围一致 xlim = c(0, 10), # 设置add=TRUE表示在现有图形上添加新的曲线,而不是重新绘制整个图形 add = TRUE, # 设置绘制累积分布函数的颜色为红色 col = "red") # 给图形添加图例 # 设置图例的位置为左上角 legend("topleft", # 设置图例的标签为“PDF”和“CDF” c("PDF", "CDF"), col = c("blue", "red"), # 设置图例中不同条目的线型为实线 lty = c(1, 1)) ``` ] .panel[.panel-name[Output] ![](Lecture_1_Introduction_and_Review_of_Probability_files/figure-html/unnamed-chunk-8-1.png)<!-- --> ] ] --- ### 学生分布(t分布) - 令 `\(Z\sim N(0,1)\)` 和 `\(W\sim \chi_m^2\)`,且 `\(Z、W\)` 独立 - `\(Z\)` 表示标准正态随机变量 - `\(W\)` 表示服从自由度为 `\(m\)` 的卡方分布的随机变量 - 则随机变量 `\(Z/\sqrt{(W/m)}\sim t_m\)` 即服从自由度为 `\(m\)` 的学生 `\(t\)` 分布 - `\(t\)` 分布具有与正态分布相似的钟形形状,且较依赖于自由度 `\(m\)` - `\(m\)` 较小时( `\(m\leq20\)` ) , t-分布尾部较厚,具有比正态分布更“平坦”的钟形形状 - `\(m\geq 30\)` 时可以近似为标准正态分布 - `\(t_\infty\)` 分布等于标准正态分布 --- ### 学生分布(t-分布) .panelset[ .panel[.panel-name[Code] ```r # 绘制标准正态分布的密度函数 # 使用curve函数绘制曲线,dnorm函数计算给定x值的正态分布的概率密度 curve(dnorm(x), xlim = c(-4, 4), xlab = "x", # 设置线条类型为虚线 lty = 2, ylab = "密度", # 设置图的主标题为“t分布的密度” main = "t分布的密度") # 绘制自由度为2的t分布的密度函数 # 使用curve函数绘制曲线。dt函数计算给定x值和自由度为2的t分布的概率密度 curve(dt(x, df = 2), xlim = c(-4, 4), # 设置绘制t分布的颜色的编号为2(通常对应于红色) col = 2, # 设置add=TRUE表示在现有图形上添加新的曲线,而不是重新绘制整个图形 add = T) # 绘制自由度为4的t分布的密度函数 curve(dt(x, df = 4), xlim = c(-4, 4), # 设置绘制t分布的颜色的编号为3(通常对应于绿色) col = 3, add = T) # 绘制自由度为25的t分布的密度函数 curve(dt(x, df = 25), xlim = c(-4, 4), # 设置绘制t分布的颜色的编号为4(通常对应于蓝色) col = 4, add = T) # 添加图例 # 设置图例的位置为右上角 legend("topright", # 设置图例中不同条目的标签。第一个标签对应于标准正态分布,后三个标签分别对应于自由度为2、4和25的t分布 c("N(0, 1)", "M=2", "M=4", "M=25"), col = 1:4, lty = c(2, 1, 1, 1)) ``` ] .panel[.panel-name[Output] ![](Lecture_1_Introduction_and_Review_of_Probability_files/figure-html/unnamed-chunk-9-1.png)<!-- --> ] ] --- ### F分布 - 令 `\(W\sim \chi_m^2,V\sim \chi_n^2\)`,且 `\(V、W\)` 独立 - `\(W\)` 为自由度为 `\(m\)` 的卡方随机变量 - `\(V\)` 为自由度为 `\(n\)` 的卡方随机变量 - 则随机变量 `\(\frac{W/m}{V/n}\sim F_{m,n}\)` ,即F分布具有分子的自由度 `\(m\)` 和分母的自由度 `\(n\)` - 分母自由度足够大时, `\(F_{m,n}\)` 分布可用 `\(F_{m,\infty}\)` 近似 --- ### F分布 .panelset[ .panel[.panel-name[Code] ```r # 定义多边形的顶点坐标 # 创建一个向量x,它包含多边形的顶点x坐标。第一个和最后一个顶点的x坐标分别为2和10,中间的顶点通过seq(2,10,0.01)生成,即从2到10之间每隔0.01取一个值 x <- c(2, seq(2, 10, 0.01), 10) # 创建一个向量y,它包含多边形的顶点y坐标。第一个和最后一个顶点的y坐标分别为0和0,中间的顶点的y坐标通过df(seq(2, 10, 0.01), 3, 14)计算 y <- c(0, df(seq(2, 10, 0.01), 3, 14), 0) # 绘制密度函数 curve(df(x ,3 ,14), ylim = c(0, 0.8), xlim = c(0, 10), ylab = "密度", main = "密度函数") # 绘制多边形 # 使用polygon函数绘制多边形。多边形的顶点坐标是x和y,颜色设置为橙色 polygon(x, y, col = "orange") ``` ] .panel[.panel-name[Output] ![](Lecture_1_Introduction_and_Review_of_Probability_files/figure-html/unnamed-chunk-10-1.png)<!-- --> ] ]