计量经济学复习

第一章 概述

  1. 🧁🧁选择题考点)研究步骤:模型设定、估计参数、模型检验、模型应用

  2. 🧁🧁选择题考点)完整计量模型$Y = \beta_{1} + \beta_{2}X_{1}+\mu_{i}$应该包含的要素:经济变量、经济参数、随机扰动项雨课堂作业

  3. (非考点,但是对后续理解有帮助)计量经济学最重要的是随机误差项

  4. (考点)变量的分类:

    a. 🧁🧁选择题根据性质分:内生变量、外生变量

    b. 根据因果关系分:解释变量、被解释变量

  5. 🧁🧁选择题考点)数据的类型:时间序列数据、截面数据、面板数据、虚拟变量数据

第二章 简单线性回归模型

  1. 相关系数:

    所以为什么方差除以的是自由度$n-1$?为了满足无偏性的具体推导略过不表,先记着吧,考完试一定看。

    协方差和方差的区别?方差是特殊的协方差,即自己与自己的协方差。

    方差计算公式:$s^{2}=\frac{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}}{n-1}$

    协方差计算公式:$\operatorname{Cov}(X, Y)=\frac{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)\left(\mathrm{Y}_{i}-\bar{Y}\right)}{n-1}$

    总体相关系数:$\rho=\frac{\operatorname{Cov}(X, Y)}{\sqrt{\operatorname{Var}(X) \operatorname{Var}(Y)}}$

    样本相关系数:

    $r_{X Y}=\frac{n \sum X_{i} Y_{i}-\sum X_{i} \sum Y_{i}}{\sqrt{n \sum X_{i}^{2}-\left(\sum X_{i}\right)^{2}} \sqrt{n \sum Y_{i}^{2}-\left(\sum Y_{i}\right)^{2}}}$

    $r_{X Y}=\frac{\sum\left(X_{i}-\bar{X}\right)\left(Y_{i}-\bar{Y}\right)}{\sqrt{\sum\left(X_{i}-\bar{X}\right)^{2} \sum\left(Y_{i}-\bar{Y}\right)^{2}}}$

    🧁选择题考点)相关系数的取值范围:$[-1,1]$

    🧁选择题考点)相关系数的特点:

    • 取值为$[-1,1]$

    • $r=0$表示不线性相关

    • $\left | r \right |\in (0,1)$,表示$X$和$Y$存在一定线性相关关系,正相关和负相关。

    • $\left | r \right | = 1$,表示完全线性相关。完全正相关和完全负相关。

    (考点)使用相关系数分析相关关系应该注意的点:

    • $X$和$Y$都是相互对称的随机变量,所以$r_{xy} = r_{yx}$
    • 相关系数只反应变量之间的线性相关程度,不能说明非线性相关关系。
    • 相关系数不能确定变量的因果关系,也不能说明相关关系具体接近于哪条直线。
    • 样本相关系数是根据从总体中抽取的随机样本的观测值$x_{i}$和$Y_{i}$算出来的,只是对总体相关系数的估计,是随抽样变动的随机变量,显著性有待检验。
  2. 🧁简答题非考点,但是对后续理解有帮助)相关分析和回归分析雨课堂作业

    什么是相关分析?相关分析是先判断两个变量之间是否存在相关关系,然后明确其相关关系的类型(正相关或负相关),同时应明确相关关系的密切程度。是通过一个指标,即相关系数,去判断两个变量之间相互依存关系的性质(相关系数的正负)和密切程度(相关系数的大小)。但是不能说明变量间相关关系的具体形式,也不能从一个变量的变化推测另一个变量的具体变化,因此需要进行回归分析。

  3. (考点)回归的本质

    回归的古典意义:这个要是考了我倒立食屎

    回归的现代意义:关于一个变量(被解释变量或应变量)对另一个或多个变量(解释变量)依存关系的研究,是用适当的数学模型去近似的表达或估计变量之间的平均变化关系,其目的是要根据解释变量的数值去估计所研究的被解释变量的总体平均值。

  4. (考点)总体回归函数和样本回归函数雨课堂作业

    总体和样本回归函数最大的区别,有无$\hat{}$:如$\hat{\beta}$和$\beta$。

    总体回归函数(将总体被解释变量$Y$的条件期望表现为解释变量$X$的函数,这个函数称为总体回归函数$PRF$):

    $E\left(Y \mid X_{i}\right)=\beta_{1}+\beta_{2} X_{i}$

    $Y_{i}=\beta_{1}+\beta_{2}X_{i}+\mu_{i}$

    样本回归函数(把被解释变量$Y$的样本条件均值表示为解释变量$X$的某种函数,这个函数称为样本回归函数,$SRF$):

    $\hat{Y}{i}=\hat{\beta}{1}+\hat{\beta}{2} X{i}$

    $\hat{Y}{i}=\hat{\beta}{1}+\hat{\beta}{2} X{i}+e_{i}$

    (考点)总体回归和样本回归函数的区别$P_{25}$:雨课堂作业

    • 总体回归函数未知但是是确定的,样本回归函数随抽样而变化。
    • 总体回归函数的参数$\beta_{1}$和$\beta_{2}$是确定的,而样本回归函数的参数$\hat{\beta_{1}}$和$\hat{\beta_{2}}$是随抽样而变化的。
    • 总体回归函数的$\mu_{i}$不可观测,样本回归函数中的$e_{i}$只要估计出样本回归的参数就可以计算出来。
  5. 🧁🧁🧁选择题非考点)线性是针对经济参数而言的,而不是针对经济变量而言。

  6. (考点)简单线性回归的基本假定

    • 对变量和模型的假定

      假定解释变量$X_{i}$是确定性变量,是非随机的,因为重复抽样中$X_{i}$是取一组固定的值。或者虽然$X_{i}$是随机的,但与随机扰动项$\mu_{i}$不相关。

      假定模型中的变量没有测量误差。

      假设模型对变量和函数形式的设定是正确的,即不存在设定误差。

    • 对随机扰动项$\mu_{i}$统计分布的假定(高斯假定、古典假定)

      零均值假定:给定解释变量$X_{i}$的条件下,随机扰动项$\mu_{i}$的条件期望或条件均值为零。$E\left(\mu_{i} \mid X_{i}\right)=0$

      同方差假定:对于给定的每一个$X_{i}$,随机扰动项$\mu_{i}$的条件方差都等于某一个常数$\sigma^2$:$\operatorname{Var}\left(u_{i} \mid X_{i}\right)=E\left[u_{i}-E\left(u_{i} \mid X_{i}\right)\right]^{2}=E\left(u_{i}^{2}\right)=\sigma^{2}$

      无自相关假定:随机扰动项的$\mu_{i}$的逐次值不相关,或者说,对于所有的$i$和$j$,$i$,$i \neq j$,$\mu_{i}$和$u_{j}$的协方差为零。

      $\begin{aligned} \operatorname{Cov}\left(u_{i}, u_{j}\right) &=E\left[u_{i}-E\left(u_{i}\right)\right]\left[u_{j}-E\left(u_{j}\right)\right] \ &=E\left(u_{i} u_{j}\right) \ &=0 \end{aligned}$

      随机扰动项$\mu_{i}$与解释变量$X_{i}$不相关:$\operatorname{Cov}\left(u_{i}, X_{i}\right)=E\left[u_{i}-E\left(u_{i}\right)\right]\left[X_{i}-E\left(X_{i}\right)\right]=0$

      正态性假定:假定随机扰动项$\mu_{i}$服从期望为零、方差为$\sigma^2$的正态分布:$u_{i} \sim N\left(0, \sigma^{2}\right)$

      由于$Y_{i}=\beta_{1}+\beta_{2}X_{i}+\mu_{i}$,$Y_{i}$的分布性质取决于$\mu_{i}$,因此对$\mu_{i}$的零均值、同方差、无自相关及正态性假定也可以用对$Y_{i}$的假定来表示。

      零均值:$E\left(Y \mid X_{i}\right)=\beta_{1}+\beta_{2} X_{i}$

      同方差:$\operatorname{Var}\left(Y_{i} \mid X_{i}\right)=\sigma^{2}$

      无自相关:$\operatorname{Cov} \left(Y_{i}, Y_{j} \right) =0$

      正态性假定:$Y_{i} \sim N\left(\beta_{1}+\beta_{2} X_{i}, \sigma^{2}\right)$

  7. (考点)计量经济研究的直接目的是确定总体回归函数$Y_{i}=\beta_{1}+\beta_{2}X_{i}+\mu_{i}$,但是只能拿到样本观测值,因此使用不同的方法去估计参数。

    • (非考点)极大似然准则:产生该样本概率最大的原则确认样本回归函数

    • (考点)最小二乘准则:使估计的剩余平方和最小的原则确定样本回归函数(满足古典假定称为普通最小二乘估计,OLS)雨课堂作业:推导过程

      即:$\min \sum e_{i}^{2}=\min \sum\left(Y_{i}-\hat{Y}{i}\right)^{2}=\min \sum\left(Y{i}-\hat{\beta}{1}-\hat{\beta}{2} X_{i}\right)^{2}$

      因为要估计的参数是$\beta_{1}$和$\beta_{2}$,所以此式具有两个参数,就是$\beta_{1}$和$\beta_{2}$,因此分别对其求偏导,并且两个偏导为零时能够取到最小值:

      $\frac{\partial\left(\sum e_{i}^{2}\right)}{\partial \hat{\beta}{1}}=-2 \sum\left(Y{i}-\hat{\beta}{1}-\hat{\beta}{2} X_{i}\right)=0$
      $\frac{\partial\left(\sum e_{i}^{2}\right)}{\partial \hat{\beta}{2}}=-2 \sum\left(Y{i}-\hat{\beta}{1}-\hat{\beta}{2} X_{i}\right) X_{i}=0$

      从而得到最小二乘法的正规方程组:

      $\sum Y_{i}=n \hat{\beta}{1}+\hat{\beta}{2} \sum X_{i}$
      $\sum X_{i} Y_{i}=\hat{\beta}{1} \sum X{i}+\hat{\beta}{2} \sum X{i}^{2}$

      使用克莱姆法则解正规方程组,得:

      $\hat{\beta}{1} =\frac{\sum X{i}^{2} \sum Y_{i}-\sum X_{i} \sum X_{i} Y_{i}}{n \sum X_{i}^{2}-\left(\sum X_{i}\right)^{2}}$

      $\hat{\beta}{2}=\frac{n \sum X{i} Y_{i}-\sum X_{i} \sum Y_{i}}{n \sum X_{i}^{2}-\left(\sum X_{i}\right)^{2}}$

      这就是用样本观测值$X_{i}$和$Y_{i}$表现的$\hat \beta_{1}$和$\hat \beta_{2}$的最小二乘估计量。

      如果令$x_{i}=X_{i}-\bar{X}$,$y_{i}=Y_{i}-\bar{Y}$,那么用离差形式表示参数为:

      $\hat{\beta}{2}=\frac{\sum\left(X{i}-\bar{X}\right)\left(Y_{i}-\bar{Y}\right)}{\sum\left(X_{i}-\bar{X}\right)^{2}}=\frac{\sum x_{i} y_{i}}{\sum x_{i}^{2}}$
      $\hat{\beta}{1}=\bar{Y}-\hat{\beta}{2} \bar{X}$

  8. (考点)OLS的数学、统计、分布性质

    • 数学性质:雨课堂作业:推导过程

      • 通过样本均值。$\hat{\beta}{1}=\bar{Y}-\hat{\beta}{2} \bar{X}$
      • 估计值$\hat Y_{i}$的均值$\frac{\sum \hat Y_{i}}{n}$等于实际值$Y_{i}$的均值$\bar Y$。(推导过程中用到了残差和为零的结论,在下一个数学性质中有推导)
      • 剩余项$e_{i}$的均值为零。(因为满足最小二乘规则后,对其求偏导,偏导为零,得到残差和为零,那么均值为零)
      • 被解释变量估计值$\hat Y_{i}$与剩余项$e_{i}$不相关。
      • 解释变量$X_{i}$与剩余项$e_{i}$不相关。
    • 统计性质

      参数估计量的评价标准:无偏性、有效性、一致性

      • 雨课堂作业:推导过程线性特性:$\hat \beta_{k}$是$Y$的线性函数。($y=kx$)
      • 雨课堂作业:推导过程无偏性:$E\left( \hat \beta_{k} \right )=\beta_{k}$(用到了零均值假定)
      • 有效性:在所有的线性无偏估计中,OLS估计$\hat \beta_{k}$具有最小方差(用到了同方差、无自相关假定): $\operatorname{Var}(\hat \beta_{2})=\frac{\sigma^2}{\sum{X_{i}^2}}$ $\operatorname{Var}(\hat \beta_{1})=\sigma^2\frac{\sum X_{i}^2}{n\sum{X_{i}^2}}$
  9. (考点)总变差的分解

    $Y$的样本观测值:$Y_{i}$

    使用$OLS$的估计值:$\hat Y$

    样本均值:$\bar Y$

    PNG图像

    上述三个量之间的关系:$Y_{i}-\bar Y=(\hat Y_{i}-\bar Y)+(Y_{i}-\hat Y_{i})$

    也就是图中①=③+②

    各个平方和分别为:①总变差$TSS$、③由模型回归线作出解释了的变差(Explained Sum of Squares)$ESS$、②回归线未作出解释的平方和或者残差平方和(Residual Sum of Squares,Residual:剩余的)$RSS$

    对其进行平方加和:$\sum\left(Y_{i}-\bar{Y}\right)^{2}=\sum\left(\hat{Y}{i}-\bar{Y}\right)^{2}+\sum\left(Y{i}-\hat{Y}_{i}\right)^{2}$

    🧁🧁🧁选择题 $TSS=ESS+RSS$

  10. 可决系数:$R^2=\frac{ESS}{TSS}=1-\frac{RSS}{TSS}$,也就是由样本回归线作出解释了的离差平方和在总离差平方和中占的比重。

    $R^{2}=\frac{\sum\left(\hat{Y}{i}-\bar{Y}\right)^{2}}{\sum\left(Y{i}-\bar{Y}\right)^{2}}=\frac{\sum \hat{y}{i}^{2}}{\sum y{i}^{2}}$
    $R^{2}=1-\frac{\sum\left(Y_{i}-\hat{Y}{i}\right)^{2}}{\sum\left(Y{i}-\bar{Y}\right)^{2}}=1-\frac{\sum e_{i}^{2}}{\sum y_{i}^{2}}$

    可决系数特点:

    • 非负的统计量
    • 取值范围为$\left [0,1 \right ]$
    • 可决系数是样本观测值的函数,随抽样而变动的随机变量。
  11. 可决系数与相关系数的关系

    联系:在一元线性回归中,可决系数$R^2$在数值上是简单线性相关系数$r$的平方,即$r=\pm \sqrt{R^2}$。

    区别:可决系数是度量回归模型对样本观测值的拟合程度,也就是模型中解释变量对被解释变量变差的解释程度。相关系数是就两个变量而言,说明两个变量的线性依存程度。

    可决系数度量的是解释变量与被解释变量不对称的因果关系,是在回归分析的基础上说明$X$对$Y$的解释比例,并不说明$Y$对$X$的解释。而相关系数$r$度量的是X与Y对称的相关关系,不涉及因果关系。

    可决系数具有可负性,取值范围是$[0,1]$。相关系数取值范围是$[-1,1]$

  12. (非考点,但是有助于下一点的理解)$t$检验量的构建

    根据前面的假定,$\mu_{i}$服从正态性分布,因此$Y_{i}$也服从正态分布,又因为$\hat \beta_{1}$和$\hat \beta_{2}$是$Y_{i}$的线性函数,因此即使是小样本也服从正态分布;在大样本的情况下,即使$Y_{i}$不服从正态分布,$\hat \beta_{1}$和$\hat \beta_{2}$也会趋于服从正态分布。

    $\hat{\beta}{1} \sim N\left(\beta{1}, \sigma^{2} \frac{\sum X_{i}^{2}}{n \sum x_{i}^{2}}\right)$
    $\hat{\beta}{2} \sim N\left(\beta{2}, \frac{\sigma^{2}}{\sum x_{i}^{2}}\right)$

    对其进行标准化变换:

    $z_{1}=\frac{\hat{\beta}{1}-\beta{1}}{\operatorname{SE}\left(\hat{\beta}{1}\right)}=\frac{\hat{\beta}{1}-\beta_{1}}{\sqrt{\sigma^{2} \frac{\sum X_{i}^{2}}{n \sum x_{i}^{2}}}} \sim N(0,1)$
    $z_{2}=\frac{\hat{\beta}{2}-\beta{2}}{\operatorname{SE}\left(\hat{\beta}{2}\right)}=\frac{\hat{\beta}{2}-\beta_{2}}{\sqrt{\frac{\sigma^{2}}{\sum x_{i}^{2}}}} \sim N(0,1)$

    式中的$\sigma ^ 2$是随机扰动项$\mu_{i}$的方差,但是该方差无法确认,需要通过样本观测值的方差$\hat \sigma ^ 2$来估计$\sigma ^ 2$。

    小样本情况下,使用样本观测值的方差$\hat \sigma ^ 2$直接代替$\sigma ^ 2$,就不再服从正态分布,而是服从自由度为$n-2$的$t$分布:

    $\begin{aligned} t=& \frac{\hat{\beta}{1}-\beta{1}}{\widehat{\operatorname{SE}}\left(\hat{\beta}{1}\right)}=\frac{\hat{\beta}{1}-\beta_{1}}{\sqrt{\hat{\sigma}^{2} \frac{\sum X_{i}^{2}}{n \sum x_{i}^{2}}}} \sim t(n-2) \end{aligned}$

    $\begin{aligned} t=\frac{\hat{\beta}{2}-\beta{2}}{\widehat{S E}\left(\hat{\beta}{2}\right)} &=\frac{\hat{\beta}{2}-\beta_{2}}{\sqrt{\frac{\hat{\sigma}^{2}}{\sum x_{i}^{2}}}} \sim t(n-2) \end{aligned}$

  13. (考点)回归系数假设检验、区间估计(例题见本章总结末尾)

    参数估计:估计出$\beta_{1}$和$\beta_{2}$

    假设检验:因为随机误差项是正态分布,所以$\beta_{1}$和$\beta_{2}$也是正态分布。

    写出$\beta_{1}$和$\beta_{2}$的正态分布公式,然后标准化,此时是$z_{1}$和$z_{2}$统计量。

    标准化后,式子里含有总体方差,此时要分类讨论

    • 如果总体方差已知,直接使用总体方差计算出$z_{1}$和$z_{2}$的值,然后由正态分布表查出当前置信水平的上下限,进行假设检验。
    • 如果总体方差未知,再次分类讨论:
      • 大样本:那么就可以使用样本方差直接代替总体方差,计算方法和总体方差一致。
      • 小样本:是最常遇到的情况,也使用样本方差直接代替总体方差,但是此时不再满足正态分布,而是$t$分布,由$t$分布表查出当前置信水平的上下限,进行假设检验。(原假设:$H_{0}:\beta_{2}=0$ ,备择假设:$H_{1}:\beta_{2}\neq0$。先让$\beta_{2}=0$,计算$t$的值,如果$t$统计量的值落到了置信区间上下限内,那就接受原假设;否则拒绝原假设,也就是说$\beta$显著不等于$0$)

    区间估计:给定置信区间,和假设检验一样的方法构造$t$统计量(总体方差未知、小样本),列式$t$的置信区间上下限,化简得到$\beta_{2}$的区间。

    🧁简答题非考点,PPT和课后习题中有出现)$P_{55}$ 2.7:

    Q:得到参数区间估计的上下限,说明参数的真实值落入这个区间的概率是$1-\alpha $,如何评论这种说法?

    A:区间估计的上下限是岁抽样而变化的随机区间,每次抽样都构造一个区间。平均来说有$1-\alpha$比例的次数包含$\beta_{k}$的真实值。

    对于特定的某一次抽样,估计出具体的$\beta_{k}$后,那么区间估计得到的区间就不是随机的了,而是特定的,该区间包含$\beta_{k}$的概率要么是$1$,要么是$0$。

  14. 🧁🧁🧁简答题``考点)$P_{55}$ 2.6 思考题:

    Q:为什么可决系数可以度量模型的拟合优度?在简单线性回归中它与对参数的的$t$检验的关系是什么?

    A:可决系数是回归平方和占总离差平方和的比重,即由样本回归作出解释的离差平方和在总离差平方和中占的比重,如果样本回归线对样本观测值拟合程度好,各样本观测点与回归线靠得越近,由样本回归作出解释的离差平方和在总离差平方和中占的比重也将越大,反之拟合程度越差,这部分所占比重就越小。所以可决系数可以作为综合度量回归模型对样本观测值拟合优度的指标。在简单线性回归中,可决系数越大,说明在总变差中由模型作出了解释的部分占的比重越大,$X$对$Y$的解释能力越强,模型拟合优度越好。对参数的$t$检验是判断解释变量$X$是否是被解释变量$Y$的显著影响因素。二者的目的作用是一致的。

一题搞懂简单线性回归:(雨课堂作业)$P_{56}$ 2.2

预备知识:**$X$、$Y$是观测值,$x$、$y$是离差,是观测值减去平均值**

第三章 多元线性回归模型

  1. 🧁🧁🧁选择题考点)多元线性回归中的线性指对各个回归系数而言是线性的,对变量则可以是线性的,也可以是非线性的。

  2. 🧁🧁考点)古典假定(定义和表达式)

    • 零均值假定:随机扰动项的均值为零:$E(\mu_{i})=0$ $(i=1,2,\cdots ,n)$

    • 同方差和无自相关假定:随机扰动项互不相关且方差相同:

      $\begin{aligned} \operatorname{Cov}\left(u_{i}, u_{k}\right) &=E\left[\left(u_{i}-E u_{i}\right)\left(u_{k}-E u_{k}\right)\right] \ &=E\left(u_{i} u_{k}\right)=\left{\begin{array}{ll}\sigma^{2}, & i=k \ 0, & i \neq k\end{array}\right.\end{aligned}$

      $(i, k=1,2, \cdots, n)$

    • 随机扰动项与解释变量不相关假定:$\operatorname{Cov}\left(X_{j i}, u_{i}\right)=0 \quad(j=2,3, \cdots, k ; i=1,2, \cdots, n)$

    • 无多重共线性假定

    • 正态性假定:$u_{i} \sim N\left(0, \sigma^{2}\right)$

  3. (考点)可决系数

    与简单线性回归中可决系数$r^2$的区别是$\hat Y_{i}$不同

    $R^{2}=\frac{E S S}{T S S}=\frac{\sum\left(\hat{Y}{i}-\bar{Y}\right)^{2}}{\sum\left(Y{i}-\bar{Y}\right)^{2}}=\frac{T S S-R S S}{T S S}=1-\frac{\sum e_{i}^{2}}{\sum y_{i}^{2}}$

    为什么要做一个修正的可决系数?多重可决系数是模型中解释变量个数的不减函数,这给对比不同模型的多重可决系数带来缺陷,所以需要修正。(因为可决系数会受到解释变量个数的影响,要去除解释变量个数的影响。)

    $\bar R^2=1-\frac{RSS/(n-k)}{TSS/(n-1)}$

  4. 🧁🧁🧁考点)可决系数和修正的可决系数的关系(老师说可以考试的时候推导,但是怕我们时间不够,所以感觉肯定会考

    $\bar{R}^{2}=1-\left(1-R^{2}\right) \frac{n-1}{n-k}$

    $k>1$,修正的$R^2$小于$R^2$

    修正$R^2$可能会负值,直接取$R^2$,修正的$R^2$取零。

  5. (考点)回归方程的显著性检验——$F$检验

    $F=\frac{ESS/(k-1)}{RSS/(n-k)}$

    $F$检验说明各解释变量联合起来,对被解释变量的影响。

  6. $F$统计量和$t$统计量的关系

    简单线性回归模型,$F$统计量等于$t^2$(每个解释变量都对$Y$有影响),所以简单线性回归模型没说怎么算。

  7. (考点)$F$统计量和$R^2$的关系

    $F=\frac{R^{2} /(k-1)}{\left(1-R^{2}\right) /(n-k)}=\frac{n-k}{k-1} \cdot \frac{R^{2}}{1-R^{2}} \quad \bar{R}^{2}=1-\frac{(n-1)}{n-k+(k-1) F}$

    当$R^2=0$,$F=0$

    当$R^2$越大,$F$也越大

    当$R^2=1$,$F=+\infty $

    🧁🧁可决系数和$F$统计量的区别

    拟合优度:从估计的模型出发,检验对样本观测值的拟合程度。
    $F$检验:从样本观测值出发,检验模型整体关系的显著性。

    $R^2$:样本回归线对样本数据拟合优劣程度,$R^2$没有判断的界限,但是$F$检验给了充分的依据

  8. (考点)多元回归的目的$P_{75}$

    • 获得较高拟合优度的模型
    • 寻求方程整体的显著性
    • 对各个总体回归参数作出有意义的估计
  9. 🧁🧁🧁预计考简答题``考点)$P_{86}$ 3.6思考题

    Q:多元线性回归中,$F$检验和$t$检验的关系是什么?为什么做了F检验后还要做$t$检验?
    A:在多元回归中,$t$检验是分别检验当其他解释变量保持不变时,各个解释变量$X$对应变量$Y$是否有显著影响。$F$检验是在多元回归中有多个解释变量,需要说明所有解释变量联合起来对应变量影响的总显著性,或整个方程总的联合显著性。$F$检验是对多元回归模型方程整体可靠性的检验,而多元线性回归分析的目的,不仅是要寻求方程整体的显著性,也要对各个参数作出有意义的估计。方程整体线性关系显著并不一定表示每个解释变量对被解释变量的影响是显著的,因此,还必须分别对每个回归系数逐个地进行$t$检验。

第四章 多重共线性(解释变量和解释变量的关系)

引例$P_{93}$

Q:怎么分析出来有多重共线性?

A:$F$检验太大、$R^2$太大(大于0.8),并且有一个经济参数对被解释变量的影响是负的,与实际不符合。综上,我们认为模型中出现了多重共线性。

假如各个解释变量间相关系数为0,表示各个解释变量间没有任何线性关系,此时直接使用简单线性回归就能够确定每个变量的参数。

假如各个解释变量间相关系数为1,表示各个解释变量间完全共线性,无法确定每个变量的参数。

假如各个解释变量间相关系数为$[0,1]$,表示各个解释变量间存在一定的线性关系,这是实际中经常遇到的情形。

  1. 背景(产生原因)

    经济变量之间具有共同变化趋势。
    模型中包含滞后变量。
    利用截面数据建立模型也可能出现多重共线性。
    样本数据自身的原因。

  2. 后果

    • 完全多重共线性

      参数估计值不确定:无法固定其他参数确定其中一个参数对被解释变量的影响,因为其中两个变量紧密关联。

      参数估计值方差无限大

    • 不完全多重共线性

      参数估计值的方差增大

      对参数进行区间估计时,置信区间变大

      假设检验容易作出错误判断:参数估计值的方差会变大,使得$t$值变小,本应被拒绝的原假设被接受。

      可决系数$R^2$较高

  3. 只是用来预测,模型结果可以用。政策评价之类的不可以用。

  4. 检验

    简单相关系数:0.8(充分不必要,不是小于0.8就没有多重共线性,因为简单相关系数是两两间关系,三个无法判断)

    方差扩大因子:使用每个解释变量为被解释变量,作与其他解释变量的回归,称为辅助回归,$R_{j}^2$是这个回归的可决系数。方差扩大因子是:$V I F_{j}=\frac{1}{\left(1-R_{j}^{2}\right)}$,如果方差扩大因子大于10,就有严重的多重共线性。

    直观判断法:

    有些解释变量的回归系数所带正负号与定性分析结果违背时,很可能存在多重共线性。

    可决系数较高,$F$检验显著,但$t$检验不显著,可能存在多重共线性。

    🧁🧁🧁选择题/判断题逐步回归检测法:既可以检验,又可以补救。

    将变量逐个的引入模型,每引入一个解释变量后,都要进行$F$检验,并对已经选入的解释变量逐个进行$t$检验,当原来引入的解释变量由于后面解释变量的引入而变得不再显著时,则将其剔除。以确保每次引入新的变量之前回归方程中只包含显著的变量。在逐步回归中,高度相关的解释变量,在引入时会被剔除。因而也是一种检测多重共线性的有效方法。

  5. 补救措施

    🧁🧁🧁🧁经验方法:

    • 剔除变量法
    • 增大样本容量
    • 变换模型形式
    • 利用非样本先验信息

第五章 异方差性(随机扰动项的问题)

  1. 异方差的表现形式:$Var(u_{i})=\sigma_{i}^2$,$i=1,2,\dots,n$

  2. 产生原因

    • 模型设定误差
    • 测量误差的变化
    • 截面数据中总体各单位的差异

    截面数据更容易异方差

  3. 后果

    有效性:不满足

    无偏性:满足(零均值没被破坏)

  4. 检验

    图示检验:缺点:判断粗糙

    🧁🧁🧁🧁GQ检验:基本思想、前提条件、具体去做、最好能画图

    • 基本思想:能够检验递增或递减性异方差。把样本分为两部分,分别对两个样本回归,比较剩余平方和

    • 前提条件:大样本;除同方差,其他假定都满足

    • 具体做法:

      • 把样本观测值按照解释变量$X_{i}$的大小进行排序

      • 把排列在中间的$c$个(为样本个数的$1/5 \sim 1/4$)观察值删除掉,再把剩余观测值分为两个部分,每部分观察值的个数为$(n-c)/2$

      • 提出假设:$H_{0}$:两部分数据的方差相等;$H_{1}$:两部分数据的方差不相等

      • 构造$F$统计量,分别对两部分观察值作回归。$\sum e_{1 i}^{2}$为前一部分样本回归产生的残差平方和,$\sum e_{2 i}^{2}$为后一部分样本回归产生的残差平方和。

        $F^{*}=\frac{\sum e_{2 i}^{2} /\left(\frac{n-c}{2}-k\right)}{\sum e_{1 i}^{2} /\left(\frac{n-c}{2}-k\right)}=\frac{\sum e_{2 i}^{2}}{\sum e_{1 i}^{2}} \sim F\left(\frac{n-c}{2}-k, \frac{n-c}{2}-k\right)$

      • 判断。给定显著性水平$\alpha$,查$F$分布表得临界值:

        $F_{(\alpha)}=F_{(\alpha)}\left(\frac{n-c}{2}-k, \frac{n-c}{2}-k\right)$

        计算统计量$F^*$

        如果$F^*>F(\alpha)$,则拒绝原假设,接受备择假设,即模型中的随机误差项存在异方差。

        如果$F^*<F(\alpha)$​,则不拒绝原假设,认为模型中的随机误差项不存在异方差。

    • 最好能画图

      image-20210112205601287

    提出假设White检验:基本思想、步骤、特点

    🧁🧁White检验:基本思想、步骤、特点

  5. 补救

    • 对模型变换

      对方程全部除以$\sqrt{f(X_{i})}$

    • 加权最小二乘法

      上面两个方法结果是等价的

    • 模型的对数变换

第六章 自相关

引例

斜率系数$\beta_{2}$的标准误非常小,$t$统计量非常大,说明农村居民人均纯收入$X$对农村居民人均消费$Y$的影响非常显著
可决系数非常高,$F$统计量高达4488,也表明模型异常显著。

  1. 自相关关联数学公式:$\operatorname{Cov}\left(u_{i}, u_{j}\right)=E\left(u_{i} u_{j}\right) \neq 0 \quad(i \neq j)$

  2. 产生原因

    经济系统的惯性

    经济活动的滞后效应

    数据处理造成的相关

    蛛网现象

    模型设定偏误

  3. 后果

    一阶自回归形式的性质

    随机误差项$\mu_{i}$存在一阶自相关,这个一阶自相关用数学公式表达:

    $u_{t}=\rho u_{t-1}+v_{t} \quad(-1<\rho<1)$

    $u_{t}$为现期随机误差,$u_{t-1}$是前期随机误差。$v_{t}$是满足古典假定的误差项。

    对参数估计的影响(统计性质一定会考)

    🧁🧁🧁🧁为什么无偏性还是满足?

    低估$\hat \beta_{2}$的方差、标准误被低估、$t$值被高估,导致拒绝了一个本可能被接受的假设。$t$、$F$检验、拟合优度都无效。预测精度下降、置信区间不可靠。

    异方差和自相关差不多,差别在自相关的$\hat \beta_{2}$被低估,异方差无法确认。

  4. 检验

    🧁🧁🧁🧁DW(一定会考,可以不会画图,但是要会看)

    image-20210112214102360

    前提条件:

    • 解释变量非随机
    • 随机扰动项为一阶自回归形式,即$u_{t}=\rho u_{t-1}+v_{t} \quad(-1<\rho<1)$
    • 线性模型的解释变量中不含滞后的被解释变量$Y_{t}=\beta_{1}+\beta_{2}X_{t}+\beta_{3}Y_{t-1}+\mu_{t}$
    • 截距项不为零,只适用于有常数项的回归模型(不是通过原点的回归)
    • 数据序列无缺失项

    要求有足够样本量(一般要求$n≥15$)

    DW检验有两个不确定区域

    DW检验不适用于随机误差项具有高阶序列相关的检验(只能一阶)

  5. 补救

    广义差分法:为了解决随机扰动项的问题

    对于一元线性回归模型:$Y_{t}=\beta_{1}+\beta_{2}X_{t}+\mu_{t}$,(式1)

    将模型滞后一期:$Y_{t-1}=\beta_{1}+\beta_{2}X_{t-1}+\mu_{t-1}$,(式2)

    两边乘$\rho$:$\rho Y_{t-1}=\rho \beta_{1}+\rho \beta_{2}X_{t-1}+\rho \mu_{t-1}$,(式3)

    式1-式3:$Y_{t}-\rho Y_{t-1}=\beta_{1}(1-\rho)+\beta_{2}(X_{t}-\rho \beta_{2}X_{t-1})+\mu_{t}-\rho \mu_{t-1}$,

    $v_{t}=u_{t}-\rho u_{t-1}$,不存在自相关。

    令$Y_{t}^{}=Y_{t}-\rho Y_{t-1}, X_{t}^{}=X_{t}-\rho X_{t-1}, \beta_{1}^{}=\beta_{1}(1-\rho), \beta_{2}^{}=\beta_{2}$,
    得到模型:$Y_{t}^{}=\beta_{1}^{}+\beta_{2}^{} X_{t}^{}+v_{t}$

    怎么算$\rho$:$\hat \rho=1-\frac{DW}{2}$

评论

Your browser is out-of-date!

Update your browser to view this website correctly.&npsb;Update my browser now

×