计量学习 | Tianheng Shu

type

status

date

slug

summary

1.大样本与小样本估计的区别

小样本OLS假定：1、线性假定；2、严格外生性；3、不存在严格多重共线性；4、球形扰动项；5、正态随机扰动项。

球型扰动项(spherical disturbance)，即扰动项满足“同方差”、 “无自相关”的性质
扰动项即是纳入了所有杂七杂八的东西，只要是模型不能解释的都放在这里面。解释变量与不相关，即二者协方差为0，也即是解释变量与正交。

大样本OLS假定：1、线性假定；2、渐进独立的平稳过程；3、同期外生性；4、不存在多重共线性。

大样本估计中解释变量与扰动项的关系

2.内生变量、外生变量

内生变量、外生变量的计量经济学定义

3.稳健标准误

标准误衡量的是估计量的准确程度/波动幅度，就是估计量的标准误差。

稳健标准误的来历

💡

条件同方差的假定下，稳健标准误还原为普通(非稳健)标准误

4.有关于自由度的解释

见知乎回答

自由度什么时候等于 n-1 什么时候等于 n-2？

自由度等于样本量减去模型中的参数个数，，也就是说可以自由变化的样本个数。参数模型就是用不同的参数来...

https://www.zhihu.com/question/29209587/answer/44175767

5.均方误差

均方误差的定义

6.大样本中t统计量与稳健标准误

大样本中t统计量VS稳健标准误

💡

在STATA中采用稳健标准误后，即是采用大样本假设估计，一般数据都要采用稳健标准误，因为他总是无偏估计，这样可以有效避免异方差问题。

7.关于抽样

💡

随机样本{ }中，仍然是服从随机分布，可以看成是随机变量的具体取值，不过当进行一次抽样后，其就是数字了。

8.异方差问题

计量经济学所指的“异方差”都是“条件异方差”，而非“无条件异方差”。

现实中绝大多数经济问题都是存在异方差，只不过异方差的程度不同。而同方差的情形几乎没有。

检验异方差的方法

BP检验，常用于截面数据，IID假定。通常是运用在样本容量不太大，解释变量较多的情形

怀特检验(White)，辅助回归中引入了二次项。比较费样本容量，尤其是当解释变量较多的时候。因此在解释变量少的时候功效更好。

异方差的处理

OLS+稳健标准误

使用加权最小二乘法 WLS

可行的加权最小二乘法FWLS

💡

“ OLS + 稳健标准误”更为稳健(适用于一般的情形)，而FWLS 更有效率。必须在稳健性与有效性之间做选择。前者相当于“万金油” (谁都适用)，而后者相当于“特效药”。由于“病情”通常难以诊断(无法判断条件异方差的具体形式)，故特效药可能失效，甚至起反作用。如果对估计不准确，则 FWLS 即使在大样本下也不是 BLUE，其估计效率可能还不如 OLS。如果被解释变量取值为正，有时将被解释变量取对数，可以缓解异方差问题。

9.自相关

💡

截面数据不易出现自相关，但相邻的观测单位之间也可能存在“溢出效应” (spillover effect 或 neighborhood effect)，这种自相关也称为“空间自相关” (spatial autocorrelation)。白噪声过程：期望为0，不存在序列相关的随机序列。

自相关问题的检验

BG检验：其原假设是“无自相关”，stata默认的是DM检验，如下

Q检验

自相关问题的处理办法

使用“ OLS + 异方差自相关稳健的标准误”

这种方法也叫做Newey-West 估计法” (Newey and West, 1987)，只改变标准误的估计值，不改变回归系数的估计值。

准差分法

CO估计法或Prais-Winsten 估计法，均需要知道自回归系数.

广义最小二乘法(GLS)

在操作中也需要估计协方差矩阵V，因此用FGLS利用样本数据进行计算V后再纳入估计。

💡

在使用 FGLS 处理自相关时，如果对自相关系数的估计比较准确，且满足严格外生性，则 FGLS 比 OLS 更有效率. FGLS 的适用条件比 OLS 更苛刻，不如 OLS 稳健。

10.计量模型的设定与数据

遗漏变量

💡

由于影响被解释变量的因素往往很多，而局限于数据的可得性(availability)，故在任何实证研究中几乎总存在遗漏变量。一篇专业水准的实证论文几乎总要说明，如何在存在遗漏变量的情况下避免遗漏变量偏差。

无关变量

其一般对模型估计影响不大，但是还是需要根据理论逻辑选择变量

建模策略

💡

一般推荐由大到小的建模策略

解释变量的个数选择

加入过多的解释变量可提高模型的解释力(比如增大拟合优度R2)，但也牺牲了模型的简洁性(parsimony)。需在模型的解释力与简洁性之间找到最佳平衡。采用的方案是：a.校正可决系数,使得加入解释变量让其最大；b.采用AIC信息准则或BIC信息准则

计量采用函数形式的检验(是否有非线性项之类)

“ Ramsey’s RESET 检验”的基本思想：如果怀疑遗漏非线性项，就把非线性项引入方程，检验其系数是否显著。

11.多重共线性问题

多重共线性的通常症状是，虽然整个回归方程的R2较大、 F 检验也很显著，但单个系数的 t 检验却不显著；另一症状是，增减解释变量使得系数估计值发生较大变化(比如，加入的解释变量与已有解释变量构成多重共线性)。

可以利用膨胀因子V作初步判断，一般需要VIF小于10，比较合理。

💡

a. 如不关心具体的回归系数，只关心整个方程的预测能力，可不必理会多重共线性(假设整个方程显著)。多重共线性的主要后果是使得对单个变量的贡献估计不准，但所有变量的整体效应仍可较准确地估计。 b. 如关心具体的回归系数，但多重共线性并不影响所关心变量的显著性，也可不必理会. c. 如多重共线性影响所关心变量的显著性，应设法进行处理。比如，增大样本容量，剔除导致严重共线性的变量，将变量标准化，或对模型设定进行修改。解释变量之间的相关性普遍存在，在一定程度上也是允许的.

12. 极端值问题

首先，应检查是否因数据输入有误导致极端观测值。其次，对极端观测值的个体进行背景调查，看是否由与研究课题无关的特殊现象所致，必要时可删除极端数据。最后，比较稳健的做法是同时汇报“全。样本” 与删除极端数据后的“子样本” 的回归结果，让读者自己做判断。

13.虚拟变量

仅引入虚拟变量相当于在不同时期给予不同截距项；引入虚拟变量及其互动项，相当于在不同时期使用不同的截距项与斜率。

可以通过虚拟变量的设置来考察回归方程系数是否发生变动，在宏观经济中即是考察是否发生结构变动。

邹检验(chow test):即是通过考察变动前后有无约束的残差平方和，构造F统计量进行检验。

14. 内生性的来源及解决措施

内生性的来源包括遗漏变量偏差、联立方程偏差(双向因果关)及测量误差偏差，解决措施是用工具变量法

15.工具变量法(IV)

如能将内生变量分成两部分，一部分与扰动项相关，另一部分与扰动项不相关，可用与扰动项不相关的那部分得到一致估计。通常借助另外一个“工具变量”(instrumental variable)实现这种分离。

工具变量需要满足：

工具变量法一般通过“二阶段最小二乘法” (Two Stage Least Square， 2SLS 或 TSLS)来实现。

💡

工具变量的选择：列出与内生解释变量(x)相关的尽可能多的变量的清单，然后从这一清单中剔除与扰动项相关的变量。然后判断扰动项与变量z的相关性极困难，一般实际操作中可以通过备选变量z与 y的相关性着手寻找，这是因为由于扰动项是 y的扰动项，因此可以间接判断。但z对 y的影响仅通过x起作用，因为如果z与 相关，则z对 y的影响必然还有除x以外的渠道.是否“ z对 y的影响仅通过x起作用”，可通过定性讨论来确定，即“排他性约束”

16.二阶段最小二乘法2SLS

💡

阶条件：进行 2SLS 估计的必要条件是工具变量个数不少于内生解释变量的个数，称为“阶条件”,有三种情形： (1) 不可识别：工具变量个数小于内生解释变量个数； (2) 恰好识别：工具变量个数等于内生解释变量个数； (3) 过度识别：工具变量个数大于内生解释变量个数。此时不能用2SLS

在球形扰动项的情况下， 2SLS 是最有效率的工具变量法。

在异方差的情况下，存在更有效率的工具变量法，即“广义矩估计” (Generalized Method of Moments， GMM)。

GMM 是数理统计“矩估计” (Method of Moments， MM)的推广。

GMM 之于 2SLS，正如 GLS 与 OLS 的关系。在恰好识别或同方差的情况下， GMM 等价于 2SLS

17.弱工具变量

如工具变量与内生变量仅微弱相关， 的方差将变得很大.为检验是否存在弱工具变量，可在第一阶段回归中，检验所有方程外的工具变量的系数是否联合为零。检验结果后，经验规则：此检验的F 统计量大于 10 (由于技术性原因，此处使用普通标准误)，则拒绝“存在弱工具变量”的原假设。

存在弱工具变量的解决方法：a. 寻找更强的工具变量; b. 使用对弱工具变量更不敏感的“有限信息最大似然估计法”(LIML).在大样本下， LIML 与 2SLS 渐近等价。

18.对工具变量外生性的过度识别检验

工具变量的外生性是保证 2SLS 一致性的重要条件。如果“工具变量”与扰动项相关，可导致严重的偏差。在恰好识别的情况下，无法检验工具变量的外生性。只能进行定性讨论或依赖于专家的意见。

可以通过Sargan 统计量，进行过度识别检验，其原假设是“所有工具变量均是外生的”

19.最大似然估计(MLE)原理

对于非线性模型，常使用最大似然估计法.

MLE 的思想：给定样本取值后，该样本最可能来自参数为何值的总体。寻找，使得观测到样本数据的可能性最大，即最大化对数似然函数.

最大似然估记汇报的是准的值

使用不正确的分布函数所得到的最大似然估计量，称为“准最大似然估计” (Quasi MLE，简记 QMLE)或“伪最大似然估计” (Pseudo MLE)。如果 QMLE 为一致估计量，由于可能存在对分布函数的设定误差，应使用稳健标准误(robust standard errors)，即相对于模型设定稳健的标准误；如果认为模型设定正确，就不必使用稳健标准误(使用稳健标准误也没错)，因此首先应该解决参数估计的一致性问题。

20.二值选择模型的边际效应

取对数意味着百分比的变化,故可把其视为半弹性，即增加一单位引起几率比的变化百分比。

21.stata常用命令

见命令卡片

Stata

参考资料

📄

陈强(编著),《计量经济学及Stata应用》，第 1 版. 高等教育出版社, 2015年7月, 349页.

参考链接：http://www.econometrics-stata.com/col.jsp?id=101