type
status
date
slug
summary
tags
category
icon
password
comment
sort
目录
目录1.大样本与小样本估计的区别2.内生变量、外生变量3.稳健标准误4.有关于自由度的解释5.均方误差6.大样本中t统计量与稳健标准误7.关于抽样8.异方差问题9.自相关10.计量模型的设定与数据11.多重共线性问题12. 极端值问题13.虚拟变量14. 内生性的来源及解决措施15.工具变量法(IV)16.二阶段最小二乘法2SLS17.弱工具变量18.对工具变量外生性的过度识别检验19.最大似然估计(MLE)原理20.二值选择模型的边际效应21.stata常用命令参考资料
平常学习遇到的问题及解决 (1)
1.大样本与小样本估计的区别
- 小样本OLS假定:1、线性假定;2、严格外生性;3、不存在严格多重共线性;4、球形扰动项;5、正态随机扰动项。
- 球型扰动项(spherical disturbance),即扰动项满足“同方差”、 “无自相关”的性质
- 扰动项即是纳入了所有杂七杂八的东西,只要是模型不能解释的都放在这里面。解释变量与不相关,即二者协方差为0,也即是解释变量与正交。
- 大样本OLS假定:1、线性假定;2、渐进独立的平稳过程;3、同期外生性;4、不存在多重共线性。
大样本估计中解释变量与扰动项的关系

2.内生变量、外生变量
内生变量、外生变量的计量经济学定义

3.稳健标准误
标准误衡量的是估计量的准确程度/波动幅度,就是估计量的标准误差。
稳健标准误的来历

条件同方差的假定下,稳健标准误还原为普通(非稳健)标准误
4.有关于自由度的解释
5.均方误差
均方误差的定义


6.大样本中t统计量与稳健标准误
大样本中t统计量VS稳健标准误

在STATA中采用稳健标准误后,即是采用大样本假设估计,一般数据都要采用稳健标准误,因为他总是无偏估计,这样可以有效避免异方差问题。
7.关于抽样
随机样本{ }中,仍然是服从随机分布,可以看成是随机变量的具体取值,不过当进行一次抽样后,其就是数字了。
8.异方差问题
- 计量经济学所指的“异方差”都是“条件异方差”,而非“无条件异方差”。
- 现实中绝大多数经济问题都是存在异方差,只不过异方差的程度不同。而同方差的情形几乎没有。
检验异方差的方法
- BP检验,常用于截面数据,IID假定。通常是运用在样本容量不太大,解释变量较多的情形
- 怀特检验(White),辅助回归中引入了二次项。比较费样本容量,尤其是当解释变量较多的时候。因此在解释变量少的时候功效更好。
异方差的处理
- OLS+稳健标准误

- 使用加权最小二乘法 WLS

- 可行的加权最小二乘法FWLS

“ OLS + 稳健标准误”更为稳健(适用于一般的情形),而FWLS 更有效率。必须在稳健性与有效性之间做选择。前者相当于“万金油” (谁都适用),而后者相当于“特效药”。由于“病情”通常难以诊断(无法判断条件异方差的具体形式),故特效药可能失效,甚至起反作用。如果对估计不准确, 则 FWLS 即使在大样本下也不是 BLUE,其估计效率可能还不如 OLS。
如果被解释变量取值为正,有时将被解释变量取对数,可以缓解异方差问题。
9.自相关
截面数据不易出现自相关,但相邻的观测单位之间也可能存在“溢出效应” (spillover effect 或 neighborhood effect),这种自相关也称为“空间自相关” (spatial autocorrelation)。
白噪声过程:期望为0,不存在序列相关的随机序列。
自相关问题的检验
- BG检验:其原假设是“无自相关”,stata默认的是DM检验,如下

- Q检验

自相关问题的处理办法
- 使用“ OLS + 异方差自相关稳健的标准误”

这种方法也叫做Newey-West 估计法” (Newey and West, 1987),
只改变标准误的估计值,不改变回归系数的估计值。
- 准差分法
CO估计法或Prais-Winsten 估计法,均需要知道自回归系数.
- 广义最小二乘法(GLS)
在操作中也需要估计协方差矩阵V,因此用FGLS利用样本数据进行计算V后再纳入估计。
在使用 FGLS 处理自相关时,如果对自相关系数的估计比较准确,且满足严格外生性,则 FGLS 比 OLS 更有效率.
FGLS 的适用条件比 OLS 更苛刻,不如 OLS 稳健。
10.计量模型的设定与数据
- 遗漏变量

由于影响被解释变量的因素往往很多,而局限于数据的可得性(availability),故在任何实证研究中几乎总存在遗漏变量。一篇专业水准的实证论文几乎总要说明,如何在存在遗漏变量的情况下避免遗漏变量偏差。
- 无关变量
其一般对模型估计影响不大,但是还是需要根据理论逻辑选择变量
- 建模策略


一般推荐由大到小的建模策略
- 解释 变量的个数选择
加入过多的解释变量可提高模型的解释力(比如增大拟合优度R2),但也牺牲了模型的简洁性(parsimony)。需在模型的解释力与简洁性之间找到最佳平衡。
采用的方案是:a.校正可决系数,使得加入解释变量让其最大;b.采用AIC信息准则或BIC信息准则
- 计量采用函数形式的检验(是否有非线性项之类)
“ Ramsey’s RESET 检验”的基本思想:如果怀疑遗漏非线性项,就把非线性项引入方程,检验其系数是否显著。
11.多重共线性问题

- 多重共线性的通常症状是,虽然整个回归方程的R2较大、 F 检验也很显著,但单个系数的 t 检验却不显著;另一症状是, 增减解释变量使得系数估计值发生较大变化(比如,加入的解释变量与已有解释变量构成多重共线性)。
- 可以利用膨胀因子V作初步判断,一般需要VIF小于10,比较合理。
a. 如不关心具体的回归系数,只关心整个方程的预测能力,可不必理会多重共线性(假设整个方程显著)。 多重共线性的主要后果是使得对单个变量的贡献估计不准,但所有变量的整体效应仍可较准确地估计。
b. 如关心具体的回归系数, 但多重共线性并不影响所关心变量的显著性,也可不必理会.
c. 如多重共线性影响所关心变量的显著性,应设法进行处理。比如,增大样本容量,剔除导致严重共线性的变量,将
变量标准化
,或对模型设定进行修改。解释变量之间的相关性普遍存在,在一定程度上也是允许的.12. 极端值问题
首先,应检查是否因数据输入有误导致极端观测值。其次,对极端观测值的个体进行背景调查,看是否由与研究课题无关的特殊现象所致,必要时可删除极端数据。最后,比较稳健的做法是同时汇报“全。样本” 与删除极端数据后的“子样本” 的回归结果,让读者自己做判断。
13.虚拟变量
- 仅引入虚拟变量相当于在不同时期给予不同截距项;引入虚拟变量及其互动项,相当于在不同时期使用不同的截距项与斜率。
- 可以通过虚拟变量的设置来考察回归方程系数是否发生变动,在宏观经济中即是考察是否发生结构变动。
邹检验(chow test):即是通过考察变动前后有无约束的残差平方和,构造F统计量进行检验。

14. 内生性的来源及解决措施
内生性的来源包括遗漏变量偏差、联立方程偏差(双向因果关)及测量误差偏差,解决措施是用工具变量法
15.工具变量法(IV)
如能将内生变量分成两部分,一部分与扰动项相关,另一部分与扰动项不相关,可用与扰动项不相关的那部分得到一致估计。通常借助另外一个“工具变量”(instrumental variable)实现这种分离。
工具变量需要满足:

工具变量法一般通过“二阶段最小二乘法” (Two Stage Least Square, 2SLS 或 TSLS)来实现。
工具变量的选择:列出与内生解释变量(x)相关的尽可能多的变量的清单,然后从这一清单中剔除与扰动项相关的变量。然后判断扰动项与变量z的相关性极困难,一般实际操作中可以通过备选变量z与 y的相关性着手寻找,这是因为由于扰动项是 y的扰动项,因此可以间接判断。
但z对 y的影响仅通过x起作用,因为如果z与 相关,则z对 y的影响必然还有除x以外的渠道.是否“ z对 y的影响仅通过x起作用”,可通过定性讨论来确定,即“排他性约束”
16.二阶段最小二乘法2SLS


阶条件:进行 2SLS 估计的必要条件是工具变量个数不少于内生解释变量的个数,称为“阶条件”,有三种情形:
(1) 不可识别:工具变量个数小于内生解释变量个数;
(2) 恰好识别:工具变量个数等于内生解释变量个数;
(3) 过度识别:工具变量个数大于内生解释变量个数。此时不能用2SLS
在球形扰动项的情况下, 2SLS 是最有效率的工具变量法。
在异方差的情况下,存在更有效率的工具变量法,即“广义矩估计” (Generalized Method of Moments, GMM)。
GMM 是数理统计“矩估计” (Method of Moments, MM)的推广。GMM 之于 2SLS,正如 GLS 与 OLS 的关系。在恰好识别或同方差的情况下, GMM 等价于 2SLS
17.弱工具变量
- 如工具变量与内生变量仅微弱相关, 的方差将变得很大.为检验是否存在弱工具变量,可在第一阶段回归中,检验所有方程外的工具变量的系数是否联合为零。检验结果后,经验规则:此检验的F 统计量大于 10 (由于技术性原因,此处使用普通标准误),则拒绝“存在弱工具变量”的原假设。
- 存在弱工具变量的解决方法:a. 寻找更强的工具变量; b. 使用对弱工具变量更不敏感的“有限信息最大似然估计法”(LIML).在大样本下, LIML 与 2SLS 渐近等价。
18.对工具变量外生性的过度识别检验
工具变量的外生性是保证 2SLS 一致性的重要条件。如果“工具变量”与扰动项相关, 可导致严重的偏差。在恰好识别的情况下,无法检验工具变量的外生性。只能进行定性讨论或依赖于专家的意见。
可以通过Sargan 统计量,进行过度识别检验,其原假设是“所有工具变量均是外生的”
19.最大似然估计(MLE)原理
对于非线性模型,常使用最大似然估计法.

- MLE 的思想:给定样本取值后,该样本最可能来自参数为何值的总体。寻找,使得观测到样本数据的可能性最大,即最大化对数似然函数.
- 最大似然估记汇报的是准的值
- 使用不正确的分布函数所得到的最大似然估计量,称为“准最大似然估计” (Quasi MLE,简记 QMLE)或“伪最大似然估计” (Pseudo MLE)。如果 QMLE 为一致估计量,由于可能存在对分布函数的设定误差,应使用稳健标准误(robust standard errors),即相对于
模型设定稳健
的标准误;如果认为模型设定正确,就不必使用稳健标准误(使用稳健标准误也没错),因此首先应该解决参数估计的一致性问题。

20.二值选择模型的边际效应

取对数意味着百分比的变化,故可把其视为半 弹 性,即 增加一单位引起几率比的变化百分比。
21.stata常用命令
见命令卡片
参考资料
陈强(编著),《计量经济学及Stata应用》,第 1 版. 高等教育出版社, 2015年7月, 349页.