断点回归设计和添加虚拟变量有什么区别?

主要区别如下:

RD应用于准实验实验,不同于自然随机实验中直接添加哑元和使用OLS估计的模型。

估算方法不同。RD通常采用局部线性回归的方法(即后期选取一定带宽内的样本而不是全部样本),本质上是对断点周围局部平均处理效果的一种估计。Imbens和Kalyanaraman(2009)提供了最佳带宽的估计,通常提供不同带宽的结果以显示结果的稳健性。有时,RD也采用核回归的非参数方法。

RD需要检验内生排序的问题,即假设如果个体事先知道分组规则,并能通过自己的努力完全控制分组变量,就会导致断点回归的失败。

如果在RD中加入协变量,则需要检查协变量的条件密度在断点处是否连续,即断点处的“跳转”不是由协变量的“跳转”产生的。

注:以上内容主要围绕分组变量的哑元(称为z)是否大于断点作为工具变量来处理变量(称为d,即主估计量)。Z与D明显相关,Z相当于断点附近的一个局部随机实验,所以只通过D影响变量Y,与扰动项无关,所以满足外部性。可以用z作为d和2SLS的工具变量进行估算。