虚拟变量概述

计量经济学研究中常用虚拟变量来反映定性因素的变化,如季节变化、政策变化、宏观环境变化等。我之前对此有过简单的认识,认为这是一个非常简单直观的变量设置。直到最近写的论文模型部分使用了虚拟变量,深入了解后才发现很多问题。在充分理解了“虚变量陷阱”之后,也是一个温故而知新的问题。

虚拟变量的作用简单来说就是“数据分类器”,用变量和变量的线性组合来表示一个特定的状态。

最容易理解的就是“虚拟变量陷阱”。首先是定义:如果模型中每个定性因子有m个互斥类型,且模型有截距项,则模型中只能引入m-1个哑变量,否则会出现完全多重* * *线性,称为哑变量回归。

我们可以从两个角度来理解这个问题:

1.理性视角:重点讲为什么会有“多重* * *线性”,用线性代数的知识很容易理解。在NPC经济论坛上贴出一位网友的回答:

还有一点需要注意:如果模型包含多个定性变量,每个定性变量又有多个分类,那么引入模型的虚拟变量会消耗很多自由度,所以要权衡进入模型的虚拟变量的数量,避免超过样本观测值的数量。但是,虚拟变量的数量超过样本观测值的数量应该不容易。。。0.0

暂时总结这么多,以后再补充一些继续学习的地方~