如何控制行业和年份变量
一般是指在回归中加入年度变量和行业变量的多元回归。
多元回归分析中的x变量一般分为两种:解释变量和控制变量。解释变量往往是作者希望关注的变量,而控制变量也可以影响Y变量和X变量,但不是作者需要研究的变量,但为了研究的严谨性也必须考虑。
举个例子,假设我的Y变量是“工资”,我的研究希望探究“性别变量”是如何影响“工资”的,但这里有两个问题:第一,工资是随时间变化的,过去的工资因为经济发展低而更高,男女参加工作的比例也是随时间变化的,现在女性工作更多;第二,工资根据行业不同,男女的行业分布往往不同。所以,如果不控制“年份”和“行业”这两个变量,很多结论都是不可能的。比如我不控制行业和年份,得出“女性工资低,女性受歧视”的结论。有人可能会反驳说,女性的行业往往注重稳定,工资低,女性更喜欢稳定,所以并不是工资上存在女性歧视,而是行业不同。所以为了真正发现女性是否被歧视,我需要控制这个行业。比如教师行业男女工资是否有统计上的差距?金融行业?……
那么如何控制行业呢?如果只有一个行业是好的,但是有很多行业,我们一个一个的换数据库做单变量回归是非常低效的。此时,我们使用多元回归的一个特征。每个系数的含义是:“控制加入多元回归的其他解释变量不变,这个解释变量变化1个单位,那么Y的系数变化1个单位”。所以我们会直接考虑行业变量(行业变量的处理往往是n行)。