一、引言
20世纪80年代以来, 应用微观计量研究经历了一场可信性革命, 变得十分强调研究设计 (research design) 。这种转变导致工具变量法 (Instrumental Variable, IV) 、双重差分法 (Difference-in-Difference, DID) 和断点回归设计 (Regression Discontinuity Design, RDD) 成为应用微观计量研究中运用最广泛的方法[1]。与工具变量法和双重差分法相比, RDD更接近于随机试验, 因而从理论上讲是更好的因果识别方法[2]。RDD虽然早在1960年就已被Thistlethwaite和Campbell(1960) [3]提出, 但20世纪90年代末之后才被国外大量应用于经济学研究。尽管运用RDD要求在断点附近有较多观测值, 对数据要求很高, 但过去几年的相关研究并不少。2011-2017年, 五大英文顶级经济学期刊1发表的运用RDD做的经验研究论文 (下文简称“五大RDD论文”) 共39篇2, 各年分别为6篇、3篇、3篇、11篇、5篇、7篇和4篇 (如图1所示) , 表明RDD在国际上已经成为一种主流的经验研究方法。根据在中国知网的检索, 中文期刊发表的头两篇运用RDD做的经验研究论文是“退休会影响健康吗?”[4]和“城市群落的崛起、经济绩效与区域收入差距”[5];2011-2017年间, 中文CSSCI期刊共发表运用RDD做的经验研究论文46篇, 各年分别为1篇、1篇、0篇、5篇、8篇、8篇和23篇 (如图1所示) 。我们预计, 大数据时代的来临会极大地打破运用RDD面临的数据限制3, 运用RDD的相关研究会越来越多。
Imbens和Lemieux (2008) [6]、van der Klaauw (2008) [7]、Lee和Lemieux(2010) [2]、Skovron和Titiunik (2017) [8]、Hausman和Repson(2018) [9]专门综述了RDD的理论和应用研究。余静文和王春超 (2011) [10]简要介绍了断点回归设计的发展历史、理论、实施步骤和应用情况。但是, 由于RDD这种方法的理论研究仍很活跃, 运用RDD涉及参数估计和非参数估计的选择、参数估计中多项式次数的选择和非参数估计最优带宽的确定等众多技术细节, 文献中在RDD的具体用法上存在很大差别, 特别是中文文献运用RDD的规范程度明显滞后于外文文献, 有时还存在误用。因此, 十分有必要归纳RDD应用的新进展, 为国内学者规范运用RDD提供借鉴。由于本文强调被五大RDD论文运用过的新进展, 侧重于应用, 我们不会涉及多配置变量RDD (RD designswith assignment variables) [11]、分位数RDD [12]、拐点回归设计 (regression kink designs) [13]、多断点RDD (RD designs withmultiple cutoffs) [14]、远离断点处的处理效应的识别方法 (methods for extrapolation awayfrom the cutoff) [15][16]、离散型配置变量RDD[17]等五大RDD论文中未运用的新进展。
本文综述Lee和Lemieux(2010) [2]以来RDD的新进展。选择以Lee和Lemieux(2010) [2]为基点的理由如下:首先, 与Imbens和Lemieux(2008) [6]、van der Klaauw (2008) [7]相比, Lee和Lemieux (2010) [2]的时间要晚。其次, 与Skovron和Titiunik (2017) [8]综述政治学中断点回归设计的应用情况、Hausman和Repson(2018) [9]综述时间作为配置变量 (也叫驱动变量) 的RDD应用情况相比, Lee和Lemieux (2010) [2]综述的是经济学中的应用情况, 包括各种类型的配置变量, 更综合、更全面。Lee和Lemieux(2010) [2]提出了运用RDD做经验研究的规范, 算是一个共识。但是, 通过归纳2011-2017年的五大RDD论文, 我们发现:一方面很多论文都没有遵守此规范。另一方面涌现出了很多被广泛应用的新进展, 譬如非参数估计中确定带宽的IK法5[18]和CCT法[19]、参数估计中只应使用配置变量的低次项和甜甜圈RDD (Donut hole RDD) 等6。通过归纳2011-2017年CSSCI期刊发表的RDD经验研究论文, 我们发现, 国内总体上了解运用RDD的规范, 但仍然存在不少问题, 譬如不做适用性检验、不重视描述统计图、不交代清楚非参数估计的关键细节等。
题就想尝试着去清除在大家脑子里面的几个误解。
二、运用断点回归设计的规范和新进展
(一) 运用断点回归设计做研究的既定规范
Lee和Lemieux(2010) [2]提出了运用RDD做经验研究的规范, 概述如下:
1.利用配置变量检验RDD的适用性。
RDD的前提条件是个体不能精准操控 (preciselymanipulate) 配置变量。此条件可利用配置变量来检验。首先, 选定一定数量的箱体画出配置变量的历史直方图。如果频数 (frequencies) 在邻近断点处的两个箱体间存在跳跃式变化, 则很可能意味着前提条件不成立。其次, 做配置变量的McCrary检验[20]。此检验的stata命令DCdensity是外部命令, 可在下述网址下载后安装:https://eml.berkeley.edu/~jmccrary/DCdensity/。
2.利用前定变量检验RDD的适用性。
首先, 选定一定数量的箱体, 求前定变量在每个箱体内的均值, 画出均值对箱体中间点的散点图;接着再画出使用多项式模型对前定变量做出的拟合曲线, 其中多项式一般是4次多项式7。如果前定变量的均值在断点处存在跳跃, 则意味着前提条件很可能不成立。其次, 用前定变量对常数项、处理变量、配置变量的多项式、处理变量和配置变量多项式的交互项做回归。如果前定变量比较多, 那么随机因素也可能导致某个前定变量存在显著的断点。因此, 有必要把众多检验合并为一个检验所有前定变量都不存在断点的统计量。这时, 应该用似不相关回归 (Seemingly Unrelated Regression, SUR) 。
3.画结果变量的图。
选定一定数量的箱体, 求结果变量在每个箱体内的均值, 画出均值对箱体中间点的散点图;接着再画出使用多项式模型对结果变量做出的拟合曲线, 其中多项式一般是4次多项式。一定要求了局部平均值后再画图。如果直接画原始数据的散点图, 那么噪音太大, 看不出潜在函数的形状。如果结果变量的均值在断点处存在跳跃, 则意味着处理变量有影响。用图来显示结果变量和配置变量之间的关系, 已经成为运用RDD的标准作法。Lee和Lemieux(2010) [2]指出, 画图在RDD经验文章中是如此重要, 以致没有图的文章会让人自然而然地怀疑图形证据对文章不利。
4.全样本参数估计。
使用全样本数据进行参数估计。以精确断点回归为例, 估计模型如下:
其中y、x、treatment和W分别为结果变量、配置变量、处理变量 (当x≥c时, treatment=1, 否则treatment=0) 和前定变量。α、ρ、β和γ为待估计的参数, ε为随机扰动项。ρ显著不为0, 表明处理对结果变量有影响。
参数估计的要点是确定模型 (1) 中的多项式次数K。一般从一次尝试到八九次8, 然后挑选赤池信息准则 (AIC) 取值最小的模型。另外一个比赤池信息准则更好的方法是, 在多项式模型的自变量中先加入表示箱体的虚拟变量, 然后不断加入配置变量的多次项, 只到下述原假设成立:所有箱体虚拟变量的系数均等于零。
5.子样本非参数估计。
非参数估计就是对最优带宽内的子样本做加权局部线性回归。非参数估计的要点是确定最优带宽。确定最优带宽的方法有两种9:拇指规则法 (rule of thumb, ROT) 和交叉验证法 (cross validationprocedure, CV) 。加权可用矩形核密度函数、三角形核密度函数等。其中, 使用矩形核密度函数加权的非参数估计, 等于是基于子样本的参数估计。使用三角形核密度函数与使用矩形核密度函数的唯一区别是, 前者给临近断点的观测值更大的权重。但是, 要想给临近断点的观测值更大的权重, 更透明的做法是在更小的带宽内使用矩形核密度函数。使用矩形核密度函数得到的结果也更易解释。值得庆幸的是, 实践中不同核密度函数得到的结果一般是一致的。具体研究中, 参数估计和非参数估计都要做, 在两种方法下都稳定的结果更可信。
(二) 运用断点回归设计做研究的新进展
Lee和Lemieux(2010) [2]之后的7年里 (2011-2017年) , 学者在运用RDD时出现了不少Lee和Lemieux (2010) [2]未提及的新做法, 譬如非参数估计中确定带宽的IK法和CCT法、甜甜圈RDD (Donut holeRDD) 、参数估计中只应使用配置变量的低次项和利用配置变量做适用性检验的Frandsen法[21]等。此处归纳比较重要的三种新做法如下:
1. 非参数估计中最优带宽的确定。
Lee和Lemieux(2010) [2]介绍了ROT和CV两种确定最优带宽的方法。但是, 2011-2017年间五大RDD论文使用得多的是IK法和CCT法。stata中用非参数法做断点回归估计时的命令rd, 就是用IK法确定最优带宽, 而命令rdrobust提供CV、IK、CCT三种不同的最优带宽计算方法选项。Imbens和Kalyanaraman(2012) [18]指出, ROT和CV两种方法对于在整个支撑集 (support set) 里估计回归方程而言是最优的, 但RDD只关心断点处的回归方程估计, 故ROT和CV对于RDD而言不是最优的, 而IK法对于RDD而言是渐近最优的;另外, CV法需要研究人员自己设定一个调节参数 (tuning parameter), 而IK法是完全数据驱动的。Imbens和Kalyanaraman(2012) [18]进一步指出, 尽管IK法具备这些优点, 但研究人员不能只看这一个最优带宽下的估计结果, 而应把这一带宽作为基准、检验结果对不同带宽的稳健性。Calonico、Cattaneo和Titiunik(2014) [19]认为, ROT、CV和IK这些方法得出的最优带宽过大, 导致相应的置信区间有偏, 会过度拒绝“没有处理效应”的原假设, 结果把“没有”处理效应说成“有”。CCT法校正了过大带宽带来的偏误。
2. 甜甜圈RDD (Donut holeRDD) 。
甜甜圈RDD用来克服数据堆积 (heaping) 问题对估计结果的影响10。数据堆积指取配置变量某些值的观测值过多的现象。导致这一现象的原因包括受访者自报告某些信息时倾向于向某个数值近似, 测量标尺的精读有限等。譬如, 调查数据中受访者自报告的身高在160cm、170cm和180cm等取值上堆积, 新生儿体重会在3000克、3500克和4000克等取值上堆积。数据操纵现象源自经济个体的逐利动机, 只出现在断点处。然而, 数据堆积不是源自经济个体的逐利动机, 且可能出现在除断点之外的其他地方。如果结果变量受配置变量的堆积现象影响, 那么RDD估计量可能是有偏的[22]。此时, 可以去掉断点附近的某些观测值再做RDD估计。由于去掉断点附近的某些观测值后的数据就像一个“甜甜圈”, 故称作“甜甜圈RDD”。至于去掉断点附近多少观测值为适, 文献中尚未达成共识。
3. 全样本参数估计的缺点。
根据Lee和Lemieux(2010) [2], 配置变量多项式要尝试到八九次。但是, Gelman和Imbens (2014) [23]认为, 不能尝试配置变量多项式的高次项, 只能使用局部一次或局部二次多项式, 理由有三点:第一, 断点回归设计的估计量可以写成处理组结果的加权平均值和控制组结果的加权平均值之差, 其中加权权重是配置变量的函数。运用全域高阶多项式方法时, 当配置变量取值较大时, 使用不同次数多项式得到的权重差别巨大。然而, 局部线性回归方法给临近断点处的观测值赋予要大的权重, 理论上讲更合理。第二, 处理效应的估计值对全域高阶多项式的次数十分敏感。使用不同次数多项式得到的估计值差别很大。第三, 在本身不存在断点的情况下, 全域多项式方法得到错误结果 (认为有断点) 的概率高于实际水平, 而局部一次 (或二次) 多项式方法得到错误结果的概率和实际水平差不多。
三、断点回归设计的国外应用情况
2011-2017年, 五大英文顶级经济学期刊共发表39篇运用RDD做的经验研究论文, 涉及公共经济学、新政治经济学、劳动经济学和教育经济学等众多领域。39篇论文中有33篇使用行政管理数据11, 由此可见开放行政管理数据对于RDD应用的重要性。第二部分提到的三个新进展的应用情况如下:首先, 使用非参数估计的26篇论文中, 用IK法、CCT法确定最优带宽的分别为13篇、6篇, 表明这两种最优带宽确定方法已被学界接受;其次, 在甜甜圈RDD被提出的2011年之后, 33篇论文中有5篇用了此方法;最后, Dell (2015) [24]和Pinotti (2017) [25]引用了Gelman和Imbens (2014) [23], 但还使用超过二次的配置变量多项式做稳健性检验。
这些文献对RDD的运用与Lee和Lemieux(2010) [2]提出的规范大体一致, 譬如20篇 (占51.28%) 论文引用了Lee和Lemieux(2010) [2], 33篇 (占84.62%) 做了适用性检验。与Lee和Lemieux(2010) [2]提出的规范不一致的情况, 包括如下几点:
第一, Lee和Lemieux(2010) [2]建议参数估计和非参数估计均要做12, 但这样做的只有16篇。只使用参数估计、只使用非参数估计的分别为13篇和10篇。在16篇同时使用了两种估计方法的文章中, 将两种方法视为同等重要的有4篇, 参数估计仅只是做稳健性检验、非参数仅只是做稳健性检验的分别为4篇和8篇。因此, 总体来看, 文献中偏重于参数估计。值得一提的是, ECMA上的4篇文章都只用非参数估计, 而QJE上的5篇文章, 除Malamud和Pop-Eleches(2011) [26]同时使用了两种方法外, 其余4篇都只用参数估计。ECMA由国际计量经济学会主办, QJE由哈佛大学经济系主办。二者在RDD应用上的差异可能体现了两个主办方不同的学术风格。
第二, Lee和Lemieux(2010) [2]建议用前定变量做适用性检验时, 应该做似不相关检验, 但没有一篇文献这样做。
第三, Lee和Lemieux(2010) [2]建议画描述统计图中的拟合曲线时, 用配置变量的4次多项式, 但仅有3篇论文用了4次多项式。39篇论文中, 仅有Chetty et al (2014) [27]这一篇没在描述统计图中画上对散点的拟合曲线。在画了的38篇中, 未说明用的什么方法、使用局部线性回归 (local linearregression) 、使用局部线性平滑 (local linearsmoother) 、移动平均法 (running-meansmoothing) 和多项式方法的分别为3篇、3篇、3篇、1篇和28篇, 可见多项式方法是主流方法。在画拟合曲线所用方法上的差异具有明显的期刊特色:使用局部线性回归法的3篇文章有1篇来自QJE、2篇来自JPE, 使用局部线性平滑法的3篇文章均来自ECMA, 使用移动平均法的一篇文章来自RES, AER上的文章都使用多项式方法。在使用多项式方法的28篇论文中, 使用1次、2次、3次、4次、8次及同时使用1次和2次多项式的分别为8篇、11篇、4篇、3篇、1篇和1篇, 使用1次多项式和2次多项式的明显居多。值得一提的是, Meng (2017) [28]在同一张图中同时画了1次多项式和2次多项式的拟合曲线。
第四, Lee和Lemieux(2010) [2]建议参数估计时的配置变量多项式要尝试到八九次, 然后挑选赤池信息准则 (AIC) 取值最小的模型。但是, 使用过参数估计的29篇论文中, 仅有Clark和Martorell(2014) [29]和Deshpande (2016)[30]根据AIC来挑选模型。在明确说明尝试过的多项式次数的论文中, 仅有Auffhammer和Kellogg(2011) [31]、Pinotti (2017) [25]尝试过超过4次的多项式, 绝大多数只尝试到4次多项式。
第五, Lee和Lemieux(2010) [2]建议非参数估计时用矩形核密度函数。但是, 在使用非参数估计且说明了所用核密度函数的16篇文献中, 使用矩形核密度函数的为7篇, 而使用三角形核密度函数的有8篇, 还有一篇使用帐篷型核密度函数 (tent-shaped edgekernel) 。
综上所述, Lee和Lemieux(2010) [2]之后, 运用RDD出现了IK和CCT两种最优带宽确定方法以及甜甜圈RDD两个新操作环节。Gelman和Imbens (2014) [23]不该使用超过两次的多项式的建议, 尚未被学界普遍接受。同时, 学界在Lee和Lemieux(2010) [2]涉及的RDD运用环节上未达成共识。Lee和Lemieux(2010) [2]发表在权威经济学期刊《Journal of Economic Literature》上, 其两位作者均是国际上知名的经济学者。他们提出的RDD应用规范未被学界完全接受, 并不因为他们的观点不准确、不权威, 而是因为RDD的理论研究仍很活跃, 故应用上达成的共识不多;因为RDD应用涉及众多技术环节, 故更难达成共识。作为一个对比, IV和DID的理论研究相对成熟、应用涉及的技术环节单一13, 学者运用这两种方法做研究时的动作比较一致。
四、断点回归设计的国内应用情况
2011-2017年间, CSSCI期刊共发表RDD经验研究论文46篇, 涉及公共经济学、环境经济学、财政学等众多领域, 其中使用行政管理数据的仅有王骏和孙志军 (2015) [32]一篇。总体而言, 对于两篇权威的RDD综述文章——Imbens和Lemieux(2008) [6]、Lee和Lemieux(2010) [2], 至少引用过其中一篇的中文论文有32篇, 占69.57%, 这意味着国内学者总体上了解运用RDD涉及的众多技术环节。RDD应用的新进展也在被国内文献吸收。首先, 确定最优带宽的IK法已被广泛应用, CCT法也开始被使用。使用非参数估计且说明了带宽确定方法的24篇文章中, 使用了IK法、CCT法的分别有10篇、3篇。其次, 李宏彬等 (2014) [33]、张川川等 (2015) [34]和张明 (2017) [35]都使用了甜甜圈RDD。最后, 马光荣等 (2016) [36]、何文剑 (2016) [37]、李江一和李涵 (2017) [38]以及王家庭等 (2017) [39]共4篇文章引用了Gelman和Imbens (2014) [22]。
与国外文献一样, 国内文献运用RDD也存在很多与Lee和Lemieux(2010) [2]规范不一致的情况, 具体如下:首先, 同时使用参数估计和非参数估计的只有18篇 (占39.13%) 。只使用参数估计、只使用非参数估计的分别为17篇和11篇。在18篇同时使用了两种估计方法的文章中, 将两种方法视为同等重要的有3篇, 参数估计仅只是做稳健性检验、非参数仅只是做稳健性检验的分别为2篇和13篇。因此, 总体来看, 国内文献与国外文献一样, 偏重于参数估计。其次, 用前定变量做适用性检验时, 仅有曹静等 (2014) [40]、王骏和孙志军 (2015) [32]使用了似不相关回归。再次, 使用了参数估计的35篇文章中, 只有杨小聪 (2017) [41]、张英和陈绍志 (2015) [42]、曹静等 (2014) [40]3篇文章尝试到配置变量八九次的多项式。最后, 在使用非参数估计且说明了所用核密度函数的11篇文章中, 只使用矩形核密度函数、同时使用矩形和三角形核密度函数以及只使用三角形核密度函数的分别为2篇、5篇和4篇。
由于运用RDD涉及众多技术环节, 国内对RDD的运用还存在不少问题, 主要表现在以下几个方面:首先, 5篇文章未做适用性检验, 2篇文章在适用性检验未通过时依然使用RDD。张明 (2017) [34]既没有用配置变量也没有用前定变量做适用性检验。陈强等 (2017) [43]、黄新飞和杨丹 (2017) [44]、高彦彦和王逸飞 (2017) [45]以及王旭光 (2017) [46]使用的配置变量不可能被操控, 无须检验, 但他们都没有检验前定变量的连续性。邹红和喻开志 (2015) [47]、邓婷鹤和何秀荣 (2016) [48]使用的配置变量“年龄”均在断点 (60岁) 处不连续, 但依然运用RDD。邹红和喻开志 (2015) [47]做回归分析时去掉了60岁断点上的样本, 但是出于男性实际停止工作的时间普遍是61岁这个考虑, 并没有从RDD适用性这个角度深化、细化研究内容, 譬如检验样本是否在50岁、60岁、70岁等年龄上存在堆积问题。其次, 对描述统计图的运用不规范。如前所述, 画图在RDD应用研究中十分必需。然而, 有11篇没有画描述统计图。根据Lee和Lemieux(2010) [2]和英文顶级期刊的实际, 画拟合曲线图以多项式方法居多。然而, 在画有描述统计图的35篇文章中, 15篇没有说明拟合曲线图所采用的方法, 14篇采用局部多项式方法, 6篇采用了平滑、多元回归等其他方法。未画描述统计图和未说明画拟合曲线所采用方法的文章合计达26篇 (占56.52%) , 表明国内学界对画图重要性的认识不够。最后, 使用非参数估计时的关键技术细节未说明。在29篇使用了非参数估计的文章中, 5篇没有报告带宽的确定方法, 18篇 (占62.07%) 未说明使用了哪个核密度函数。
五、总结和展望
RDD在断点附近的局部等价于一个随机试验, 这一特点使得其备受经验研究人员的青睐。在国外, RDD从20世纪90年代末期开始被大量应用于经济学研究。Lee和Lemieux(2010) [2]提出了运用RDD的必备技术环节, 相当于给出了RDD应用的规范。但是, 由于RDD的理论研究仍在不断深入, 至今尚未定型, Lee和Lemieux(2010) [2]之后应用RDD的文献出现了新的技术环节, 譬如新的最优带宽确定方法、甜甜圈RDD和参数估计中最高只能使用二次多项式等。国内运用RDD做研究始于2010年, 最近两年大幅增加。虽然国内熟悉Lee和Lemieux(2010) [2]提出的规范, 但运用RDD时存在不少问题, 譬如不做适用性检验、不重视描述统计图、不交代清楚非参数估计的关键细节等。为了使得研究结论更稳健, 基于五大英文顶级期刊发表的论文, 我们建议, 国内运用RDD时, 在完成Lee和Lemieux(2010) [2]提出的技术动作后, 需要增加如下动作:考虑到学术界在最优带宽确定方法上尚未达成共识[26][49], 非参数估计时应该同时尝试CV、IK和CCT三种方法;在配置变量存在堆积现象或被操纵的可能时, 使用甜甜圈RDD。尝试到四次多项式。
RDD从理论上讲是更好的因果识别方法, 但运用此方法要求在断点附近有较多观测值、对数据要求很高。可喜的是, 最近几年, 我国经济社会的数字化进程加速, 越来越多的经济活动开始数据化, 越来越多的中央政府部门和地方政府公开了行政管理数据, 为运用RDD做研究提供了契机。特别值得指出的是, 运用医疗卫生行业行政管理数据的研究已经成批量涌现。