关于这五个步骤的代码实现,可以学习我们之前推出的 Stata 课程:「如何匹配海关和工企数据?」:
和上次一样,这次分享的数据也包含下面两种版本的:
两个版本的结果数据使用的匹配方法是一样的,但是由于细微的差异,结果也有细微的差异,下表展示的是匹配效果。工企数据库中的工企数量
列展示的是匹配使用的工企数据库的每年样本数;汇总版本涉及的工企数量
列展示的是汇总版本匹配结果中涉及的工企数量,最后一列是匹配率(汇总版本涉及的工企数量 / 工企数据库中的工企数量):
年份 | 工企数据库中的工企数量 | 汇总版本涉及的工企数量 | 匹配率 |
---|---|---|---|
2000 | 162872 | 22310 | 13.7% |
2001 | 171254 | 26446 | 15.4% |
2002 | 181542 | 29943 | 16.5% |
2003 | 196206 | 34096 | 17.4% |
2004 | 279011 | 52966 | 19.0% |
2005 | 270023 | 53475 | 19.8% |
2006 | 301930 | 61467 | 20.4% |
2007 | 336732 | 89237 | 26.5% |
2008 | 412212 | 73364 | 17.8% |
2009 | 366130 | 64562 | 17.6% |
2010 | 442539 | 77420 | 17.5% |
2011 | 302593 | 59789 | 19.8% |
2012 | 324604 | 79824 | 24.6% |
2013 | 344875 | 83893 | 24.3% |
2014 | 309138 | 60068 | 19.4% |
下图会更直观:
为了方便大家自行匹配,我们也给大家提供一份整理完好的海关数据(dta 格式),之后也会免费分享,大家可以耐心等待。
另外由于汇总版本的数据量较小,所以我们已经帮大家整理成了面板数据(除了匹配操作,没有对工企数据库的其它变量进行处理,大家需要根据自己的需要处理)。由于 2014 年的工企数据和 1998~2013 年的来源不同(变量命名也不是很相同),所以就没有合并到一起,大家可以根据需要自行选择是否使用以及如何使用 2014 年的。
其中 2000~2013 年的面板数据直接使用 xtset group year
即可设置面板数据。
为了更好的确认匹配数据的可靠性,我们计算了每年平均各个公司的进口额和出口额,如下图所示:
感觉连续性还不错!
另外这两份数据都非常大(总共大概是 370+ GB,另外海关数据是 180+ GB),已经拆分成了逐年的数据,可以直接使用 append 进行合并(Stata),数据格式是也是仅提供供 Stata 读取的 dta 格式。
下面再展示下部分的数据预览:
整理不易,感谢大家帮忙分享
联系客服