RStata 免费分享｜2000～2014 年工企和海关匹配数据

清洗工企数据库里面的企业名称、邮政编码和固定电话变量（等下要用这三个变量进行匹配）；
清洗海关数据库里面的企业名称、邮编和电话变量；
在工企数据库里面生成一个 ID 变量用以在匹配过程中识别每个观测值，然后只保留企业名称、邮政编码和固定电话、年份、ID 几个变量（这样可以避免因为数据过大导致匹配过程过慢）；
对海关数据库进行汇总（例如只需要每个公司每年的进出口额的话）；
匹配海关和工企数据然后再根据 ID 变量把工企数据库的其它变量也合并进来。

关于这五个步骤的代码实现，可以学习我们之前推出的 Stata 课程：「如何匹配海关和工企数据？」：

和上次一样，这次分享的数据也包含下面两种版本的：

先把海关数据汇总成每个公司的进出口额数据，然后和工企数据匹配的结果数据（下面称为汇总版本，其观测值是一个个的公司）；
直接把海关数据和工企数据进行匹配（下面称为完整版本，其观测值是一条条的商品）。

两个版本的结果数据使用的匹配方法是一样的，但是由于细微的差异，结果也有细微的差异，下表展示的是匹配效果。工企数据库中的工企数量 列展示的是匹配使用的工企数据库的每年样本数；汇总版本涉及的工企数量 列展示的是汇总版本匹配结果中涉及的工企数量，最后一列是匹配率（汇总版本涉及的工企数量 / 工企数据库中的工企数量）：

年份	工企数据库中的工企数量	汇总版本涉及的工企数量	匹配率
2000	162872	22310	13.7%
2001	171254	26446	15.4%
2002	181542	29943	16.5%
2003	196206	34096	17.4%
2004	279011	52966	19.0%
2005	270023	53475	19.8%
2006	301930	61467	20.4%
2007	336732	89237	26.5%
2008	412212	73364	17.8%
2009	366130	64562	17.6%
2010	442539	77420	17.5%
2011	302593	59789	19.8%
2012	324604	79824	24.6%
2013	344875	83893	24.3%
2014	309138	60068	19.4%

下图会更直观：

为了方便大家自行匹配，我们也给大家提供一份整理完好的海关数据（dta 格式），之后也会免费分享，大家可以耐心等待。

另外由于汇总版本的数据量较小，所以我们已经帮大家整理成了面板数据（除了匹配操作，没有对工企数据库的其它变量进行处理，大家需要根据自己的需要处理）。由于 2014 年的工企数据和 1998～2013 年的来源不同（变量命名也不是很相同），所以就没有合并到一起，大家可以根据需要自行选择是否使用以及如何使用 2014 年的。

其中 2000～2013 年的面板数据直接使用 xtset group year 即可设置面板数据。

为了更好的确认匹配数据的可靠性，我们计算了每年平均各个公司的进口额和出口额，如下图所示：

感觉连续性还不错！

另外这两份数据都非常大（总共大概是 370+ GB，另外海关数据是 180+ GB），已经拆分成了逐年的数据，可以直接使用 append 进行合并（Stata），数据格式是也是仅提供供 Stata 读取的 dta 格式。

下面再展示下部分的数据预览：

2007 年工企与海关匹配完整版

2006 年工企与海关匹配汇总版

获取数据

整理不易，感谢大家帮忙分享

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。