打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
RStata 免费分享|2000~2014 年工企和海关匹配数据
  1. 清洗工企数据库里面的企业名称、邮政编码和固定电话变量(等下要用这三个变量进行匹配);
  2. 清洗海关数据库里面的企业名称、邮编和电话变量;
  3. 在工企数据库里面生成一个 ID 变量用以在匹配过程中识别每个观测值,然后只保留企业名称、邮政编码和固定电话、年份、ID 几个变量(这样可以避免因为数据过大导致匹配过程过慢);
  4. 对海关数据库进行汇总(例如只需要每个公司每年的进出口额的话);
  5. 匹配海关和工企数据然后再根据 ID 变量把工企数据库的其它变量也合并进来。

关于这五个步骤的代码实现,可以学习我们之前推出的 Stata 课程:「如何匹配海关和工企数据?」:

和上次一样,这次分享的数据也包含下面两种版本的:

  1. 先把海关数据汇总成每个公司的进出口额数据,然后和工企数据匹配的结果数据(下面称为汇总版本,其观测值是一个个的公司);
  2. 直接把海关数据和工企数据进行匹配(下面称为完整版本,其观测值是一条条的商品)。

两个版本的结果数据使用的匹配方法是一样的,但是由于细微的差异,结果也有细微的差异,下表展示的是匹配效果。工企数据库中的工企数量 列展示的是匹配使用的工企数据库的每年样本数;汇总版本涉及的工企数量 列展示的是汇总版本匹配结果中涉及的工企数量,最后一列是匹配率(汇总版本涉及的工企数量 / 工企数据库中的工企数量):

年份工企数据库中的工企数量汇总版本涉及的工企数量匹配率
20001628722231013.7%
20011712542644615.4%
20021815422994316.5%
20031962063409617.4%
20042790115296619.0%
20052700235347519.8%
20063019306146720.4%
20073367328923726.5%
20084122127336417.8%
20093661306456217.6%
20104425397742017.5%
20113025935978919.8%
20123246047982424.6%
20133448758389324.3%
20143091386006819.4%

下图会更直观:

为了方便大家自行匹配,我们也给大家提供一份整理完好的海关数据(dta 格式),之后也会免费分享,大家可以耐心等待。

另外由于汇总版本的数据量较小,所以我们已经帮大家整理成了面板数据(除了匹配操作,没有对工企数据库的其它变量进行处理,大家需要根据自己的需要处理)。由于 2014 年的工企数据和 1998~2013 年的来源不同(变量命名也不是很相同),所以就没有合并到一起,大家可以根据需要自行选择是否使用以及如何使用 2014 年的。

其中 2000~2013 年的面板数据直接使用 xtset group year 即可设置面板数据。

为了更好的确认匹配数据的可靠性,我们计算了每年平均各个公司的进口额和出口额,如下图所示:

感觉连续性还不错!

另外这两份数据都非常大(总共大概是 370+ GB,另外海关数据是 180+ GB),已经拆分成了逐年的数据,可以直接使用 append 进行合并(Stata),数据格式是也是仅提供供 Stata 读取的 dta 格式。

下面再展示下部分的数据预览:

2007 年工企与海关匹配完整版
2006 年工企与海关匹配汇总版

获取数据

整理不易,感谢大家帮忙分享

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
海关数据库整理 出口产品质量测算 工业企业数据库匹配
matchit——解锁文本相似度的钥匙
中国健康与养老追踪调查(CHARLS)完整数据及文档 2018已更新
实操:通过SEER数据库发一篇SCI系列(五)
如何注册和获取CFPS数据?——史上最最详尽的官方入门指南不容错过!
(三)Stata基本操作汇总
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服