导读
合意城市
“12345”热线是市民对城市问题的直接反映渠道,其数据刻画了生动的城市问题图景。分析可知常见城市问题的类型及其关联,更可发现各类问题的时空分布特征和深层根源。这些知识可以帮助我们预测未来的城市问题,从而快速响应,甚至未雨绸缪地防患于未然。
01
引言
在上一篇推送中,我们提到城市问题并不是随机出现的。确实,城市问题的类型、时间和空间分布都呈现出鲜明的特征。倘若能正确认识到其中规律,则对城市问题的有效治理大有裨益。在本次推送中,我们利用东部两个大城市的“12345”数据,借助自然语言处理、地理编码、空间分析以及多元回归等方法, 探讨城市问题的时空格局和过程, 分析城市问题的发生机制,从而探索数据驱动的城市治理优化路径。
图1:数据分析的技术流程
02
城市问题的类别构成
采用文本挖掘技术提取热线数据中蕴含的信息。首先,将原始网页表单内容整理为结构化数据,通过分词、停词处理等转换为文档词条矩阵;其次,提取热线数据的标题和内容中的位置信息,计算高频词之间的相关系数矩阵,进而根据高频词之间的相关性强弱划分城市问题类型。
从高频词分布上可以看出,咨询、投诉、扰民等问题较多,小区、工地等则是被提及最多的场所。总体上,城市问题发生数量前5类依次为噪音、建设施工、通信与网络、城市用水和停车,而高频与低频问题的发生频次差别巨大。事实上,城市问题的类型分布大抵是指数甚至幂律的——非常偏态且长尾的分布。这种分布形式印证了上一篇推送中所提到的城市政府的问题处理职能合理划分的必要性。因为各类问题的数量极不均衡,看似公平的分类负责将必然导致部分“倒霉”的部门疲于奔命,而另外一些部门无事可做的局面。
同时,图示的问题网络揭示了各类问题间的关联,如噪音与建设施工问题联系紧密。这种复杂网络结构有着深刻的理论意味,我们将在今后的推送中探讨。
线段表示联系强度,越粗表示词语之间的相关性越强,颜色越相近表示关键词所属的语义类群关联越紧密
图2:高频词相关性网络
表1:热线记录中的主要城市问题及其频次
03
城市问题的时间分布
热线记录数量呈以一周为周期的波动,周末下降,周中上升;除国庆等三个假期外,每周的数量变化趋势基本相近,周末记录数量普遍少于周中;早8点到晚24点是主要时段,两个峰值分别为9-11点、15-17点。
图3:热线记录数量的时间变化
从热点问题来看,不同城市问题在时间上有不同的发生模式。逐小时而言,可分为白天发生较多和夜晚发生较多两种类型。
图4:5类热线问题按小时统计的数量分布
04
城市问题的空间格局
通过地理编码,可以对城市问题进行精确落位。从结果可知,问题记录主要集中在城区,沿路网分布。海湾、河滨等区域则记录数最多。但不同类型问题的空间分布模式亦有不小的差异。
深入分析数据可知,城市问题的空间和时间分布,与类型分布类似,均呈偏态不一的长尾分布。总结来说,这意味着绝大多数类型的城市问题倾向于分布在极小一部分的城市空间和相当窄的时段内。这一事实的复杂网络意涵我们留待以后讨论,但它本身暗示了发现某种规律的可能性。
图5:含位置信息的热线记录空间分布
图6:5类热点问题中具有位置信息热线记录空间分布
05
城市问题的发生机制
我们不由得猜测,集中分布的城市问题是否与城市的某种本质的结构、功能特征密切相关。地理学理论为这种相关性提供了丰富的潜在猜想,我们仅需验证即可。简单的统计分析发现,城市问题的发生与道路网密度相关性较弱,与POI密度相关性较强。从5类热点问题的回归结果来看,与POI密度的相关性强弱为:停车>噪音>城市用水>通信网络>建设施工;具体而言,城市问题与城市功能中的公共设施、交通设施和科教文化POI密度显著正相关,与风景名胜、体育休闲和政府职能POI密度显著负相关。
表2:各类热点问题与POI 类型的回归结果
06
城市问题的预警与预测
在细粒度网格化的城市空间中,以城市基础和运行数据为自变量,以问题分布频数为预测变量,采用改进的Logistic 回归模型、泊松回归模型或机器学习模型预测城市问题的发生风险。测试数据集上的实验验证了这种预测的有效性。预测给出了城市问题的多发区域,城市治理和优化的重点也应放在这些区域。
图7:对另一个城市几类热点问题的时空预测
07
结语
研究结果验证了'12345'市民服务热线在挖掘城市问题方面的有效性,指出城市问题的类型、时间和空间分布均有规律可循,其发生机制可被认识,这种认识可助力于城市问题的预警乃至预测。虽然初步模型的效力仍有限,但通过各类城市数据的积累、融合与分析,该途径可进一步推动城市问题解决、精细化治理和智慧城市建设。
撰稿:许立言 彭 晓
编辑:李 复 李东航
审核:李 复 代嘉逸
参考文献:
彭晓,梁艳,许立言,李迪华.基于“12345”市民服务热线的城市公共管理问题挖掘与治理优化途径[J].北京大学学报(自然科学版),2020,56(04):721-731.DOI:10.13209/j.0479-8023.2020.041.
该研究入选2021年度“中国精品科技期刊顶尖学术论文·领跑者5000”;基于本研究延伸开发的“12345”城市问题智能平台项目获得第二届全国高校数据驱动创新研究大赛特等奖、2020年“互联网+”竞赛北京市二等奖、“挑战杯”竞赛北京市一等奖。
联系客服