Gelman A., and Vehtari A. What are the most important statistical ideas of the past 50 years? [J]. Journal of the American Statistical Association, 2021, ahead-of-print, 1-11.作者回顾了过去半个世纪最重要的统计思想,并将其归类为:反事实因果推断(Counterfactual causal inference),Bootstrap和基于模拟的推断(Bootstrapping and simulation-based inference),过参数化模型和正则化(Overparameterized models and regularization)、贝叶斯多级模型(Bayesian multilevel models)、通用计算算法(Generic computation algorithms)、自适应决策分析(Adaptive decision analysis)、鲁棒推断(Robust inference)和探索性数据分析(Exploratory data analysis)等。作者还讨论了在这些领域中的关键贡献、与现代计算和大数据(modern computing and big data)的关系以及在未来几十年这些领域可能会如何发展和拓展。这篇文章也是为了激发关于统计学和数据科学研究的思考和讨论。
1.3 过参数化模型和正则化(Overparameterized models and regularization)
自20世纪70年代以来,统计的一个主要变化,是使用一些正则化程序来拟合具有大量参数的模型(有时参数比数据多),以获得稳定的估计和良好的预测。这是为了保证非参数或高度参数化方法的灵活性的同时,避免过度拟合问题。早期高度参数化模型包括神经网络、支持向量机等。而后来的模型都有较大的样本量,且参数并不总有直接的解释,而是作为更大的预测系统的一部分。随着统计方法的激增及应用在更大数据集上,科研人员也发展了更多综合的方法,这些方法的初衷是预测而非建模(prediction rather than modeling)。
鲁棒性的思想是现代统计学的核心,这意味着即使实际情况违反模型假设,我们仍然可以继续使用模型。例如,经济学和其他社会科学的应用研究人员广泛使用鲁棒标准误差。然而,鲁棒性的研究不在于开发特定方法,而是在一个数据生成过程不属于拟合概率模型的范畴下评估统计建模,Bernardo and Smith (1994) 称这种范畴为the M-open world。对鲁棒性的关注与现代统计模型参数密集化有关,使得评估模型时需要考虑其是否能够泛化,统计方法对模型假定的鲁棒性与模型诊断、模型改进的工作流之间存在很强的联系。