打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Tiger:无坚不摧的树算法

【树算法是数据科学家的必修利器之一,是商业数据挖掘的必备工具】

注:原作者为Dan Kellettt(英国Captial One数据科学部总监)。

一、什么是树算法?

树算法(Tree method)在数据科学中普遍用来识别数据集中的模式并建立预测模型。树算法这个术语包括了一系列难度迥异的技术,但这里只会涉及到我平素青睐的几种树算法。为了便于说明问题,我们先假设手中有一个人口普查数据集,包含了年龄、教育、工作状态等等。给定这些信息,我们想看看能否预测一个人年收入超过5万美金。那么,树算法会怎么处理这个问题呢?

二、决策树(Decision Trees)

一个基本的决策树模型很容易理解。该模型试着去发现一个最优化变量,它分割开高收入和低收入且存在一个优化点分割出了高低区间。在下面的例子中,决策树模型发现,年龄在探测收入超过5万美金的人群时是最重要的优化变量,因此就生成了决策树的第一个分支(上述人扣普查数据集里,年龄小于35岁的人年收入超过5万美金的概率相对较小)。

你还能继续分割你的数据集,让决策树变得越来越纵深,但这里会有一个关键的折衷。决策树越深,对数据集的特征分析就越透彻,但同时模型本身就越逼近过拟合(over-fit)。这意味着决策树对其所训练数据集的特征提取能力越强,预测新数据的能力就越弱。为了达到折衷,我们通常在部分数据集上建造决策树,在剩下那部分数据上测试该决策树的性能。

基本决策树对于理解高阶数据的基本特征是有用的,但是问题是,当决策树越来越大时,你的样本就会越来越倾斜(sliced)和碎块化(diced),这样会导致最低维度的样本数据体积非常小。这就限制了这项技术建造更加复杂的模型的能力。为打破局限,需要引入新方法来聚集许多颗树,也叫集成(ensemble method)。在Capital One我们用随机森林法(Random Forests)和梯度增加机(Gradient Boosted Machine)来实现集成。

三、随机森林

通过随机抽样和更换数据中的行(Bagging),随机森林法建造了多株树。此法和Bagging法有些不同,差异在于输入变量和行都会被随机抽样。 抽样和建树过程多次发生,来自每棵树的预测会被合成起来(通常就是平均值)以生成最后的预测。

随机森林克服了如下问题:随着树的壮大和数据样本的耗尽,数据样本的比优化树还要小。对行先替换再抽样使得该模型捕捉数据集异动的能力更强,也有助于避免过拟合。Bagging带来的潜在问题是,如果有一些非常强的预测性输入(strongly predictive input),这会影响到整棵树并导致高度相关的预测结果,顺带使得预测结果直接的偏差最小。对输入变量的抽样可解决以上问题并产生更多的变异树。

四、梯度增加机

该技术和随机森林的区别在于:独立地建起一系列树并在已有树的预测基础上合成新树的预测。在样本基础上,首层树被建立起来并被打分以输出预测和从原树产生残树(residual),也即实际输出减去预测。第二个阶段是建立另一颗树来预测残树。以上过程循环往复,直至产生一颗优化树(optimal tree)。

和其他树算法一样,要注意避免数据的过拟合。有许多办法来避免:限制单棵树的大小,惩罚过度复杂的树,控制单棵树的影响力并对每棵树进行抽样。在建立梯度增加机模型时,为了理解输出结果要知道使用了什么设置。如果运用得心应手,梯度增加机是预测效果最好的算法之一(他们常常出现在Kaggle大赛中的获胜方身后)。

五、在英国Capital One采用的树算法

建模(Model building)

基本的决策树对建造快速且简单的模型非常有用,简明且容易上手。有时候,只是建一个快速树模型并训练很短时间容易会生很大的商业影响。更多的时间资源开销,使用更复杂的模型,这些代价有时是必要的。因此,掌握了算法的优劣后做折衷,对业务的理解清晰到位,才能帮助英国的数据科学团队搭建适合的数据模型。

数据探索(Data exploration)

树算法对于试探和理解数据集内部关系非常适合。我们用梯度增加机来理解一个模型上部举足轻重的变量。它对迅速减少潜在分割变量的区间也很有帮助,让人将注意力聚焦在重要的数据上。一个快速且不受约束的梯度增加机模型可作为样本模型,允许数据科学家去度量成品预测模型的性能。

六、树算法适用的场景

和数据科学众多算法一样,树算法也只是处理海量商业数据时众多算法大类里的一种备选方案。关键在于能判断出何时该选用这项技术去解决问题。在更高的维度上,只要控制好过拟合,树算法是预测问题的好帮手。

【注:题图来自wikipedia】

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
盘点 | 机器学习入门算法:从线性模型到神经网络
【一图看懂】机器学习6大算法,优势劣势全解析
详解XGBoost 2.0重大更新!
数据挖掘:基于R语言的实战 | 第9章:基于决策树的模型组合
最流行的用于预测的机器学习算法简介及其优缺点说明
机器学习十大算法!入门看这个就够了~
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服