spark 从2.0开始，基于RDD api实现的机器学习算法库，进入到维护模式

以后在使用spark 机器学习功能的时候，建议使用基于dataframe Api实现的算法库

基于rdd实现的算法库

所在的包：org.apache.spark.mllib

文档说明：http://spark.apache.org/docs/latest/mllib-guide.html

基于dataFrame实现的算法库

所在的包：org.apache.spark.ml

文档说明：http://spark.apache.org/docs/latest/ml-guide.html

spark 中机器学习算法，主要有四大类：分类算法（Classification），回归算法（regression），推荐算法（Collaborative filtering），聚类算法（Clustering）

一，分类算法（Classification）监督学习算法

预测所属类别（两个类别中的一个或多个类别中的一个）

1，二分类算法(Binary Classification)

a，支持向量机(linear SVMs)

b，逻辑回归（ logistic regression）

c，决策树（decision trees）

d，随机森林（random forests）

e，梯度提升树算法（gradient-boosted trees）

f，朴素贝叶斯算法（naive Bayes）

2，多分类算法(Multiclass Classification)

a，逻辑回归（ logistic regression）

b，决策树（decision trees）

c，随机森林（random forests）

d，朴素贝叶斯算法（naive Bayes）

应用场景：

a，垃圾邮件分类（是，不是）

b，性别预测（男，女）

c，广告是否点击预测（是，不是）

d，水果类别预测（西瓜，香蕉，苹果，梨）

二，回归算法（regression）

预测一个连续的值

1，决策树（decision trees）

2，线性回归（Linear Regression）

Linear Regression

L1正则化==>Lasso Regression

L2正则化==>ridge regression

3，随机森林（random forests）

4，梯度提升树算法（gradient-boosted trees）

应用场景：

a，某天天气气温预测(比如：4-25)

b，某天订单预测

c，股票涨跌幅度预测

三，推荐算法（Collaborative filtering）

看了又看，买了有买，买了这个商品的用户还买了别的

1，协同过滤算法

交替最小二乘法（ALS）

2，关联规则算法（购物篮算法）

频繁模式增长算法(FP-growth)

四，聚类算法（Clustering）

研究对象特征，进行分类的统计方法

聚类算法和分类算法有个最大的区别，缺乏历史可靠资料

预测人的性别

（短发，胡子，喉结）==>男

（长发，没胡子，皮肤白，没有喉结）==>女

以上是有历史可靠资料（经验），可以使用分类算法进行分类（监督学习）

外星人

需要去研究外星人(研究对象)的特性，将有相同特性的外星人，归为一类，来确定外星人应该分为哪些类别

有眼睛归为一类

皮肤白的归为一类

个子高的归为一类

有特异功能的归为一类

以上由于缺乏历史可靠资料(经验)，那么就需要去研究对象的特性，将有相同特性的归为一类，来确定研究对象的类别

1，K-均值算法（k-means）

五，集成(Ensembles)学习算法（融合学习算法）

将多个机器学习算法合在一起进行预测，然后将预测的结果进行合并

1，随机森林（Random Forests）

底层N颗树构成

2，梯度提升树算法（Gradient-Boosted Trees ）

底层是RF算法

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。