spark 从2.0开始,基于RDD api实现的机器学习算法库,进入到维护模式
以后在使用spark 机器学习功能的时候,建议使用基于dataframe Api实现的算法库
所在的包:org.apache.spark.mllib
文档说明:http://spark.apache.org/docs/latest/mllib-guide.html
所在的包:org.apache.spark.ml
文档说明:http://spark.apache.org/docs/latest/ml-guide.html
spark 中机器学习算法,主要有四大类:分类算法(Classification),回归算法(regression),推荐算法(Collaborative filtering),聚类算法(Clustering)
预测所属类别(两个类别中的一个或多个类别中的一个)
1,二分类算法(Binary Classification)
a,支持向量机(linear SVMs)
b,逻辑回归( logistic regression)
c,决策树(decision trees)
d,随机森林(random forests)
e,梯度提升树算法(gradient-boosted trees)
f,朴素贝叶斯算法(naive Bayes)
2,多分类算法(Multiclass Classification)
a,逻辑回归( logistic regression)
b,决策树(decision trees)
c,随机森林(random forests)
d,朴素贝叶斯算法(naive Bayes)
应用场景:
a,垃圾邮件分类(是,不是)
b,性别预测(男,女)
c,广告是否点击预测(是,不是)
d,水果类别预测(西瓜,香蕉,苹果,梨)
预测一个连续的值
1,决策树(decision trees)
2,线性回归(Linear Regression)
Linear Regression
L1正则化==>Lasso Regression
L2正则化==>ridge regression
3,随机森林(random forests)
4,梯度提升树算法(gradient-boosted trees)
应用场景:
a,某天天气气温预测(比如:4-25)
b,某天订单预测
c,股票涨跌幅度预测
看了又看,买了有买,买了这个商品的用户还买了别的
1,协同过滤算法
交替最小二乘法(ALS)
2,关联规则算法(购物篮算法)
频繁模式增长算法(FP-growth)
研究对象特征,进行分类的统计方法
聚类算法和分类算法有个最大的区别,缺乏历史可靠资料
预测人的性别
(短发,胡子,喉结)==>男
(长发,没胡子,皮肤白,没有喉结)==>女
以上是有历史可靠资料(经验),可以使用分类算法进行分类(监督学习)
外星人
需要去研究外星人(研究对象)的特性,将有相同特性的外星人,归为一类,来确定外星人应该分为哪些类别
有眼睛归为一类
皮肤白的归为一类
个子高的归为一类
有特异功能的归为一类
以上由于缺乏历史可靠资料(经验),那么就需要去研究对象的特性,将有相同特性的归为一类,来确定研究对象的类别
1,K-均值算法(k-means)
将多个机器学习算法合在一起进行预测,然后将预测的结果进行合并
1,随机森林(Random Forests)
底层N颗树构成
2,梯度提升树算法(Gradient-Boosted Trees )
底层是RF算法
联系客服