Skip to content

Latest commit

 

History

History
35 lines (26 loc) · 1.27 KB

README.md

File metadata and controls

35 lines (26 loc) · 1.27 KB

spark_mllib_demo_pro 专注大数据 SparkML机器学习技术

专注大数据 Spark ML 机器学习:监督学习、无监督学习,主要有:分类算法、回归算法、聚类算法、推荐算法、频繁模式挖掘算法

一、监督学习

利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。比如,样本数据中事先标明一些数据是对的,另一些数据是错的,然后让程序预测,新的数据是对的还是错的。

二、无监督学习

顾名思义,就是不对数据进行标明,让机器自动去判断,哪些数据比较像,归到一类等等。

三、机器学习过程

1、加载数据
2、提取特征工程
3、将提取的特征工程数据交给算法得到模型
4、使用模型进行预测

监督学习(分类算法)

k-最近邻法(k-nearest neighbor, kNN)
决策树分类法
朴素贝叶斯分类算法(native Bayesian classifier)
支持向量机(SVM)的分类器
神经网络法
模糊分类法

无监督学习(聚类算法)

K均值(K-means clustering)聚类算法
K-MEDOIDS算法
CLARANS算法
BIRCH算法
CURE算法
CHAMELEON算法等
基于网格的方法