专注大数据 Spark ML 机器学习:监督学习、无监督学习,主要有:分类算法、回归算法、聚类算法、推荐算法、频繁模式挖掘算法
利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。比如,样本数据中事先标明一些数据是对的,另一些数据是错的,然后让程序预测,新的数据是对的还是错的。
顾名思义,就是不对数据进行标明,让机器自动去判断,哪些数据比较像,归到一类等等。
1、加载数据
2、提取特征工程
3、将提取的特征工程数据交给算法得到模型
4、使用模型进行预测
k-最近邻法(k-nearest neighbor, kNN)
决策树分类法
朴素贝叶斯分类算法(native Bayesian classifier)
支持向量机(SVM)的分类器
神经网络法
模糊分类法
K均值(K-means clustering)聚类算法
K-MEDOIDS算法
CLARANS算法
BIRCH算法
CURE算法
CHAMELEON算法等
基于网格的方法