spark_mllib_demo_pro 专注大数据 SparkML机器学习技术

专注大数据 Spark ML 机器学习：监督学习、无监督学习，主要有：分类算法、回归算法、聚类算法、推荐算法、频繁模式挖掘算法

一、监督学习

利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为监督训练或有教师学习。比如，样本数据中事先标明一些数据是对的，另一些数据是错的，然后让程序预测，新的数据是对的还是错的。

顾名思义，就是不对数据进行标明，让机器自动去判断，哪些数据比较像，归到一类等等。

1、加载数据
2、提取特征工程
3、将提取的特征工程数据交给算法得到模型
4、使用模型进行预测

k-最近邻法（k-nearest neighbor, kNN）
决策树分类法
朴素贝叶斯分类算法（native Bayesian classifier）
支持向量机（SVM）的分类器
神经网络法
模糊分类法

K均值（K-means clustering）聚类算法
K-MEDOIDS算法
CLARANS算法
BIRCH算法
CURE算法
CHAMELEON算法等
基于网格的方法

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
data		data
doc		doc
src/main		src/main
README.md		README.md
pom.xml		pom.xml