Spark MLlib Overview

数据类型

  • Local vector
  • Labeled point
  • Local matrix
  • Distributed matrix

    RowMatrix
    IndexedRowMatrix
    CoordinateMatrix
    BlockMatrix

基本统计

  • summary statistics(概括统计)
  • correlations(相关性系数)
  • tratified sampling(分层取样)
  • hypothesis testing(假设检验)
  • random data generation(随机数生成)
  • Kernel density estimation(核密度估计)

协同过滤

  • 交换最小二乘

分类和回归

  • 线性模型(SVMs(支持向量机)、逻辑回归、线性回归、广义线性回归)
  • 朴素贝叶斯
  • 决策树
  • 组合树(随机森林、梯度提升树)
  • 生存回归
  • 保序回归

聚类

  • k-means||算法
  • GMM(高斯混合模型)
  • PIC(快速迭代聚类)
  • LDA(隐式狄利克雷分布)
  • 二分k-means算法
  • 流式k-means算法

最优化算法

  • 梯度下降算法
  • 拟牛顿法
  • NNLS(非负最小二乘)
  • 带权最小二乘
  • 迭代再加权最小二乘

降维

  • EVD(特征值分解)
  • SVD(奇异值分解)
  • PCA(主成分分析)

特征抽取和转换

  • 特征抽取
  • 特征转换
  • 特征选择