Skip to content

漫谈数据质量

保障系统

  • DQC
  • SLA

开源项目

Apache Griffin

  • Profiling(统计信息)
  • Accuracy(准确性)
  • Completeness(完整性)
  • Timeliness(时效性)
  • Anomaly detection(异常检测)
  • Validity(有效性)

常见指标

数据:表、字段

字段:维度、指标

类型:数值、字符

  • 时效性

    表,SLA(调度、资源)

    作业完成时间,作业执行时间

  • 唯一性

    字段,主键

    冗余率,重复率

  • 一致性

    字段,指标

    对照、钩稽

  • 完整性

    字段,缺失值

    0,null,空字符

  • 合理性

    字段,波动率,表,数据量

    时间序列:移动平均、指数平滑,ARIMA,LSTM

  • 规范性

    字段,异常值

    特殊字符:类型不匹配

    值域:枚举值,均值、最大值、最小值,最小长度、最大长度

质量保障

  • 可管理、可定义、可定量、可优化
  • 事前、事中、事后
  • 资产类目、分级、成本、价值
  • 组织、制度、管理、流程、规范
  • 需求、开发、测试、故障、交接

其他

  • 质量集市
  • 自动化监控
  • 成本分析
  • 根源分析
  • 影响分析
  • 价值体系
  • 故障预测
  • 资源规划

Reference