漫谈数据质量¶
保障系统¶
- DQC
- SLA
开源项目¶
Apache Griffin
- Profiling(统计信息)
- Accuracy(准确性)
- Completeness(完整性)
- Timeliness(时效性)
- Anomaly detection(异常检测)
- Validity(有效性)
常见指标¶
数据:表、字段
字段:维度、指标
类型:数值、字符
-
时效性
表,SLA(调度、资源)
作业完成时间,作业执行时间
-
唯一性
字段,主键
冗余率,重复率
-
一致性
字段,指标
对照、钩稽
-
完整性
字段,缺失值
0,null,空字符
-
合理性
字段,波动率,表,数据量
时间序列:移动平均、指数平滑,ARIMA,LSTM
-
规范性
字段,异常值
特殊字符:类型不匹配
值域:枚举值,均值、最大值、最小值,最小长度、最大长度
质量保障¶
- 可管理、可定义、可定量、可优化
- 事前、事中、事后
- 资产类目、分级、成本、价值
- 组织、制度、管理、流程、规范
- 需求、开发、测试、故障、交接
其他¶
- 质量集市
- 自动化监控
- 成本分析
- 根源分析
- 影响分析
- 价值体系
- 故障预测
- 资源规划