数据湖 基础组件
元数据(metadata)
元数据被分析师用来解密在数据湖中发现的初始数据。元数据是栖息在数据湖中的数据的基本轨迹图。
整合图谱(integration mapping)
整合图谱是数据湖中的数据如何被整合的详细规范。它阐述了如何解决仓罐数据的隔绝性问题。
语境(context)
如果你想把文本放入数据湖,那么你必须把文本语境也放置在其中。或者至少提供找到文本语境的方法。
元过程(metaprocess)
元过程标签是关于数据湖中的数据处理的信息。
数据湖 数据分类
模拟信号数据(analog data)和应用程序数据(application data)是具有重复性的,而文本数据则是非重复性的。
模拟信号数据(analog data)
应用程序数据(application data)
文本数据(texture data)
数据湖 数据池
初始数据 -> 数据修整 -> 模拟信号数据 | 应用程序数据 | 文本数据 -> 数据池 -> 归档数据池
Links
- Author:HyperJ
- Source:HyperJ’s Blog
- Link:《数据湖架构(Data Lake Architecture)》——读书笔记