《数据湖架构(Data Lake Architecture)》——读书笔记

数据湖 基础组件

元数据(metadata)

元数据被分析师用来解密在数据湖中发现的初始数据。元数据是栖息在数据湖中的数据的基本轨迹图。

整合图谱(integration mapping)

整合图谱是数据湖中的数据如何被整合的详细规范。它阐述了如何解决仓罐数据的隔绝性问题。

语境(context)

如果你想把文本放入数据湖,那么你必须把文本语境也放置在其中。或者至少提供找到文本语境的方法。

元过程(metaprocess)

元过程标签是关于数据湖中的数据处理的信息。

数据湖 数据分类

模拟信号数据(analog data)和应用程序数据(application data)是具有重复性的,而文本数据则是非重复性的。

模拟信号数据(analog data)

应用程序数据(application data)

文本数据(texture data)

数据湖 数据池

初始数据 -> 数据修整 -> 模拟信号数据 | 应用程序数据 | 文本数据 -> 数据池 -> 归档数据池