Terminology¶
术语¶
-
数据管理能力(Data Management Capability)
组织和机构对数据进行管理和应用的能力。
-
能力域(Capability Area)
数据管理相关活动、过程等集合以及一组相关数据能力子域的集合。
-
数据战略(Data Strategy)
组织开展数据工作的愿景、目的、目标和原则。
-
数据治理(Data Government)
对数据进行处置、格式化、规范化的过程。
-
数据架构(Data Architecture)
通过组织级数据模型定义数据需求,指导对数据资产的分布控制和整合,部署数据的共享和应用环境,以及元数据的管理规范。
-
数据标准(Data Standard)
数据的命名、定义、结构和取值的规则。
-
元数据(Metadata)
关于数据或数据元素的数据(可能包含其数据描述),以及关于数据拥有权、存取路径、访问权和数据易变性的数据。
-
元模型(Metamodel)
规定一个或多个其他数据模型的数据模型。
-
数据质量(Data Quality)
在指定条件下使用时,数据的特性满足明确的和隐含的要求的程度。
-
数据安全(Data Security)
数据的机密性、完整性和可用性。
-
主数据(Master Data)
组织中需要跨系统、跨部门进行共享的核心业务实体数据。
-
参考数据(Reference Data)
对其他数据进行分类和规范的数据。
-
数据生命周期(Data Lifecycle)
将原始数据转化为可用于行动的知识的一组过程。
-
数据元(Data Element)
由一组属性规定其定义、标识、表示和允许值的数据单元。
-
数据管理(Data Management)
规划、控制和提供数据及信息资产的一组业务职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、交付和提高数据和信息资产的价值。—— DMBOK 1.0
-
数据治理(Data Government)
作为数据管理的其中一个核心职能,是对数据资产管理行使权力和控制的活动集合(规划、监控和执行),指导其他数据管理职能如何执行,在高层次上执行数据管理制度。—— DMBOK 1.0
-
数据资源(Data Resource)
广义上是指对一个企业而言所有可能产生价值的数据,包括自动化数据与非自动化数据。——wikipedia
-
数据资产(Data Asset)
由企业拥有或者控制的,能够为企业带来未来经济利益的,以物理或电子的方式记录的数据资源,如文件资料、电子数据等。在企业中,并非所有的数据都构成数据资产,数据资产是能够为企业产生价值的数据资源。—— DMBOK 1.0
-
参考数据(Reference Data)
参考数据是用于将其他数据进行分类或目录整编的数据,通常来说参考数据值是几个允许值之一(允许值的数据集是一个值域)。在所有的组织中,参考数据几乎都虚拟存在于整个组织的每一个数据库中。—— DMBOK 1.0
-
数据字典(Data Dictionary)
一种用户可以访问的记录数据库和应用程序源数据的目录,用规范化的,无二义性的语言表达数据流程图的各组成部分,是对数据流程图各个组成部分的详细数据说明,也是表达新系统逻辑模型的主要工具之一。包括主动数据字典(active data dictionary) 和被动数据字典(passive data dictionary),前者是指指在对数据库或应用程序结构进行修改时,其内容可以由 DBMS 自动更新的数据字典,后者是指修改时必须手工更新其内容的数据字典。—— DMBOK 1.0
-
数据目录(Data Catalog)
作为一种主动数据字典,用以帮助用户找到满足自身需求的数据来源并且帮助他们理解利用数据源进行挖掘的过程,同时也帮助企业在现有的数据源下实现更多的收益。多数关系型 DBMS 产品将数据目录设置为关系型表格的形式。——wikipedia
-
数据血缘(Data Lineage)
通常是数据生命周期的一种,包括数据的起源以及到当前位置的完整路径描述,帮助用户分析信息的使用过程并且追溯在每一个节点上有特定用途的信息。—— DMBOK 1.0
-
血缘分析(Lineage Analysis)
也即血统分析,是通过对数据处理过程的全面追踪,从而找到以某个数据对象为起点的所有相关元数据对象以及这些元数据对象之间的关系。它是对数据对象内在关系的一种映射,同时,还结合了时间顺序、递次关系,也能够反映出一定的相关性和因果关系。——wikipedia
-
影响分析(Influence Analysis)
不同于血缘分析(血统分析)通过回溯方式找到所有元数据对象以及这些元数据对象之间的关系,影响分析是基于某个数据对象,寻找依赖于该对象的处理过程或其他数据对象,并在某些数据对象发生变化或者需要修改时,评估其影响范围。——wikipedia
-
非结构化数据(Unstructured Data)
用来描述具有高度可变数据类型和格式的任何数据(尚未标记或记录于行和列的数据),如文件、图形、图像、文字、报表、表格、视频或录音,具有数据格式多样、数据冗余度高、数据规模大等特点。—— DMBOK 1.0
-
数据仓库(Data Warehouse)
一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合用于支持管理决策。其主要功能是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作一有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。—《Building the data warehouse》 W. H. Inmon
-
数据集市(Data Mart)
企业级数据仓库的一个子集,他主要面向部门级业务,并且只面向某个特定的主题,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。——wikipedia
-
数据地图(Data Mapping)
数据地图作为数据融合的第一步,指在数据仓库中使用一系列严格定义的数据连接不同的数据模型。数据定义可以为任意的原子单位,比如一个单位的元数据,而数据的连接遵从一系列依赖于该模型阈值的标准。——wikipedia
-
数据湖(Data Lake)
数据湖是以其自然格式存储的数据的系统或存储库,通常是对象 blob 或文件。数据湖通常是企业所有数据的单一存储,包括源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库(行和列)的结构化数据,半结构化数据(CSV,日志,XML,JSON),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像,音频,视频)。——wikipedia
缩略语¶
- DCMM(Data management Capability Maturity assessment Model):数据管理能力成熟度评估模型
- ETL(Extraction-Transformation-Loading):提取、转换、加载
- KPI(Key Performance Indicator):关键业绩指标
- SOR(System of Record):记录系统
- TCO(Total Cost of Ownership):总拥有成本