Overview¶
Apache CarbonData 是一种在大数据平台上用于快速分析的带索引的列式存储数据格式。
Feature¶
- 列式存储
- 多级索引:BTree、MinMax
- 字典编码
- 下推优化:File、Blocklet
- DDL、DML、Update、Delete
- Partition:column、hash,list,range
- DataMaps:Pre-Aggregate、Time Series、Bloom filter、Lucene、MV (Materialized Views)
- 深度集成Spark,支持Hive、Presto
- Storage:S3、HDFS、Alluxio
File Structure¶
Directory¶
Schema¶
Format¶
- Header
- Blocklet
- Footer
Other
- Index
- Dictionary
- Table Status