OLAP系统解析:Apache Kylin和Baidu Palo哪家强?

1.webp.jpg

作者 | 康凯森
编辑 | Bear
AI 前线导读:Apache Kylin 和 Baidu Palo 都是优秀的开源 OLAP 系统,本文将全方位地对比 Kylin 和 Palo。Kylin 和 Palo 分别是 MOALP 和 ROLAP 的代表,对比这两个系统的目的不是为了说明哪个系统更好,只是为了明确每个系统的设计思想和架构原理,让大家可以根据自己的实际需求去选择合适的系统,也可以进一步去思考我们如何去设计出更优秀的 OLAP 系统。

本文对 Apache Kylin 的理解基于近两年来在生产环境大规模地使用,运维和深度开发,我已向 Kylin 社区贡献了 98 次 Commit,包含多项新功能和深度优化。本文对 Baidu Palo 的理解基于官方文档和论文的阅读,代码的粗浅阅读和较深入地测试。

1 系统架构
1.1 What is Kylin

Kylin 的核心思想是预计算,利用空间换时间来 加速查询模式固定的 OLAP 查询。

Kylin 的理论基础是 Cube 理论,每一种维度组合称之为 Cuboid,所有 Cuboid 的集合是 Cube。 其中由所有维度组成的 Cuboid 称为 Base Cuboid,图中 (A,B,C,D) 即为 Base Cuboid,所有的 Cuboid 都可以基于 Base Cuboid 计算出来。 在查询时,Kylin 会自动选择满足条件的最“小”Cuboid,比如下面的 SQL 就会对应 Cuboid(A,B):

select xx from table where A=xx group by B


2.webp.jpg

Kylin-cube

下图是 Kylin 数据流转的示意图,Kylin 自身的组件只有两个:JobServer 和 QueryServer。 Kylin 的 JobServer 主要负责将数据源(Hive,Kafka)的数据通过计算引擎(MapReduce,Spark)生成 Cube 存储到存储引擎(HBase)中;QueryServer 主要负责 SQL 的解析,逻辑计划的生成和优化,向 HBase 的多个 Region 发起请求,并对多个 Region 的结果进行汇总,生成最终的结果集。 


3.webp.jpg

kylin-data

下图是 Kylin 可插拔的架构图, 在架构设计上,Kylin 的数据源,构建 Cube 的 计算引擎,存储引擎都是可插拔的。Kylin 的核心就是这套可插拔架构,Cube 数据模型和 Cuboid 的算法。


4.webp.jpg

Kylin

1.2 What is Palo

Palo 是一个基于 MPP 的 OLAP 系统,主要整合了 Google Mesa(数据模型),Apache Impala(MPP Query Engine) 和 Apache ORCFile(存储格式,编码和压缩) 的技术。


5.webp.jpg

baidu-palo

Palo 的系统架构如下,Palo 主要分为 FE 和 BE 两个组件,FE 主要负责查询的编译,分发和元数据管理(基于内存,类似 HDFS NN);BE 主要负责查询的执行和存储系统。


6.webp.jpg

baidu-palo

2 数据模型
2.1 Kylin 的聚合模型

Kylin 将表中的列分为维度列和指标列。在数据导入和查询时相同维度列中的指标会按照对应的聚合函数 (Sum, Count, Min, Max, 精确去重,近似去重,百分位数,TOPN) 进行聚合。

在存储到 HBase 时,Cuboid+ 维度 会作为 HBase 的 Rowkey, 指标会作为 HBase 的 Value,一般所有指标会在 HBase 的一个列族,每列对应一个指标,但对于较大的去重指标会单独拆分到第 2 个列族。


7.webp.jpg

Kylin-model

2.2 Palo 的聚合模型

Palo 的聚合模型借鉴自 Mesa,但本质上和 Kylin 的聚合模型一样,只不过 Palo 中将维度称作 Key,指标称作 Value。


8.webp.jpg

palo-data-model

Palo 中比较独特的聚合函数是 Replace 函数,这个聚合函数能够保证相同 Keys 的记录只保留最新的 Value, 可以借助这个 Replace 函数来实现 点更新。一般 OLAP 系统的数据都是只支持 Append 的,但是像电商中交易的退款,广告点击中的无效点击处理,都需要去更新之前写入的单条数据,在 Kylin 这种没有 Relpace 函数的系统中我们必须把包含对应更新记录的整个 Segment 数据全部重刷,但是有了 Relpace 函数,我们只需要再追加 1 条新的记录即可。 但是 Palo 中的 Repalce 函数有个缺点:无法支持预聚合, 就是说只要你的 SQL 中包含了 Repalce 函数,即使有其他可以已经预聚合的 Sum,Max 指标,也必须现场计算。

为什么 Palo 可以支持点更新呢?

Kylin 中的 Segment 是不可变的,也就是说 HFile 一旦生成,就不再发生任何变化。但是 Palo 中的 Segment 文件和 HBase 一样,是可以进行 Compaction 的,具体可以参考 Google Mesa 论文解读中的 Mesa 数据版本化管理(https://blog.bcmeng.com/post/google-mesa.html#mesa%E6%95%B0%E6%8D%AE%E7%89%88%E6%9C%AC%E5%8C%96%E7%AE%A1%E7%90%86)

Palo 的聚合模型相比 Kylin 有个缺点:就是一个 Column 只能有一个预聚合函数,无法设置多个预聚合函数。 不过 Palo 可以现场计算其他的聚合函数。 Baidu Palo 的开发者 Review 时提到,针对这个问题,Palo 还有一种解法:由于 Palo 支持多表导入的原子更新,所以 1 个 Column 需要多个聚合函数时,可以在 Palo 中建多张表,同一份数据导入时,Palo 可以同时原子更新多张 Palo 表,缺点是多张 Palo 表的查询路由需要应用层来完成。

Palo 中和 Kylin 的 Cuboid 等价的概念是 RollUp 表,Cuboid 和 RollUp 表都可以认为是一种 Materialized Views 或者 Index。 Palo 的 RollUp 表和 Kylin 的 Cuboid 一样,** 在查询时不需要显示指定,系统内部会根据查询条件进行路由。 如下图所示:


9.webp.jpg

Palo Rollup

Palo 中 RollUp 表的路由规则如下:

  1. 选择包含所有查询列的 RollUp 表

  2. 按照过滤和排序的 Column 筛选最符合的 RollUp 表

  3. 按照 Join 的 Column 筛选最符合的 RollUp 表

  4. 行数最小的

  5. 列数最小的

2.3 Kylin Cuboid VS Palo RollUp


10.webp.jpg

Kylin cuboid vs palo rollup

2.4 Palo 的明细模型

由于 Palo 的聚合模型存在下面的缺陷,Palo 引入了明细模型。

  • 必须区分维度列和指标列

  • 维度列很多时,Sort 的成本很高

  • Count 成本很高,需要读取所有维度列(可以参考 Kylin 的解决方法进行优化)

Palo 的明细模型不会有任何聚合,不区分维度列和指标列,但是在建表时需要指定 Sort Columns,数据导入时会根据 Sort Columns 进行排序,查询时根据 Sort Column 过滤会比较高效。

如下图所示,Sort Columns 是 Year 和 City。


11.webp.jpg

Kylin-detail-model

这里需要注意一点,Palo 中一张表只能有一种数据模型,即要么是聚合模型,要么是明细模型,而且 Roll Up 表的数据模型必须和 Base 表一致, 也就是说明细模型的 Base 表不能有聚合模型的 Roll Up 表。

3 存储引擎

Kylin 存储引擎 HBase:


12.webp.jpg

如上图所示,在 Kylin 中 1 个 Cube 可以按照时间拆分为多个 Segment,Segment 是 Kylin 中数据导入和刷新的最小单位。Kylin 中 1 个 Segment 对应 HBase 中一张 Table。 HBase 中的 Table 会按照 Range 分区拆分为多个 Region, 每个 Region 会按照大小拆分为多个 HFile。

关于 HFile 的原理网上讲述的文章已经很多了,我这里简单介绍下。首先 HFile 整体上可以分为元信息,Blcoks,Index3 部分,Blcoks 和 Index 都可以分为 Data 和 Meta 两部分。Block 是数据读取的最小单位,Block 有多个 Key-Value 组成,一个 Key-Value 代表 HBase 中的一行记录,Key-Value 由 Kylin-Len,Value-Len,Key-Bytes,Value-Bytes 4 部分组成。更详细的信息大家可以参考下图 (下图来源于互联网,具体出处不详):


13.webp.jpg

HBase-HFile

Palo 存储引擎:


14.webp.jpg

如上图所示,Palo 的 Table 支持二级分区,可以先按照日期列进行一级分区,再按照指定列 Hash 分桶。具体来说,1 个 Table 可以按照日期列分为多个 Partition, 每个 Partition 可以包含多个 Tablet,Tablet 是数据移动、复制等操作的最小物理存储单元,各个 Tablet 之间的数据没有交集,并且在物理上独立存储。Partition 可以视为逻辑上最小的管理单元,数据的导入与删除,仅能针对一个 Partition 进行。1 个 Table 中 Tablet 的数量 = Partition num * Bucket num。Tablet 会按照一定大小(256M)拆分为多个 Segment 文件,Segment 是列存的,但是会按行(1024)拆分为多个 Rowblock。


15.webp.jpg

palo segment file

下面我们来看下 Palo Segment 文件的具体格式,Palo 文件格式主要参考了 Apache ORC。如上图所示,Palo 文件主要由 Meta 和 Data 两部分组成,Meta 主要包括文件本身的 Header,Segment Meta,Column Meta,和每个 Column 数据流的元数据,每部分的具体内容大家看图即可,比较详细。 Data 部分主要包含每一列的 Index 和 Data,这里的 Index 指每一列的 Min,Max 值和数据流 Stream 的 Position;Data 就是每一列具体的数据内容,Data 根据不同的数据类型会用不同的 Stream 来存储,Present Stream 代表每个 Value 是否是 Null,Data Stream 代表二进制数据流,Length Stream 代表非定长数据类型的长度。 下图是 String 使用字典编码和直接存储的 Stream 例子。


16.webp.jpg

Palo String encoding

下面我们来看下 Palo 的前缀索引:


17.webp.jpg

Palo index

本质上,Palo 的数据存储是类似 SSTable(Sorted String Table)的数据结构。该结构是一种有序的数据结构,可以按照指定的列有序存储。在这种数据结构上,以排序列作为条件进行查找,会非常的高效。而前缀索引,即在排序的基础上,实现的一种根据给定前缀列,快速查询数据的索引方式。前缀索引文件的格式如上图所示,索引的 Key 是每个 Rowblock 第一行记录的 Sort Key 的前 36 个字节,Value 是 Rowblock 在 Segment 文件的偏移量。

有了前缀索引后,我们查询特定 Key 的过程就是两次二分查找:

  1. 先加载 Index 文件,二分查找 Index 文件获取包含特定 Key 的 Row blocks 的 Offest, 然后从 Sement Files 中获取指定的 Rowblock;

  2. 在 Rowblocks 中二分查找特定的 Key

<section class="&quo