Skip to main content
Version: 1.1.1

Serialization Formats

Pollux 支持三种可用于数据 shuffle 的数据序列化格式: PrestoPage UnsafeRow 和 CompactRow。PrestoPage 是列式格式。UnsafeRow 和 CompactRow 是行式格式。

Pollux 应用程序也可以注册自己的格式。

PrestoPage 格式在 Presto 文档 中进行了描述。

UnsafeRow 格式源自 Apache Spark

CompactRow 与 UnsafeRow 类似,但 CompactRow 的空间效率更高,并且减少了 shuffle 的字节数,这会对 CPU 使用率(用于压缩和校验)以及内存(用于缓冲)产生连锁反应。

有关 UnsafeRow 和 CompactRow 格式的详细信息,请参阅以下文章。

Pollux 还使用另一种行序列化格式 ContainerRowSerde,用于在聚合和连接运算符中存储数据。此格式类似于 CompactRow。