2 天前 / sjf0115
1. 背景 Apache Hudi 将流处理带到大数据,相比传统批处理效率高一个数量级,提供了更新鲜的数据。在数据湖 / 仓库中,需要在摄取速度和查询性能之间进行权衡,数据摄取通常更喜欢小文件以改善并行性并使数据尽快可用于查询,但很多小文件会导致查询性能下降。在摄取过程中通常会根据时间在同一位置放置数据,但如果把查询频繁的数据放在一起时,查询引擎的性能会更好,大多数系统都倾向于支持独立的优化来提高性能,以解决未优化的数据布局的限制。
Apache Hudi