7 天前 / sjf0115
背景 字节跳动特征存储痛点当前行业内的特征存储整体流程主要分为以下四步: 特征存储的整体流程 业务在线进行特征模块抽取; 抽取后的特征以行的格式存储在 HDFS,考虑到成本,此时不存储原始特征,只存抽取后的特征; 字节跳动自研的分布式框架会将存储的特征并发读取并解码发送给训练器; 训练器负责高速训练。字节跳动特征存储总量为 EB 级别,每天的增量达到 PB 级别,并且每天用于训练的资源也达到了百万核心,所以整体上字节的存储和计算的体量都是非常大的。在如此的体量之下,我们遇到了以下三大痛点: 特征抽取周期长。
78 天前 / 逗逗
分享嘉宾:余根茂 腾讯 技术专家 编辑整理:李铭 多点 dmall 出品平台:DataFunTalk 导读:随着企业数据量的不断增长,数据格式的不断增多,在保证数据查询准确性的条件下,数据分析人员对查询速度的要求变得越来越高。在探寻更快查询速度的过程中,Apache Iceberg 提供了基于文件 Metrics 的 DataSkipping 技术,实现查询时快速筛选所需的数据文件。但是,我们在日常使用中发现,当查询条件中的筛选字段增多时,DataSkipping 技术效率急剧下降,即最终需要扫描的数据文件大大增加,甚至需要全表扫描,此时 DataSkipping 带来的效率提升几乎可以忽略不计。
122 天前 / sjf0115
分享嘉宾:苏舒 腾讯 高级工程师 编辑整理:刘鹏鹏 滴滴出行 出品平台:DataFunTalk 导读:本文主要介绍腾讯是如何基于 Apache Iceberg 进行数据的入湖、治理以及后面的一些优化。将从数据入湖、数据治理服务、数据查询优化以及未来展望四个方面展开介绍。 01 数据入湖本部分主要介绍 Apache Iceberg 基本概念以及结合 Flink 构建实时数据入湖链路。 1. Apache Iceberg 是什么? iceberg 其实就是在存储和计算层之间的一个表格式,表格式的作用主要是对计算引擎提供一个访问存储层的接口,能够提供一些 ACID 语义和 MVCC 的能力...
129 天前 / 逗逗
背景 在 B 站,每天都有 PB 级的数据注入到大数据平台,经过离线或实时的 ETL 建模后,提供给下游的分析、推荐及预测等场景使用。面对如此大规模的数据,如何高效低成本地满足下游数据的分析需求,一直是我们重点的工作方向。我们之前的数据处理流程基本上是这样的:采集端将客户端埋点、服务端埋点、日志、业务数据库等数据收集到 HDFS、Kafka 等存储系统中,然后通过 Hive、Spark、Flink 等离线和实时引擎对数据进行 ETL 处理及数仓建模,数据存储使用 ORC 列式存储格式...
352 天前 / hivefans东杰
摘要:本文整理自 Dell 科技集团高级软件研发经理孙伟在 4 月 17 日 上海站 Flink Meetup 分享的《Iceberg 和对象存储构建数据湖方案》。内容包括: 数据湖和 Iceberg 简介 未来规划 演示方案存储优化的一些思考 Tips:点击文末「阅读原文」即可查看更多技术干货~ GitHub 地址 欢迎大家给Flink点赞送 star~ 一、数据湖和 Iceberg 简介 1. 数据湖生态 如上图所示,对于一个成熟的数据湖生态而言: 首先我们认为它底下应具备海量存储的能力,常见的有对象存储,公有云存储以及 HDFS; 在这之上,也需要支持丰富的数据类型,包括非结构化的图像视频...
372 天前 / sjf0115
摘要:阿里巴巴技术专家胡争在 4 月 17 日上海站 Meetup 分享,文章内容为借助 Flink 和 Iceberg 来尝试解决数据入湖的相关挑战,帮助业务同学更加高效地聚焦在自身的业务挑战上。内容包括: 数据入湖的核心挑战 Apache Iceberg 介绍 Flink 和 Iceberg 如何解决问题 社区 Roadmap Tips:点击文末「阅读原文」即可查看原文视频~ GitHub 地址 https://github.com/apache/flink 欢迎大家给Flink点赞送 star~ 一、数据入湖的核心挑战 数据实时入湖可以分成三个部分,分别是数据源、数据管道和数据湖(数仓),本文的内容将围绕这三部分展开。
375 天前 / 逗逗
点击上方蓝色字体,选择“设为星标” 回复”资源“获取更多惊喜 作者在实际工作中调研了 Iceberg 的一些优缺点和在各大厂的应用,总结在下面。希望能给大家带来一些启示。 随着大数据存储和处理需求越来越多样化,如何构建一个统一的数据湖存储,并在其上进行多种形式的数据分析,成了企业构建大数据生态的一个重要方向。如何快速、一致、原子性地在数据湖存储上构建起 Data Pipeline,成了亟待解决的问题。 为此,Uber 开源了 Apache Hudi,Databricks 提出了 Delta Lake,而 Netflix 则发起了 Apache Iceberg 项目...
384 天前 / sjf0115
摘要:由汽车之家实时计算平台负责人邸星星在 4 月 17 日上海站 Meetup 分享的,基于 Flink + Iceberg 的湖仓一体架构实践,内容包括: 数据仓库架构升级的背景 基于 Iceberg 的湖仓一体架构实践 总结与收益 后续规划 Tips:点击文末「阅读原文」即可查看原文视频~ GitHub 地址 https://github.com/apache/flink 欢迎大家给Flink点赞送 star~ 一、数据仓库架构升级的背景 1. 基于 Hive 的数据仓库的痛点 原有的数据仓库完全基于 Hive 建造而成,主要存在三大痛点: 痛点一:不支持 ACID 1)不支持 Upsert 场景; 2)不支持 Row-level delete...
391 天前 / sjf0115
摘要:本文介绍去哪儿数据平台在使用 Flink + Iceberg 0.11 的一些实践。内容包括: 背景及痛点 Iceberg 架构 痛点一:Kafka 数据丢失 痛点二:近实时 Hive 压力大 Iceberg 优化实践 总结 Tips:点击文末「阅读原文」即可查看更多技术干货~ GitHub 地址 https://github.com/apache/flink 欢迎大家给Flink点赞送 star~ 一、背景及痛点 1. 背景 我们在使用 Flink 做实时数仓以及数据传输过程中,遇到了一些问题:比如 Kafka 数据丢失,Flink 结合 Hive 的近实时数仓性能等。Iceberg 0.11 的新特性解决了这些业务场景碰到的问题。
446 天前 / hivefans东杰
摘要:本文由同城艺龙大数据开发工程师张军分享,主要介绍同城艺龙 Flink 集成 Iceberg 的生产实践。内容包括: 背景及痛点 Flink + Iceberg 的落地 Iceberg优化实践 后续工作 总结 Tips:点击文末「阅读原文」可查看更多生产实践~ 一、背景及痛点 业务背景 同程艺龙是一个提供机票、住宿、交通等服务的在线旅游服务平台,目前我所在的部门属于公司的研发部门,主要职责是为公司内其他业务部门提供一些基础服务,我们的大数据系统主要承接的业务是部门内的一些大数据相关的数据统计、分析工作等。
448 天前 / sjf0115
数据处理现状:当前基于 Hive 的离线数据仓库已经非常成熟,数据中台体系也基本上是围绕离线数仓进行建设。但是随着实时计算引擎的不断发展以及业务对于实时报表的产出需求不断膨胀,业界最近几年就一直聚焦并探索于两个相关的热点问题:实时数仓建设和大数据架构的批流一体建设。 1 实时数仓建设:实时数仓 1.0 传统意义上我们通常将数据处理分为离线数据处理和实时数据处理。对于实时处理场景,我们一般又可以分为两类,一类诸如监控报警类、大屏展示类场景要求秒级甚至毫秒级;另一类诸如大部分实时报表的需求通常没有非常高的时效性要求...
512 天前 / reesunhuang
整理|路培杰(Flink 社区志愿者) 摘要:Apache Flink 是目前大数据领域非常流行的流批统一的计算引擎,数据湖是顺应云时代发展潮流的新型技术架构,以 Iceberg、Hudi、Delta 为代表的解决方案应运而生,Iceberg 目前支持 Flink 通过 DataStream API /Table API 将数据写入 Iceberg 的表,并提供对 Apache Flink 1.11.x 的集成支持。 本文由腾讯数据平台部高级工程师苏舒分享,主要介绍腾讯大数据部门基于 Apache Flink 和 Apache Iceberg 构建实时数仓的应用实践...
573 天前 / 过往记忆大数据
为了更好的使用 Apache Iceberg,理解其时间旅行是很有必要的,这个其实也会对 Iceberg 表的读取过程有个大致了解。不过在介绍 Apache Iceberg 的时间旅行(Time travel)之前,我们需要了解 Apache Iceberg 的底层数据组织结构。 Apache Iceberg 的底层数据组织我们在 《一条数据在 Apache Iceberg 之旅:写过程分析》这篇文章中详细地介绍了 Apache Iceberg 的写流程,我们在那篇文章最开始的测试案例中提到了写完数据之后在磁盘的文件目录结构;但当时并没有详细的介绍这些文件之间的关联以及用途。
588 天前 / 过往记忆大数据
本文基于 Apache Iceberg 0.9.0 最新分支,主要分析 Apache Iceberg 中使用 Spark 2.4.6 来写数据到 Iceberg 表中,也就是对应 iceberg-spark2 模块。当然,Apache Iceberg 也支持 Flink 来读写 Iceberg 表,其底层逻辑也 Spark 类似,感兴趣的同学可以去看看。 使用 Spark2 将数据写到 Apache Iceberg 在介绍下面文章之前,我们先来看下在 Apache Spark 2.4.6 中写数据到 Iceberg 的例子。这个版本的 Spark,Apache Iceberg 不支持使用 SQL 的形式来创建 Iceberg 表,所以只能使用 Iceberg 的 Java API 来进行...