78 天前 / sjf0115
▼ 关注「ApacheFlink」,看更多大咖▼ 摘要:本文整理自阿里巴巴技术专家高赟 ( 云骞) 在 Flink Forward Asia 2021 核心技术专场的演讲。主要内容包括: 流批一体语义完善与增强性能优化 Remote Shuffle 总结与展望 Tips:点击「阅读原文」查看原文视频 & 演讲 PDF~ 一、流批一体 流批一体的目标是希望能够为有限数据和无限数据提供一套统一的处理 API,包括 Datastream API 与 Table/SQL API,其中有限数据的处理对应离线处理,而无限数据的处理则对应在线处理。
80 天前 / sjf0115
▼ 关注「Apache Flink」,获取更多技术干货▼摘要:本篇内容整理自中信建投证券金融实时数仓项目负责人刘成龙、金融资讯数据研发工程师蔡跃在 Flink Forward Asia 2021 行业实践专场的演讲。主要内容包括: 中信建投证券 Flink 框架 Flink 流处理场景金融资讯实时化改造未来展望 Tips:点击「阅读原文」查看原文视频 & 演讲 PDF~ 中信建投证券公司成立于 2005 年,2016 年港交所上市,2018 年上交所主板上市。投行业务连续 8 年保持行业前 3,托管证券规模行业第 2,主要经营指标目前均列于行业前 10。
81 天前 / kafeidou
我很高兴地宣布 Debezium1.9.0.Beta1 的发布! 此版本包括 Debezium Server 的许多新功能,包括 Knative Eventing 支持和使用 Redis 接收器的偏移存储管理、SQL Server 连接器的多分区缩放以及各种错误修复和改进。总体而言,此版本已修复 56 个问题。 让我们仔细看看其中的几个。 Debezium Server Knative Eventing 自从在 1.2 版中引入 Debezium 产品组合以来,Debezium Server 已经发展了很多。在这个版本中,我们添加了一个新的接收器实现来支持 Knative Eventing。
92 天前 / sjf0115
▼ 关注「ApacheFlink」,看更多大咖▼ 摘要:本文整理自新加坡国立大学计算机系博士在读生毛言粲在 Flink Forward Asia 2021 核心技术专场的分享。主要内容包括: 背景:流作业动态调控挑战:兼顾普适、高效和易用设计:以 Task 为中心的系统设计实现:基于 Flink 的 Barrier 机制评估:Trisk 与已有系统的性能对比 Tips:点击「阅读原文」查看原文视频 & 演讲 PDF~ 一、背景:流作业动态调控 流数据处理是非常重要的一种数据处理方式,它在各个领域都有广泛的应用,比如机器学习、数据分析和实时事件处理以及实时交易等领域。
93 天前 / 云智慧AIOps社区
云智慧 AIOps 社区本文将从 5 个方面详细介绍数据平台大数据任务开发的基础知识。包含数据平台的简介、如何在平台内创建 Flink 表、如何编写 Flink 大数据处理作业、Flink 任务启动时的调用流程以及 Flink web UI 任务监控页面。此外,将重点介绍数据平台内 Flink 任务开发相关的部分内容,包括 Flink 数据连接、Flink 流作业、批作业和资源库。资源库为自定义的 UDF,为了方便介绍后续将统一简称为平台。 云智慧 AIOps 社区是由云智慧发起,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交流社区。
96 天前 / sjf0115
1. 目标 Apache Flink 的持久化对许多用户来说都是一个谜。用户最常见反复提问的问题就是不理解 State、StateBackend 以及快照之间的关系。通过学习可以解答我们的一些困惑,但是这个问题如此常见,我们认为 Flink 的用户 API 应该设计的更友好一些。在过去几年中,我们经常会听到如下误解: 我们使用 RocksDB 是因为我们不需要容错。 我们不使用 RocksDB 是因为我们不想管理外部数据库。 RocksDB 可以直接读写 S3 或者 HDFS(相对于本地磁盘) FsStateBackend 会溢写到磁盘,并且与本地文件系统有关系 将 RocksDB 指向网络附加存储...
99 天前 / sjf0115
▼ 关注「Apache Flink」,获取更多技术干货▼摘要:本文整理自阿里巴巴高级开发工程师郭旸泽 ( 天凌) 在 Flink Forward Asia 2021 核心技术专场的演讲。主要内容包括: 细粒度资源管理与适用场景 Flink 资源调度框架基于 SlotSharinGroup 的资源配置接口动态资源切割机制资源申请策略总结与未来展望 Tips:点击「阅读原文」查看原文视频 & 演讲 PDF~ 一、细粒度资源管理与适用场景 在 Flink1.14 之前,使用的是一种粗粒度的资源管理方式,每个算子 slot request 所需要的资源都是未知的,在 Flink 内部用一个 UNKNOWN 的特殊值来表示...
101 天前 / sjf0115
▼ 关注「ApacheFlink」,看更多大咖▼ 摘要:本文整理自阿里巴巴技术专家陈玉兆 ( 玉兆)、阿里巴巴开发工程师刘大龙 ( 风离) 在 Flink Forward Asia 2021 实时数据湖专场的演讲。主要内容包括: Apache Hudi 101Flink Hudi IntegrationFlink Hudi Use CaseApache Hudi Roadmap Tips:点击「阅读原文」查看原文视频 & 演讲 PDF~ 一、Apache Hudi 101 提到数据湖,大家都会有这样的疑问,什么是数据湖?为什么数据湖近两年热度很高?数据湖其实不是一个新的概念,最早的数据湖概念在 80 年代就已经提出,当时对数据湖的定义是原始数据层...
105 天前 / sjf0115
▼ 关注「ApacheFlink」,看更多大咖▼ 摘要:本篇内容整理自 Pravega 中国社区创始人、戴尔科技集团软件工程技术总监滕昱在 Flink Forward Asia 2021 主会场的演讲。主要内容包括: 存储抽象的现状 Pravega 性能架构详解 Pravega 流存储数据演示展望未来 Tips:点击「阅读原文」查看原文视频 & 演讲 PDF~ 一、存储抽象的现状 在计算机软件设计中,有一个非常著名的观点:任何新的计算机问题都可以通过新加入的抽象层解决,对于存储也是一样。上图列出了三种大家主要使用的存储抽象,即块存储、文件存储和对象存储。
107 天前 / sjf0115
▼ 关注「Apache Flink」,获取更多技术干货▼摘要:本文整理自 BIGO Staff Engineer 邹云鹤在 Flink Forward Asia 2021 的分享。主要内容包括: 业务背景落地实践 & 特色改进应用场景未来规划 Tips:点击「阅读原文」查看原文视频 & 演讲 PDF~ 一、业务背景 BIGO 是一家面向海外的以短视频直播业务为主的公司, 目前公司的主要业务包括 BigoLive ( 全球直播服务),Likee ( 短视频创作分享平台),IMO ( 免费通信工具) 三部分,在全球范围内拥有 4 亿用户。
108 天前 / 阿甘_paul
摘要:实时数仓以提供低延时数据指标为目的供业务实时决策,本文主要介绍基于 Flink 的广告实时数仓建设,主要包括以下内容:1. 建设背景 2. 技术架构 3. 数仓架构 4.实时 OLAP 5. 实时保障 6. 未来规划 建设背景 广告是目前互联网流量变现的一种重要手段,广告投放的优化很大程度上依赖于广告效果数据,依托于广告曝光、点击、消耗、订单等指标调整广告投放策略,以达到最优投放效果。前期主要提供 T+1 效果数据,投放策略往往需要第二天才能做出调整,不能及时做出投放优化,特别在一些大促场景,实时优化显得尤为重要...
114 天前 / kafeidou
Apache Flink 社区很高兴地宣布有状态函数(StateFun)3.2.0 的发布。 2022 年 1 月 31 日 Till Rohrmann (@stsffap) 和 Igal Shilman (@IgalShilman) Stateful Functions 是一个用于构建有状态无服务器应用程序的跨平台堆栈,使开发可扩展、一致和弹性的分布式应用程序变得更加简单。这个新版本对 StateFun 运行时进行了各种改进,一种更精简的指定 StateFun 模块组件的方式,以及一个全新的 JavaScript SDK! 二进制分发和源代码工件现在可以在 Flink 网站的更新下载页面上获得...
122 天前 / sjf0115
▼ 关注「Apache Flink」,获取更多技术干货▼摘要:本文整理自作业帮实时计算负责人张迎在 Flink Forward Asia 2021 的分享。在作业帮实时计算演进过程中,Flink 起到了重要的作用,特别是借助于 FlinkSQL 极大的提高了实时任务的开发效率。这篇文章主要分享 FlinkSQL 在作业帮的使用情况、实践经验,以及随着任务规模增长,在从 0 到 1 搭建实时计算平台的过程中遇到的问题及解决方案。内容包括: 发展历程 Flink SQL 应用实践平台建设总结展望 Tips:点击「阅读原文」查看原文视频 & 演讲 PDF~ 一、发展历程 作业帮主要运用人工智能、大数据等技术...
126 天前 / kafeidou
2022 年 1 月 17 日 Thomas Weise ( @thweise ) & Martijn Visser ( @martijnvisser82 ) Apache Flink 社区发布了 Apache Flink 1.14 系列的第二个 bugfix 版本。第一个错误修复版本是 1.14.2,这是由于 Apache Log4j 零日 (CVE-2021-44228) 而紧急发布的版本。Flink 1.14.1 被废弃。这意味着这个 Flink 版本是 Flink 1.14 系列的第一个错误修复版本,其中包含与上述 CVE 无关的错误修复。 此版本包括 Flink 1.14.0 的 164 个修复和小改进。下面的列表包括错误修正和改进。有关所有更改的完整列表,请参阅:JIRA。
127 天前 / sjf0115
作者:董伟柯,腾讯 CSIG 高级工程师 问题背景前段时间,某客户线上运行的大作业(并行度 200 左右)遇到了 TaskManager JVM 内存超限问题(实际内存用量 4.1G > 容器设定的最大阈值 4.0G),被 YARN 的 pmem-check 机制检测到并发送了 SIGTERM(kill)信号终止该 container,最终导致作业出现崩溃。这个问题近期出现了好几次,客户希望能找到解决方案,避免国庆期间线上业务受到影响。 在 Flink 配置项中,提供了很多内存参数设定。