2 天前 / 逗逗
大家好,我是老兵。 今天和大家聊聊 Flink 双流 Join 问题。这是一个高频面试点,也是工作中常遇到的一种真实场景。 如何保证 Flink 双流 Join 准确性和及时性、除了窗口 join 还存在哪些实现方式、究竟如何回答才能完全打动面试官呢。你将在文中找到答案。 1 引子 1.1 数据库 SQL 中的 JOIN 我们先来看看数据库 SQL 中的 JOIN 操作。如下所示的订单查询 SQL,通过将订单表的 id 和订单详情表 order_id 关联,获取所有订单下的商品信息。
4 天前 / sjf0115
▼ 关注「Apache Flink」,获取更多技术干货▼摘要:本文整理自美团实时数仓平台负责人姚冬阳在 Flink Forward Asia 2021 实时数仓专场的演讲。主要内容包括: 平台建设现状遇到的问题及解决未来规划 Tips:点击「阅读原文」查看原文视频 &PPT~ 01 平台建设现状 美团于 2018 年首次引入 Flink 实时计算引擎,当时的实时数仓概念还不太普及,平台只提供了 Flink Jar 任务的生命周期管理和监控报警。 2019 年,我们注意到实时计算的主要应用场景是解决离线数仓时效性低的问题。
6 天前 / sjf0115
摘要:本文整理自 XTransfer 资深 Java 开发工程师、Flink CDC Maintainer 孙家宝在 Flink CDC Meetup 的演讲。主要内容包括: MongoDB Change Stream 技术简介 MongoDB CDC Connector 业务实践 MongoDB CDC Connector 生产调优 MongoDB CDC Connector 并行化 Snapshot 改进后续规划 Tips:点击「阅读原文」获取演讲 PDF~ 01 MongoDB Change Stream 技术简介 MongoDB 是一种面向文档的非关系型数据库,支持半结构化数据存储;也是一种分布式的数据库,提供副本集和分片集两种集群部署模式,具有高可用和水平扩展的能力,比较适合大规模的数据存储。
12 天前 / sjf0115
▼ 关注「Apache Flink」,获取更多技术干货▼摘要:本文作者彭明德,介绍了钱大妈与阿里云 Flink 实时计算团队共建实时风控规则引擎,精确识别羊毛党以防营销预算流失。主要内容包括: 项目背景 业务架构 未规则模型 难点攻坚 回顾展望 Tips:点击「阅读原文」进入Flink 中文学习网~ 一、项目背景 目前钱大妈基于云原生大数据组件(DataWorks、MaxCompute、Flink、Hologres)构建了离线和实时数据一体化的全渠道数据中台,为各业务线提供 BI 报表及数据接口支持。
14 天前 / u561252
我很高兴与大家分享 Debezium2.0.0.Alpha2 已经发布! 此版本包含大量错误修复和改进,总共解决了 110 个问题。只是,哇! 一些值得注意的变化包括增量快照获得了对正则表达式的支持和一个新的停止信号。我们还进行了一些内务管理,并删除了一些不推荐使用的配置选项以及遗留的 MongoDB oplog 实现。 让我们更详细地看一下这些。 增量快照更改首先,增量快照取得了巨大的成功。我们从社区获得的反馈对于这个过程的工作原理以及它如何帮助简化捕获更改,特别是对于拥有非常大数据集的用户来说,是非常积极的。
15 天前 / u561252
在实际的开发中,JOIN 操作是我们经常使用的。JOIN 的本质是数据拼接,由于我们无法将所有的数据都存储到一张表中,所以也就有了 JOIN 操作,JOIN 操作可以很方便地根据需要将不同表的数据拼接在一起。本文总结了 Flink 双流 JOIN 的常见面试题,希望对你有所帮助。 1、双流 JOIN 与传统数据库 JOIN 之间的区别是什么数据集合:传统数据库左右两个表的数据集合是有限的,双流 JOIN 的数据会源源不断的流入结果更新:传统数据库表 JOIN 是一次执行产生最终结果后退出...
18 天前 / sjf0115
摘要:本文整理自大健云仓基础架构负责人、Flink CDC Maintainer 龚中强在 5 月 21 日 Flink CDC Meetup 的演讲。主要内容包括: 引入 Flink CDC 的背景现今内部落地的业务场景未来内部推广及平台化建设社区合作 Tips:点击「阅读原文」查看原文视频 & 演讲 PDF~ 一、引入 Flink CDC 的背景 公司引入 CDC 技术,主要基于以下四个角色的需求: 物流科学家:需要库存、销售订单、物流账单等数据用于做分析。 开发:需要同步其他业务系统的基本信息。 财务:希望财务数据能够实时传送到财务系统,而不是月结前才能看到。
27 天前 / u277623
作为 Apache Flink 的原始创建者,我们经常被要求提供有关监控 Flink 应用程序的最佳实践,人们想知道他们应该大规模监控他们的应用程序的哪些指标。在这个基于之前的监控网络研讨会的两篇博文系列中,我们想分享我们在监控方面的经验,关注要查看的指标,并解释如何解释它们。 为了让每个人都在同一个页面上,我们将开始详细介绍 Apache Flink 的监控和指标的概念,并回答如何监控 Apache Flink 的问题。然后,我们将注意力转向持续监控的指标,并解释它们的特征以及它们如何帮助了解正在发生的事情。
28 天前 / Flink实战剖析
在实时数仓分层中,Kafka 是一种比较常见的中间存储层,而在分布式计算中由于硬件、软件等异常导致的任务重启是一种正常的现象,通过之前的 Kafka-Consumer 分析得知,offset 是跟随着 checkpoint 周期性的保存, 那么消息是有可能被重复消费的,而 Kafka 作为输出端并不属于整个 Flink 任务状态的一部分,重复被消费的消息会重复的输出,因此为了保证输出到 Kafka 数据的一致性,Flink 在 Kafka Sink 端的事务语义。本篇主要介绍 Kafka-Sink 的执行流程与核心设计。
30 天前 / sjf0115
作者:龙逸尘,腾讯 CSIG 高级工程师背景介绍维表(Dimension Table)是来自数仓建模的概念。在数仓模型中,事实表(Fact Table)是指存储有事实记录的表,如系统日志、销售记录等,而维表是与事实表相对应的一种表,它保存了事实表中指定属性的相关详细信息,可以跟事实表做关联;相当于将事实表上经常重复出现的属性抽取、规范出来用一张表进行管理。 在实际生产中,我们经常会有这样的需求,以原始数据流作为基础,关联大量的外部表来补充一些属性。例如,在订单数据中希望能获取订单收货人所在市区的名称。
32 天前 / Yourtion
分享嘉宾:陈玉兆 阿里巴巴 技术专家编辑整理:许友昌 中控集团出品平台:DataFunTalk 导读:大家好,我是来自阿里巴巴计算平台事业部 SQL 引擎组的玉兆,我们团队之前主要负责 Apache Flink sql 模块的开发,过去半年我的主要工作是 Flink 与 Hudi 的集成,借此机会跟大家分享一下 Flink 与 Hudi 的集成工作,Hudi 在数据湖方面的发展方向。今天的介绍包括以下几大方面内容:数仓到数据湖 数据库入仓湖 HUDI 核心 Flink HUDI Inc ETL 01 数仓到数据湖图一 从数仓到数据湖的发展 1. 发展历史 近两年数据湖是一个比较火的技术,从传统的数仓到数据湖...
38 天前 / 比百事还可乐
作者 |Joe Moser &高赟翻译 | 高赟 Apache Flink,作为 Apache 社区最活跃的项目之一 [1],一直秉承积极开放的态度不断进行技术深耕。在此我们很荣幸的发布 Flink 1.15 版本,并和大家分享这个版本令人振奋的一些功能和改进! Apache Flink 核心概念之一是流 ( 无界数据) 批 ( 有界数据) 一体。流批一体极大的降低了流批融合作业的开发复杂度。在过去的几个版本中,Flink 流批一体逐渐成熟,Flink 1.15 版本中流批一体更加完善,后面我们也将继续推动这一方向的进展。
41 天前 / 逗逗
Flink 基础 Flink 特性流式计算是大数据计算的痛点,第 1 代实时计算引擎 Storm 对 Exactly Once 语义和窗口支持较弱,使用的场景有限且无法支持高吞吐计算;Spark Streaming 采用“微批处理”模拟流计算,在窗口设置很小的场景中有性能瓶颈,Spark 本身也在尝试连续执行模式(Continuous Processing),但进展缓慢。 Flink 是一个低延迟、高吞吐的实时计算引擎,其利用分布式一致性快照实现检查点容错机制,并实现了更好的状态管理,Flink 可在毫秒级的延迟下处理上亿次 / 秒的消息或者事件,同时提供了一个 Exactly-once 的一致性语义...
50 天前 / sjf0115
作者:吴云涛,腾讯 CSIG 高级工程师 一个监控系统对于每一个服务和应用基本上都是必不可少的。在 Flink 源码中监控相关功能主要在 flink-metrics 模块中,用于对 Flink 应用进行性能度量。Flink 监控模块使用的是当前比较流行的 metrics-core 库,来自 Coda Hale 的 dropwizard/metrics [1]。dropwizard/metrics 不仅仅在 Flink 项目中使用到,Kafka、Spark 等项目也是用的这个库。Metrics 包含监控的指标(Metric)以及指标如何导出(Reporter)。Metric 为多层树形结构,Metric Group + Metric Name 构成了指标的唯一标识。
52 天前 / 逗逗
Apache Hudi 是业内基于 Lakehouse 解决方案中的典型组件,相比于传统基于 HDFS 和 Hive 的数据仓库架构,基于 Apache Hudi 的 Lakehouse 解决方案有众多优势,例如:低延迟的数据刷新,高度的数据新鲜度;小文件自动化管理;支持数据文件的多版本读写;与大数据生态内 Hive/Spark/Presto 等引擎的无缝衔接。基于这些特性,我们开始尝试对当前主要基于 Hive 的数仓架构进行升级改造。 本文将重点介绍 Shopee Marketplace 业务使用 Flink + Hudi 构建实时数据仓库的解决方案、实践案例以及下一步规划。