349 天前 / BloomingRose
本文根据王康老师在〖deeplus 直播第 268 期〗线上分享演讲内容整理而成。(文末有获取本期 PPT& 回放的方式,不要错过) 王康 唯品会 数据平台 高级开发工程师 多年大数据实时计算方面工作经验,负责 Flink SQL 平台的设计与开发工作,致力于为公司提供大规模、高效、稳定的实时数据 SQL 开发平台。曾入职京东物流,负责实时数据平台单表、宽表平台化建设。 自 2017 年起,为保障内部业务在平时和大促期间的平稳运行,我们唯品会就开始基于 Kubernetes 深入打造高性能、稳定、可靠、易用的实时计算平台...
353 天前 / sjf0115
摘要:由汽车之家实时计算平台负责人邸星星在 4 月 17 日上海站 Meetup 分享的,基于 Flink + Iceberg 的湖仓一体架构实践,内容包括: 数据仓库架构升级的背景 基于 Iceberg 的湖仓一体架构实践 总结与收益 后续规划 Tips:点击文末「阅读原文」即可查看原文视频~ GitHub 地址 https://github.com/apache/flink 欢迎大家给Flink点赞送 star~ 一、数据仓库架构升级的背景 1. 基于 Hive 的数据仓库的痛点 原有的数据仓库完全基于 Hive 建造而成,主要存在三大痛点: 痛点一:不支持 ACID 1)不支持 Upsert 场景; 2)不支持 Row-level delete...
360 天前 / sjf0115
摘要:本文介绍去哪儿数据平台在使用 Flink + Iceberg 0.11 的一些实践。内容包括: 背景及痛点 Iceberg 架构 痛点一:Kafka 数据丢失 痛点二:近实时 Hive 压力大 Iceberg 优化实践 总结 Tips:点击文末「阅读原文」即可查看更多技术干货~ GitHub 地址 https://github.com/apache/flink 欢迎大家给Flink点赞送 star~ 一、背景及痛点 1. 背景 我们在使用 Flink 做实时数仓以及数据传输过程中,遇到了一些问题:比如 Kafka 数据丢失,Flink 结合 Hive 的近实时数仓性能等。Iceberg 0.11 的新特性解决了这些业务场景碰到的问题。
365 天前 / 数栈DTinsightu580540
5 月 20 日,袋鼠云数栈技术研发团队工程师刘星(花名:吹雪)为大家直播分享《Flink jm、tm 启动过程和资源分配》。错过直播的朋友可以钉钉扫描文末的二维码,加入钉钉群回看直播,或者在 b 站搜索“袋鼠云”观看视频。 b 站视频网址: https://www.bilibili.com/video/BV16K4y1G7jo/ 下面带大家来回顾下本次直播的内容,本次直播吹雪大佬主要从以下几个方面来为大家进行分享。 JM 启动过程 1、从日志角度分析启动流程 1)client 生成 jobGraph 详情请参考: https://www.bilibili.com/video/BV13K4y1P7ri 2)Yarn RM 接收到请求 ( 和 yarn 交互不重点分析...
375 天前 / 知了一笑
一、Flink 概述 1、基础简介 Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink 被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来执行计算。主要特性包括:批流一体化、精密的状态管理、事件时间支持以及精确一次的状态一致性保障等。Flink 不仅可以运行在包括 YARN、Mesos、Kubernetes 在内的多种资源管理框架上,还支持在裸机集群上独立部署。在启用高可用选项的情况下,它不存在单点失效问题。
377 天前 / sjf0115
摘要:本文由 bilibili 大数据实时平台负责人郑志升分享,本次分享核心讲解万亿级传输分发架构的落地,以及 AI 领域如何基于 Flink 打造一套完善的预处理实时 Pipeline。本次分享主要围绕以下四个方面: B 站实时的前世与今生 Flink On Yarn 的增量化管道的方案 Flink 和 AI 方向的一些工程实践 未来的发展与思考 Tips:点击文末「阅读原文」即可回顾作者原版分享视频~ GitHub 地址 https://github.com/apache/flink 欢迎大家给Flink点赞送 star~ 一、B 站实时的前世与今生 1. 生态场景辐射 说起实时计算的未来,关键词就在于数据的实效性。
383 天前 / sjf0115
摘要:微博机器学习研发中心数据计算负责人,高级系统工程师曹富强为大家带来 Flink 实时计算在微博的应用介绍。内容包括: 微博介绍 数据计算平台介绍 Flink 在数据计算平台的典型应用 Tips:点击文末「阅读原文」即可回顾作者原版分享视频~ GitHub 地址 https://github.com/apache/flink 欢迎大家给Flink点赞送 star~ 一、微博介绍 本次给大家带来的分享是 Flink 实时计算在微博的应用。微博是中国领先的社交媒体平台,目前的日活跃用户是 2.41 亿,月活跃用户是 5.5 亿,其中移动用户占比超过了 94%。
385 天前 / 数栈DTinsightu580540
首发于数栈精品技术文章分享写文章数栈技术分享:详解 FlinkX 中的断点续传和实时采集数栈 DTinsight已认证的官方帐号袋鼠云云原生一站式数据中台 PaaS——数栈,覆盖了建设数据中心过程中所需要的各种工具(包括数据开发平台、数据资产平台、数据科学平台、数据服务引擎等),完整覆盖离线计算、实时计算应用,帮助企业极大地缩短数据价值的萃取过程,提高提炼数据价值的能力。 目前,数栈 - 离线开发平台(BatchWorks) 中的数据离线同步任务、数栈 - 实时开发平台(StreamWorks)中的数据实时采集任务已经统一基于 FlinkX 来实现。
385 天前 / 数栈DTinsightu580540
首发于数栈精品技术文章分享写文章数栈技术分享:详解 FlinkX 中的断点续传和实时采集数栈 DTinsight已认证的官方帐号袋鼠云云原生一站式数据中台 PaaS——数栈,覆盖了建设数据中心过程中所需要的各种工具(包括数据开发平台、数据资产平台、数据科学平台、数据服务引擎等),完整覆盖离线计算、实时计算应用,帮助企业极大地缩短数据价值的萃取过程,提高提炼数据价值的能力。 目前,数栈 - 离线开发平台(BatchWorks) 中的数据离线同步任务、数栈 - 实时开发平台(StreamWorks)中的数据实时采集任务已经统一基于 FlinkX 来实现。
393 天前 / sjf0115
对于需要保存超大状态(远超于内存容量)的流计算场景来说,目前 RocksDB [1] 是 Flink 平台上官方实现的唯一选择。业界也有使用 Redis 等其他服务作为状态后端的方案,但终究不够成熟,且已被社区否决 [2]。基于我们长期的状态调优经验,通过合理的资源分配,RocksDB 方案可以稳定支持上百 GB 甚至上 TB 的总状态量;但是众所周知的是,RocksDB 的可调参数非常繁琐,有上百个之多,且彼此之间还相互影响,非常难以调整。更致命的是,默认参数和配置不当的参数,读写性能会比较差,甚至会成为严重的性能瓶颈。
395 天前 / sjf0115
摘要:Apache Flink 作为当前最流行的流批统一的计算引擎,在实时 ETL、事件处理、数据分析、CEP、实时机器学习等领域都有着广泛的应用。从 Flink 1.9 开始,Apache Flink 社区开始在原有的 Java、Scala、SQL 等编程语言的基础之上,提供对于 Python 语言的支持。经过 Flink 1.9 ~ 1.12 以及即将发布的 1.13 版本的多个版本的开发,目前 PyFlink API 的功能已经日趋完善,可以满足绝大多数情况下 Python 用户的需求。接下来,我们以 Flink 1.12 为例,介绍如何使用 Python 语言,通过 PyFlink API 来开发 Flink 作业。
408 天前 / 逗逗
摘要:本文由知乎技术平台负责人孙晓光分享,主要介绍知乎 Flink 数据集成平台建设实践。内容如下: 业务场景 历史设计 全面转向 Flink 后的设计 未来 Flink 应用场景的规划 Tips:点击文末「阅读原文」即可回顾作者原版分享视频~ 一、业务场景 很高兴和大家分享近期知乎以 Flink 为基础,重构上一代数据集成平台过程中的一些收获。数据集成平台作为连接各种异构数据的纽带,需要连接多种多样的存储系统。而不同的技术栈和不同的业务场景会对数据集成系统提出不同的设计要求。 我们首先来看一下在知乎内部数据集成的业务场景。
415 天前 / hivefans东杰
摘要:本文由同城艺龙大数据开发工程师张军分享,主要介绍同城艺龙 Flink 集成 Iceberg 的生产实践。内容包括: 背景及痛点 Flink + Iceberg 的落地 Iceberg优化实践 后续工作 总结 Tips:点击文末「阅读原文」可查看更多生产实践~ 一、背景及痛点 业务背景 同程艺龙是一个提供机票、住宿、交通等服务的在线旅游服务平台,目前我所在的部门属于公司的研发部门,主要职责是为公司内其他业务部门提供一些基础服务,我们的大数据系统主要承接的业务是部门内的一些大数据相关的数据统计、分析工作等。
435 天前 / 数栈DTinsightu580540
2 月 2 日,FlinkX 与 FlinkStreamSQL 系列课程第 11 期专场直播。第 11 讲由袋鼠云数栈技术研发团队工程师刘星(花名:吹雪)主讲,主题为《任务运维和数据指标相关的使用》。错过直播的朋友可以点击阅读原文或者钉钉扫描文末的二维码,回看直播。 1 实时开发常见问题 问 一个实时计算任务该分配多少资源? 建议:一些简单 ETL 任务,并且源数据流量在一定范围内, tm 个数 1、全局并行度 1、内存 1G。