17 天前 / sjf0115
作者:周桂民,大数据架构师和负责人,主要负责大数据平台基础建设工作 酷开科技,全称深圳市酷开网络科技股份有限公司,成立于 2006 年,自主研发了智能电视操作系统——酷开系统。酷开科技先后接受来自爱奇艺、腾讯、百度的投资入股,市场估值近百亿元,主要业务有客厅运营业务、数字化营销业务、融媒体业务、共享屏业务等。截止 2022 年 3 月,中国共计有 3 亿台客厅智能终端,激活量 1.9 亿,日活用户突破 1.2 亿人,日均开机率达 40 %。其中,酷开科技拥有 5900 万终端数、3076 万月活以及 457 分钟平均开机时长。
34 天前 / 逗逗
「数仓宝贝库」,带你学数据!导读:基于数据驱动的业务必然会运用数据分析技术。本文主要介绍在线分析处理(Online Analytical Processing,OLAP)技术。 在线分析处理(Online Analytical Processing,OLAP)技术是大数据技术中快速解决多维分析问题的方法之一。由于 OLAP 需要快速读取大量数据,因此它对数据的读取吞吐量和计算效率有很高的要求。目前,基于大数据的 OLAP 技术一般从面向读的存储优化、预计算、支持灵活分析等方面不断提高,近几年出现了很多令人激动的产品。
49 天前 / sjf0115
关注「SelectDB」第一时间获取更多资讯! 导读:本文是货拉拉大数据引擎负责人杨秋吉& 张斌在 DataFunSummit 2022 多维分析架构峰会上的演讲分享,分享的主题是《货拉拉基于 Apache Doris 的 OLAP 体系演进及建设方法》,详细讲解了货拉拉从 OLAP1.0 到 3.0 的演进过程,其中不乏有值得借鉴的方法论以及深刻的技术思考,希望能对大家有所帮助。 分享人|货拉拉大数据引擎负责人杨秋吉 & 张斌 业务背景 货拉拉成立于 2013 年,成长于粤港澳大湾区,是一家从事同城、跨城货运、企业版物流服务、搬家、汽车销售及车后市场服务的互联网物流公司。
134 天前 / 逗逗
▼ 关注「大数据技术与数仓」,获取更多技术干货▼摘要:本文整理自 BIGO Staff Engineer 邹云鹤在 Flink Forward Asia 2021 的分享。主要内容包括: 业务背景落地实践 & 特色改进应用场景未来规划 一、业务背景 BIGO 是一家面向海外的以短视频直播业务为主的公司, 目前公司的主要业务包括 BigoLive ( 全球直播服务),Likee ( 短视频创作分享平台),IMO ( 免费通信工具) 三部分,在全球范围内拥有 4 亿用户。伴随着业务的发展,对数据平台处理能力的要求也是越来越高,平台所面临的问题也是日益凸显,接下来将介绍 BIGO 大数据平台及其所面临的问题。
143 天前 / sjf0115
1. 摘要 在本博客中,我们将讨论在构建流数据平台时如何利用 Hudi 的两个最令人难以置信的能力。 增量消费 -- 每 30 分钟处理一次数据,并在我们的组织内构建每小时级别的 OLAP 平台 事件流的无限回放 -- 利用 Hudi 的提交时间线在超级便宜的云对象存储(如 AWS S3)中存储 10 天的事件流(想象一个具有 10 天保留期的 kafka 主题) 具有部分记录更新的自定义 Hudi Payload 类 2. 当前状态 2.1 问题说明对于大多数业务需要手动干预以通过查看 KPI 和数据趋势来决定下一组操作用例以及其他不太实时的用例,我们需要具有成本效益和高性能的近实时系统。
190 天前 / sjf0115
▼ 关注「Apache Flink」,获取更多技术干货▼摘要:本文整理自 BIGO Staff Engineer 邹云鹤在 Flink Forward Asia 2021 的分享。主要内容包括: 业务背景落地实践 & 特色改进应用场景未来规划 Tips:点击「阅读原文」查看原文视频 & 演讲 PDF~ 一、业务背景 BIGO 是一家面向海外的以短视频直播业务为主的公司, 目前公司的主要业务包括 BigoLive ( 全球直播服务),Likee ( 短视频创作分享平台),IMO ( 免费通信工具) 三部分,在全球范围内拥有 4 亿用户。
406 天前 / sjf0115
引言 01 A/B 测定义 A/B 测试以数据驱动为导向,可以实现灵活的流量切分,使得同一产品的不同版本能同时在线,通过记录和分析用户对不同版本产生的行为数据,得到效果对比,最大程度地保证结果的科学性和准确性,从而帮助人们进行科学的产品决策。 基于用户行为数据计算不同版本的指标数据,是评估实验结果的唯一依据。 02 指标产品设计 图 1. 新增指标 指标系统产品设计上采用了指标注册的方式,用户可以在自己的业务域和业务线下进行指标注册,注册需要指定指标计算公式(SQL),指标 SQL 必须遵守 SQL 模板...
478 天前 / 知了一笑
一、Presto 概述 1、Presto 简介 Presto 是一个开源的分布式 SQL 查询引擎,适用于交互式分析查询,数据量支持 GB 到 PB 字节,Presto 虽然具备解析 SQL 的能力,但它并不属于标准的数据库范畴。 Presto 支持在线数据查询,包括 Hive,关系数据库以及专有数据存储。一条 Presto 查询可以将多个数据源的数据进行合并,可以跨越整个组织进行分析,Presto 主要用来处理响应时间小于 1 秒到几分钟的场景。 2、Presto 架构 Presto 查询引擎是基于 Master-Slave 的架构,运行在多台服务器上的分布式系统,由一个 Coordinator 节点和多个 Worker 节点组成...
485 天前 / sjf0115
分享嘉宾:肖赞 贝壳 资深工程师 编辑整理:赵冬生 出品平台:DataFunTalk 导读:随着大数据的持续发展及数字化转型的兴起,大数据 OLAP 分析需求越来越迫切,不论是大型互联网企业,还是中小型传统企业,都在积极探索及实践 OLAP 引擎选型及平台架构建设,大数据技术的蓬勃发展过程中产生了大量优秀的 OLAP 引擎,其带来的好处是,大家在做 OLAP 架构是可以有多种选择,其带来的弊端是,如何在众多 OLAP 引擎中选择适合业务需求的现状及后续发展,成为解决这一行业性难题的关键能力。今天会和大家分享下贝壳 OLAP 平台架构及演进。
486 天前 / 知了一笑
一、Druid 概述 1、Druid 简介 Druid 是一款基于分布式架构的 OLAP 引擎,支持数据写入、低延时、高性能的数据分析,具有优秀的数据聚合能力与实时查询能力。在大数据分析、实时计算、监控等领域都有相关的应用场景,是大数据基础架构建设中重要组件。 与现在相对热门的 Clickhouse 引擎相比,Druid 对高并发的支持相对较好和稳定,但是 Clickhouse 在任务队列模式中的数据查询能力十分出色,但是对高并发支持不够友好,需要做好很多服务监控和预警。
492 天前 / sjf0115
整理:赵宇彤、苗文婷 摘要:本文主要介绍 BTC.com 团队在实时 OLAP 方面的技术演进过程及生产优化实践,内容如下: 业务背景 机遇挑战 架构演进 架构优化 未来展望 Tips:点击文末「阅读原文」即可回顾作者原版分享视频~一、业务背景 1.1 业务介绍 - ABCD BTC.com 是一家区块链技术方案提供者,我们的业务主要分为四个部分,总结来说就是 ABCD:A 是人工智能机器学习,B 是区块链,C 代表云,D 是数据。这些模块不仅相互独立的,也可以互相结合。近几年人工智能、区块链的加速发展与大数据在背后提供的支持息息相关。
503 天前 / sjf0115
在维护 OLAP 引擎时,很多时候需要对引擎做系统的性能分析和优化,此时往往需要查看 CPU 耗时,了解主要耗时点及瓶颈在哪里。俗语有曰:兵欲善其事必先利其器,程序员定位性能问题也需要一件“利器”。性能调优工具(perf)能够显示系统的调用栈及时间分布,但是呈现内容上只能单一的列出调用栈或者非层次化的时间分布,不够直观。火焰图(flame graph)能够帮助大家更直观的发现问题。本文将以 Presto 为例,介绍火焰图的使用技巧。
613 天前 / sjf0115
供稿 |eBay Ads Team 作者 | 吴寒思周路余何 编辑 | 顾欣怡本文 5272 字,预计阅读时间 17 分钟更多干货请关注“eBay 技术荟”公众号 导读INTRODUCTION 本文介绍 eBay 广告数据平台的基本情况,并对比分析了 ClickHouse 与 Druid 的使用特点。基于 ClickHouse 表现出的良好性能和扩展能力,本文介绍了如何将 eBay 广告系统从 Druid 迁移至 ClickHouse,希望能为同业人员带来一定的启发。 01 背景 eBay 广告数据平台为 eBay 第一方广告主(使用 Promoted Listing 服务的卖家)提供了广告流量、用户行为和效果数据分析功能。
639 天前 / reesunhuang
分享嘉宾:五羖 阿里文娱 技术专家 编辑整理:汤志敏 出品平台:DataFunTalk、AI 启蒙者 导读:数据驱动的方法论已深入人心,无论是开发、产品还是运营,根据数据进行决策是必备环节。你是否好奇过,在优酷这样海量数据的场景下,是什么样的引擎在支撑着业务上林林总总的分析需求?大数据领域中,Kylin、Druid、ES、ADB、GreenPlum、ODPS 这些眼花缭乱的名字,它们之间又要什么区别和联系、企业如何进行选型?本文将为揭晓答案。