42 天前 / sjf0115
供稿 |eBay Ads Team 作者 | 吴寒思周路余何 编辑 | 顾欣怡本文 5272 字,预计阅读时间 17 分钟更多干货请关注“eBay 技术荟”公众号 导读INTRODUCTION 本文介绍 eBay 广告数据平台的基本情况,并对比分析了 ClickHouse 与 Druid 的使用特点。基于 ClickHouse 表现出的良好性能和扩展能力,本文介绍了如何将 eBay 广告系统从 Druid 迁移至 ClickHouse,希望能为同业人员带来一定的启发。 01 背景 eBay 广告数据平台为 eBay 第一方广告主(使用 Promoted Listing 服务的卖家)提供了广告流量、用户行为和效果数据分析功能。
68 天前 / reesunhuang
分享嘉宾:五羖 阿里文娱 技术专家 编辑整理:汤志敏 出品平台:DataFunTalk、AI 启蒙者 导读:数据驱动的方法论已深入人心,无论是开发、产品还是运营,根据数据进行决策是必备环节。你是否好奇过,在优酷这样海量数据的场景下,是什么样的引擎在支撑着业务上林林总总的分析需求?大数据领域中,Kylin、Druid、ES、ADB、GreenPlum、ODPS 这些眼花缭乱的名字,它们之间又要什么区别和联系、企业如何进行选型?本文将为揭晓答案。
116 天前 / 逗逗
文章作者:温正湖 网易易数 内容来源:数据库内核 @ 知乎专栏 导读:前一篇文章从 OLTP 出发,通过对比引出 OLAP,进一步介绍了数仓的基本概念,包括多维数据模型、数据立方体及其典型操作等。本篇再进一步,将介绍 OLAP 的类型及其代表产品,并分析主流开源 OLAP 产品的核心技术点。未看过前一篇文章的读者,欢迎做进一步了解: OLAP 数仓入门:基础篇 01 有哪些类型的 OLAP 数仓?1. 按数据量划分对一件事物或一个东西基于不同角度,可以进行多种分类方式。对数仓产品也一样。
139 天前 / Monica2333
四畳半神話大系前言 233 酱工作中开始接触 Presto 等大数据分析场景下的内容,列式存储属于 OLAP 中重要的一环。这周主要花时间搜索阅读网上的相关资料,发现一众大数据、数据库开发等大佬们的总结文章,如知乎专栏:「分布式数据系统小菜」、「数据库内核」、「Presto」、「尬聊数据库」...这对我这种想要入门的小白是很好的读物。本篇文章是我主要基于上述专栏中的一些资料的笔记总结,因为能力有限,很难跳脱于本文参考资料的总结。希望本篇文章能对和我一样的小白起到科普作用,想要了解更多的小伙伴请移步以上专栏。
194 天前 / sjf0115
前言适用于 即席查询 场景的开源查询引擎有很多,如:Elasticsearch、Druid、Presto、ClickHouse 等;每种系统各有利弊,有的擅长检索,有的擅长统计;实践证明,All In One 是行不通的,最好的方式是选取若干个(考虑运维成本,建议 1 ~ 3 个),每个都对应着自身最具优势的场景。 大多数的技术分享会从系统架构、功能扩展或性能优化角度进行讨论,本文不涉及这些内容。本文以 指标多维统计查询 为例,讨论多个查询引擎混合应用场景下的问题思考及相应的解决方案。
242 天前 / 知了一笑
一、列式库简介 ClickHouse 是俄罗斯的 Yandex 公司于 2016 年开源的列式存储数据库(DBMS),主要用于 OLAP 在线分析处理查询,能够使用 SQL 查询实时生成分析数据报告。 列式存储 行式存储和列式存储,数据在磁盘上的组织结构有着根本不同,数据分析计算时,行式存储需要遍历整表,列式存储只需要遍历单个列,所以列式库更适合做大宽表,用来做数据分析计算。 絮叨一句:注意这里比较的场景,是数据分析计算的场景。 二、集群配置 1、基础环境 ClickHouse 单服务默认已经安装完毕 Linux 下安装 ClickHouse 单机服务 SpringBoot 整合 ClickHouse 列式数据...
280 天前 / 张申然
OLAP 是大数据分析应用非常重要的组成部分。这篇文章是介绍 OLAP 任务在并发/分布式环境下执行和调度的算法和模型的。我们将从最简单的 Volcano 模型开始讲起,逐步引出分布式环境下执行 OLAP 查询操作的一些挑战和经典的解决方案。 这些算法和模型将主要在 SQL 和关系模型的语境之内讨论, Spark 和 Flink 这类基于 DAG 的处理系统内也有很多相似的概念,在本文中将不会赘述。 基础模型Volcano 模型 在《SQL 查询优化原理与 Volcano Optimizer 介绍》中,我们已经对以关系代数为基础的 SQL 查询优化算法进行了介绍...
557 天前 / u320498
本文的内容是我 4 月 13 日在 Doris Meetup 上的分享,我主要从技术选型,典型应用,平台化建设,功能改造 4 方面进行了分享。 技术选型背景在2017年年底,我们已经维护了 Kylin 和 Druid 两个开源 OLAP 系统,Kylin 主要满足离线固化多维分析的需求,Druid 主要满足实时多维分析的需求。 所谓的固化多维分析,指需要提前预定义维度和指标,然后查询时需要根据定义好的维度和指标进行查询,这样就无法满足即席的灵活多维分析需求,比如任意字段聚合,任意多表 Join。
745 天前 / sjf0115
Kylin是一个底层使用HBase作为存储引擎和查询引擎的的多维分析平台,并对外提供标准SQL查询功能。在超大规模数据集上,Kylin还能达到亚秒级的查询响应。 Kylin的架构: Kylin OLAP引擎基础框架,包括元数据(Metadata)引擎,查询引擎,Cube构建引擎及存储引擎等,同时包括REST服务器以响应客户端请求。 元数据引擎:包括项目、Hive表、数据模型、Cube等元数据的管理; 存储引擎:构建的Cube数据最终以HFile的格式存储到HBase; 查询引擎:基于Calcite的SQL解析和HBase的Coprocessor并发查询能力; Cube构建引擎:使用MapReduce实现对...
783 天前 / 黄军雷
作者 | 小米大数据如今的小米不仅是一家手机公司,更是一家大数据与人工智能公司。随着小米公司各项业务的快速发展,数据中的商业价值也愈发突显。而与此同时,各业务团队在数据查询、分析等方面的压力同样正在剧增。因此,为帮助公司各业务线解决这些数据方面的挑战,小米大数据团队不断地尝试通过不同的技术手段打造新的解决方案。 小米大数据,是一支以“融汇公司全景数据,通过数据驱动、AI 赋能公司核心业务”为使命的研发技术团队,目前主要负责设计、完善公司级数据仓库解决方案,提供完备及全链条的数据治理一站式平台,连通各业务线数据...
965 天前 / 编程小梦
注:本文对SnappyData的描述仅基于对SnappyData论文和官方文档的阅读。1 Why SnappyDataSnappyData诞生的背景是当时没有一个单一系统可以同时满足Streaming Processing + OLTP + OLAP这3个需求。
972 天前 / 编程小梦
OLTP是Online Transaction Processing的简称;OLAP是OnLine Analytical Processing的简称;HTAP是Hybrid Transactional/Analytical Processing的简称。Transaction是指形成一个逻辑单元,不可分割的一组读...
1002 天前 / 编程小梦
What is Druid Why Druid Druid 架构 Column Segment Segment的存储格式 指标列的存储格式 String 维度的存储格式 Segment生成过程 Segment load过程 Segment Query过程 Druid的编码和压缩 总结 参考资料 本文主要介绍Druid Storage的原理...
1043 天前 / neoReMinD
本文主要介绍Hulu用户分析平台使用的OLAP引擎——Nesto(Nested Store),是一个提供近实时数据导入,嵌套结构、TB级数据量、秒级查询延迟的分布式OLAP解决方案,包括一个交互式查询引擎和数据处理基础设施。(万字长文,从这里出发,阅读大概需要15分钟)1. 项目背景Nesto起源于用户分析团队,业务上需要一个面向用户、分析型的产品...
1288 天前 / phperzone
本文根据谢麟炯老师在〖DAMS 2017中国数据资产管理峰会〗现场演讲内容整理而成。 (点击底部“阅读原文”获取谢麟炯演讲完整PPT) 讲师介绍 谢麟炯,唯品会大数据平台高级技术架构经理,主要负责大数据自助多维分析平台,离线数据开发平台及分析引擎团队的开发和管理工作,加入唯品会以来还曾负责流量基础数据的采集和数据仓库建设以及移动流量分析等数据产品的工作。