172 天前 / kafeidou
目录为什么在 EMR 部署 Kylin 需要支持 Glue 什么是 AWS GlueKylin 为什么需要支持 AWS Glue CatalogApache Kylin 支持 AWS Glue 的版本部署前准备软件信息一览准备 Glue 数据库和表创建 AWS EMR 集群获取环境信息(Optional)测试 Spark SQL 和 AWS Glue 的连通性准备 kylin-spark-engine.jar(Optional)部署 Kylin 并连接 Glue 下载 Kylin 准备 Spark 修改 Kylin 启动脚本配置 Kylin 启动 Kylin 并验证构建验证查询讨论和问答背景为什么在 EMR 部署 Kylin 需要支持 Glue? 什么是 AWS Glue?AWS Glue 是一项完全托管的 ETL(提取、转换和加载)服务...
522 天前 / 秦夏
这是《漫谈分布式系统》系列的第 25 篇,预计会写 30 多篇。扫描文末二维码,关注公众号,听我娓娓道来。也欢迎转发朋友圈分享给更多人。 空间换时间 前面几篇文章,我们讲到了因为 MR 太慢,所以出现了 Spark,大幅提升了性能。但 Spark 还不够快,传统关系数据库发展起来的 MPP 架构,比较好的满足了我们的高性能查询要求,在和 HDFS 结合并提出类似 virtual segment 这样的概念后,也一定程度上解决了扩展性的问题。 但是,在一些复杂的场景下,无论是 Batch 还是 MPP 可能都不够快。比如查询条件复杂、join 表特别多、计算量特别大的情况。
533 天前 / u561252
Apache Kylin 4.0.0-beta 已于上周正式发布了,各位小伙伴们是不是已经开始试用起来啦?为了大家更快上手 Kylin 4.0.0-beta,我们精心准备了这篇功能介绍!更多问题和反馈欢迎大家留言与我们互动哦! 有奖征集性能测试报告见文末哦 先来看看当初大家对 Kylin 4 的期待吧! 接下来,我们一起看看 Kylin 4.0.0-beta 都实现了哪些功能呢? 为了提升用户体验,追平 Kylin 3.0 的原有功能,Kylin 4.0.0-beta 中重新设计并实现了 System Cube、Cube Planner phase1、支持部分高级函数等功能。
556 天前 / u561252
查询响应时间P90 0.5s,700 个 Cube,122 个 Project,16000 多个 Segment,单副本的存储500T,日查询量20w,日输入量200 亿。从 16 年至今,58 集团已使用 Apache Kylin 近五年,目前 20 多个业务线和子公司都在使用 Kylin。同时,58 集团也持续对 Kylin 进行了一系列优化,并贡献到了社区,让更多 Kylin 用户从中受益。在上周结束的 Kylin Meetup 中,我们邀请到了来自 58 集团大数据平台的杨正,跟大家分享 Kylin 在 58 同城的实践与优化。
557 天前 / u561252
前不久举办的 Kylin 五周年庆典中,热度最高的非这场“圆桌会谈”莫属。来自 Spark,Hudi,Clickhouse 以及 Kylin 等开源社区的大佬,来了一场跨越时差,跨越区域的“云”上对谈。 下一代云上数据分析产品的趋势都有哪些?他们都看好什么关键性技术呢?你想知道的都在本文啦! 热点问题 湖仓一体和 Lakehouse 到底是什么? 计算和存储分离已是大势所趋? 到底是公有云,私有云还是混合云? 数据上云,多云管理有何难点? 数据治理,数据安全如何实现? 一起来看看都有哪些大佬 主持人|李扬:Kyligence CTO...
580 天前 / u561252
作者简介 Lisa Li,在 eBay 中国研发中心大数据平台部门担任研发主管。带领的团队主要负责 SQL on Hadoop 的方案,给使用 SQL 查询语言的数据分析师在开源的 Hadoop 数据平台上提供更加快速稳定的数据处理和查询体验。主要包括 Kylin 和 Spark 两个软件产品的深度开发和服务运维工作。 2020 年 12 月 19 日,Apache Kylin 5 周年在线庆典顺利闭幕。本次活动中,Kylin 社区邀请了来自 eBay 的 Lisa Li 为大家带来了精彩的演讲,带领大家一起回顾了Apache Kylin 在 eBay 中的发展历程和应用实践,同时展望了 eBay 与 Kylin 的未来发展规划。
599 天前 / u561252
本文作者: 薛开琪,Kyligence 产品经理 & Scrum Master,Apache Kylin Contributor,帮助管理 Kylin Sprint 和 JIRA issue,并为 Kylin 贡献了许多优质内容和文档的改进。 Kylin 通过预计算技术加速大数据分析,但是依赖预计算,将所有可能分析的维度组合对应的数据都存储下来,会带来一定的存储压力和性能瓶颈。因此,如何剪枝优化 Cuboid,旨在花费尽量少的存储空间即可获得符合预期的查询效率,是运维好 Kylin 的必修课。
629 天前 / sjf0115
作者简介 周耀,Kyligence 解决方案架构师,Apache Kylin、Apache Superset Contributor。 Apache Kylin 和 ClickHouse 都是目前市场流行的大数据 OLAP 引擎;Kylin 最初由 eBay 中国研发中心开发,2014 年开源并贡献给 Apache 软件基金会,凭借着亚秒级查询的能力和超高的并发查询能力,被许多大厂所采用,包括美团,滴滴,携程,贝壳找房,腾讯,58 同城等; OLAP 领域这两年炙手可热的 ClickHouse,由俄罗斯搜索巨头 Yandex 开发,于 2016 年开源,典型用户包括字节跳动、新浪、腾讯等知名企业。
656 天前 / sjf0115
摘要· Apache Kylin 在中通是如何落地的,又是怎样赋能中通快递实现 OLAP 分析能力起飞的?本文从多方面对比了 Presto 和 Kylin 的优缺点,并从业务场景、调度整合、监控系统、运维调优、源码和二次开发等多个角度进行了阐述。 10 月 17 日的 Apache Kylin Meetup 上,来自中通快递的高级数据工程师王成龙带来了题为《Apache Kylin 在中通的实践》的分享。内容涵盖:OLAP 引擎在中通的发展历程;为什么选择 Apache Kylin;Apache Kylin 在中通的实践经验;未来规划。以下是分享全文。
735 天前 / sjf0115
在「718 Apache Kylin Meetup」直播上,爱奇艺的资深研发工程师林豪为大家带来了精彩的分享:他介绍了爱奇艺使用 Kylin 代替传统的 Hive + MySQL 模式,在爱奇艺 BI、推荐等 20+ 个业务场景的应用、具体落地效果,遇到的坑和一些优化经验,以及未来的计划,比如简化 Cube 调整难度等。 以下是 Meetup 回顾,需要 PPT 的同学可以点击文末「阅读原文」获取~ 1. 使用 Kylin 的缘由 爱奇艺 OLAP 服务演变爱奇艺大数据 OLAP 服务演变的过程可以用如下架构图说明: 数据处理流程分为如下几个层级:最下方是采集平台...
797 天前 / sjf0115
Kylin 作为汽车之家的核心 OLAP 引擎,服务于多个业务线与商业数据产品,应用于流量、线索、用户行为、推荐效果等方面的数据分析场景。目前已有 500+ 个 Kylin Cube,存储约 300 T,整体 Segment 数约 1.6 万;单个 Cube 原始数据过万亿,单个 Cube 最多 31 个维度;12 万HBase region,查询响应时间 TP 95 稳定在 2 秒以内。 本文导读 1. Kylin 在汽车之家的发展历程及现状: Kylin 简介、架构与原理 使用现状 发展历程 2. Kylin 在商业化数据产品中的应用与实践: 业务场景 技术选型(Kylin vs Druid vs ES) 战略级数据产品 - 车智云 开发流程 Kylin 的...
978 天前 / sjf0115
在近期的 Apache Kylin Meetup 北京站上,我们邀请到了一点资讯的大数据平台高级工程师毛洪玥来分享 Kylin 在一点资讯的应用。本次分享由一点资讯 OLAP 发展历程和系统基础架构开始,以 Kylin 在一点资讯的业务需求和实践经验为依托,分享针对数据量较大的Cube如何提高查询响应速度,如何缩短构建时间,如何缓解 HBase 压力来提升稳定性,及使用过程中遇到的特殊数据问题与解决方案等。 发展历程 2016 年 9 月开始,一点资讯选择了综合性能优秀的 Druid 来承接大数据部门、算法部门和广告部门的多维分析查询需求。
999 天前 / sjf0115
在过去,由于粗粒度缓存过期策略和外部缓存的缺乏,查询缓存在 Kylin 中的使用效率不高。由于激进的缓存过期策略,有用的缓存经常被不必要地清理。因为查询缓存存储在本地服务器中,它们因而不能在服务器之间共享。同时,由于本地缓存的大小限制,并不是所有有用的查询结果都可以被缓存。 针对这些不足,我们使用签名检查来实现新的查询缓存失效策略,并引入 memcached 作为 Kylin 的分布式缓存,使 Kylin 服务器能够在服务器之间共享缓存。同时添加 memcached 服务器来扩展分布式缓存也是很容易的。
1019 天前 / sjf0115
互联网人口红利逐渐消失,越来越多的运营、市场、产品同学聚焦用户留存/转化。经常有小伙伴在 Kylin 用户群里问「Kylin 可以做留存分析吗」「Kylin 可不可以做用户增长漏斗分析呀」答案当然是「Yes!」 今天为大家带来“征文赢首届 Kylin Data Summit 门票”活动的第 3 篇投稿文章,来自某互联网金融公司的杨卫将为大家分享如何使用 Kylin 进行渠道精准留存分析。 1. 导读 某互联网金融公司定位于传统机构没有照顾好的金字塔底部人群,助力普通民众获取更快捷、规范的生活消费服务与数字普惠金融服务。
1021 天前 / sjf0115
“随着维度数目的增加,Cuboid 的数量会爆炸式地增长。为了缓解 Cube 的构建压力,Apache Kylin 引入了一系列的高级设置,帮助用户筛选出真正需要的 Cuboid。这些高级设置包括聚合组(Aggregation Group)、联合维度(Joint Dimension)、层级维度(Hierachy Dimension)和必要维度(Mandatory Dimension)等。” 正如上述官方文档提到的,在维度过多时,合理地使用聚合组能解决 Cube 膨胀率过大的问题。听起来那么美好,但是,不合理的聚合组设置将对性能产生灾难性影响。