294 天前 / 编程小梦
前言 背景 HBase的HFile Shuffle排序实现原理 Kylin目前的CubeHFileJob实现原理 Kylin的HFile Shuffle排序实现原理 总结 前言在Apache Kylin Cube 构建原理 一文中我们介绍了Kylin 的Cube构建原理,我们知道目前Kylin的Cube最终是要存储在HBase中,所以Cube构建的最后一步需...
295 天前 / realXuJiang
JDP是企业级Core Data & Core AI 流分析平台, JDP全称JDataFlow Platfrom,分析流动中的数据。JDP并不是一个框架,而是一套完整的解决方案,主要包括:基础理念:JDP基于Streaming Analytics Visualization架构。开发工具:Ambari,基于Ambari源码扩展,JDP更好的融合Ambar...
297 天前 / Albert_Cheng
背景介绍我们的系统有一小部分机器学习模型识别需求,因为种种原因,最终选用了Spark Mlib来进行训练和预测。Mlib的Pipeline设计很好地契合了一个机器学习流水线,在模型训练和效果验证阶段,pipeline可以简化开发流程,然而在预测阶段,mlib pipeline的表现有点差强人意。问题描述某个模型的输入为一个字符串,假设长度为N,在我们的场景里...
297 天前 / Jieshan.Bi
欢迎点击右上角"NoSQL漫谈"关注我们 Apache HBase PMC主席Michael Stack在Mail List中宣布了HBase 2.0版本已正式Release的消息,该版本可以说是迄今为止最大的一个版本,共包含了4551个Issues(截止这篇文章写作之时,HBase社区共有20510个Issues,也就是说,这些Issues中共有22%的问...
297 天前 / yaya
作者:Patrick Riley编译:Bot编者按:Patrick Riley是Google Accelerated Science团队的首席工程师和高级研究员,加入该团队之前,他在谷歌的网络搜索部门度过了12年 ,是谷歌搜索功能的重要开发者之一,他也在搜索日志收集和用户行为分析方面做了大量工作。为了把这十几年来总结的经验分享给其他开发者,他特意撰文提出了一...
297 天前 / 编程小梦
1 Why TiDB 2 What TiDB 3 TiDB的理论背书 4 TiDB的应用场景 4.1 Replace Mysql 4.2 Replace HBase 4.3 TiDB for OLAP 4.4 TiDB for 实时数仓 4.5 Data Ecosystem Based On TiDB (In the future) 5 TiDB HTAP ...
299 天前 / 编程小梦
Spark Cubing 简介 Spark Cubing 访问 Kerberos认证的 HBase 解1 Spark Cubing 访问 Kerberos认证的 HBase 解2 Spark Cubing 参数配置 Spark Cubing 的构建性能 Spark Cubing 的资源消耗 Spark Cubing 的优缺点 Spark Cubing 的适用...
300 天前 / 编程小梦
What is Druid Why Druid Druid 架构 Column Segment Segment的存储格式 指标列的存储格式 String 维度的存储格式 Segment生成过程 Segment load过程 Segment Query过程 Druid的编码和压缩 总结 参考资料 本文主要介绍Druid Storage的原理,包括Druid S...
303 天前 / 编程小梦
预备知识 What is Kylin Kylin 构建时的数据格式转换 Kylin 查询时的数据格式流转 What is Druid Storage Why Kylin on Druid Storage How Kylin on Druid Storage 1 Druid新增Binary指标 2 Kylin 构建侧修改 3 查询侧修改 4 移除Kylin查...
305 天前 / realXuJiang
我曾经多次提到过,我涉猎广泛,但是没有有个精通的技能,在大数据领域几年,也没什么成果。我开始尝试改变,未来很长一段时间注重修炼内功,是什么让我有这样的改变?极客时间购买《朱赟的技术管理课》,安姐聊到很多技术管理经验,介绍算法一节:招式在花哨,敌不过内功深厚。安姐重写了四遍《算法导论》中的习题,让她算法特别厉害,也介绍算法的实际意义和价值。我未来计划往分布式数...
306 天前 / 编程小梦
1 系统架构 1.1 What is Kylin 1.2 What is Palo 2 数据模型 2.1 Kylin的聚合模型 2.2 Palo的聚合模型 2.3 Kylin Cuboid VS Palo RollUp 2.4 Palo的明细模型 3 存储引擎 4 数据导入 5 查询 6 精确去重 7 元数据 8 高性能 9 高可用 10 可维护性 10.1...
307 天前 / 郭茄茄
spark本来已经是一个分布式的计算平台,按说不应该手工去处理并行/异步的事情。但是,最近我实现的一个spark任务,需要一次写出数十个分区的数据,虽然这些分区的数据之间完全独立,但坑爹的是,基础数据平台提供的写数据接口只支持同步的一次写一个分区的数据。这样造成的结果就是,用循环来实现时,虽然我有很多个计算节点,数据(RDD)也分布于各个节点之上,但是我只能...
308 天前 / 美团点评技术团队
背景 美团点评酒旅运营需求在离线场景下,已经得到了较为系统化的支持,通过对离线数据收集、挖掘,可对目标用户进行T+1触达,通过向目标用户发送Push等多种方式,在一定程度上提高转化率。但T+1本身的延迟性会导致用户在产生特定行为时不能被实时触达,无法充分发挥数据的价值,取得更优的运营效果。 在此背景下,运营业务需要着手挖掘用户行为实时数据,如实时浏览、下单、...
309 天前 / 美团点评技术团队
这篇文章发在博客上https://www.cnblogs.com/popsuper1982/p/8505203.html,后来转到DBAplus社群,没想到竟然火了一把,再转回来给我的公众号的朋友们。 DBAplus的排版和起标题的水平比我专业多了,可以点击原文链接查看DBAplus里面的文章。 今天跟大家讲讲云计算、大数据和人工智能。为什么讲这三个东西呢...
310 天前 / sjf0115
对于数据密集型任务,I/O操作和网络数据传输需要花费相当长的时间才能完成。通过在 Hive 中启用压缩功能,我们可以提高 Hive 查询的性能,并节省 HDFS 集群上的存储空间。1. Hive中的可用压缩编解码器要在 Hive 中启用压缩,首先我们需要找出 Hadoop 集群上可用的压缩编解码器,我们可以使用下面的 set 命令列出可用的压缩编解码器。hi...