4 天前 / hyper0x
↑↑↑关注后"星标"Datawhale 每日干货&每月组队学习,不错过Datawhale 干货 作者:牧小熊,华中农业大学,Datawhale 原创作者 0. 前言分布式并行编程可以大幅提高程序性能,实现高效的批量数据处理。分布式程序运行在大规模计算机集群上(廉价的服务器),可以并行执行大规模数据处理任务,从而获得海量的计算能力。因此目前常用的大数据软件都可以部署在分布式计算环境种。 关于大数据的概论,在前面的文章中已经详细讲解,这里就不再赘述。
22 天前 / u561252
前不久举办的 Kylin 五周年庆典中,热度最高的非这场“圆桌会谈”莫属。来自 Spark,Hudi,Clickhouse 以及 Kylin 等开源社区的大佬,来了一场跨越时差,跨越区域的“云”上对谈。 下一代云上数据分析产品的趋势都有哪些?他们都看好什么关键性技术呢?你想知道的都在本文啦! 热点问题 湖仓一体和 Lakehouse 到底是什么? 计算和存储分离已是大势所趋? 到底是公有云,私有云还是混合云? 数据上云,多云管理有何难点? 数据治理,数据安全如何实现? 一起来看看都有哪些大佬 主持人|李扬:Kyligence CTO...
32 天前 / 逗逗
点击上方 "大数据肌肉猿"关注,星标一起成长 后台回复【加群】,进入高质量学习交流群 2021 年大数据肌肉猿公众号奖励制度 我们知道 YARN 是 Hadoop 资源管理器,无论是 MapReduce 应用还是 Spark 应用,应该都会用到 Yarn。我们学习 Yarn 不仅为了应对工作,面试中也是一个高频考点,无论是阿里、字节还是美团等一线大厂的一面,都喜欢问这个知识点。 今天我们就来聊聊 Yarn 的组成以及工作流程: 先介绍几个角色 ResourceManager 一个集群只有一个 RM,它是 YARN 的总指挥,负责协调集群上的计算资源...
35 天前 / 过往记忆大数据
2021 年 01 月 21 日,Apache 官方博客宣布 项目 Apache Superset 成为顶级项目。 Apache Superset 是一个现代化的大数据探索和可视化平台,它允许用户使用简单的无代码可视化构建器和最先进的 SQL 编辑器轻松快速地构建仪表盘(dashboards)。该项目于 2015 年在 Airbnb 启动,并于 2017 年 5 月进入 Apache 孵化器。说白了,其实 Apache Superset 算是一个大数据相关的 BI 可视化工具。
47 天前 / hivefans东杰
本文是围绕着快手的数据服务化中台进行介绍。第一部分是背景介绍,包括数据开发的痛点,第二部分是介绍大数据服务化平台,包括平台架构以及关键细节详解,第三部分是经验总结和未来思考。 背景 快手是一家数据驱动的公司,数据扮演了非常重要的角色,而数据的生产加工主要依靠数据开发工程师,其工作内容会涉及多个方面:数据开发工程师则首先根据业务需求开发好高质量的数据,通常是结构化数据(数据表);其次,开发稳定可靠的数据服务,并通过 API 方式交付给业务方使用。数据开发工程师有两个痛点:1)开发数据服务门槛高;2)重复开发数据服务。
47 天前 / 知了一笑
一、全景洞察简介 1、行业背景 智能数字时代,数据不论形态、格式和类型,已经迅速成为企业最有战略意义的资产;数据资产已经成为了可以形成业务洞察及优势的战略资源,数据的体量、多样性和复杂性也正以指数级增长。就像其他重要的企业资产,数据需要适当的管理和治理水平,以确保它的潜在价值得到认识和发挥作用。 2、基础概念 DMP 数据管理平台是 DataManagementPlatform 简称,是把分散的多方数据进行整合纳入统一的技术平台,并对这些数据进行标准化建模和细致分析,让用户可以把这些细分结果推向现有的互动营销环境里的平台。
48 天前 / hyper0x
↑↑↑关注后"星标"Datawhale 每日干货&每月组队学习,不错过Datawhale 干货 作者:牧小熊,华中农业大学,Datawhale 原创作者 1.什么是大数据 1.1 大数据特征我们引用了大数据的 4V 特征 Volume 大数据数据量大,数据量单位为 T 或者 P 级 Variety 数据类型多,大数据包含多种数据维度 比如 日志、视频、图片 Value 价值密度低,商业价值高 比如监控视频,其中关键 1-2 秒可能具有极高的价值 Velocity 要求处理速度块 1.2 大数据的 4 个关键技术 1.3 ETL/ELT 的区别 ETL 包含的过程是 Extract、Transform、Load 的缩写 包括了数据抽取 => 转换 => 加载三个...
49 天前 / sjf0115
点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源这是《大数据技术与架构》2021 年第 8 篇原创文章 小编在去年的时候,写过一篇轰动全网的文章《你需要的不是实时数仓 | 你需要的是一款强大的 OLAP 数据库》,这篇文章当时被各大门户网站和自媒体疯狂转载,保守阅读量也在 50 万 +PV,在这篇文章中提到过 Preto,Presto 作为 OLAP 计算领域的一员有着独特的优势和特点。本篇文章是作者作为 Presto 小白时期,经过调研、线上调试、生产环境稳定运行这个过程中大量的实践经验和资料检索,沉淀下来的一个读书笔记。
56 天前 / reesunhuang
背景大数据的迁移通常来说是个不小的工程,在移动 PB 级规模数据的同时,我们还需要保证对上层业务的透明。流利说在 2020 10 月份完成了大数据平台到阿里云的搬迁,整个过程历时 21 天。本文将简要介绍此次迁移的工程架构,以及这个期间的一些问题和思考。 现状大数据不同于在线业务,后者更多的是依赖缓存或数据库系统,这些系统一般云厂商都有现成的产品来实现数据同步,比如云产品 DTS,其可以建立数据库跨云的主从同步。而大数据的同步往往元数据与实际数据是分开的,一般元数据是在 Hive Metastore,而实际数据是 s3 这类对象存储系统上的文件。
57 天前 / zlt2000
点击上方“陶陶技术笔记”关注我 回复“资料”获取作者整理的大量学习资料! 一、前言 程序访问 MySQL 数据库时,当查询出来的数据量特别大时,数据库驱动把加载到的数据全部加载到内存里,就有可能会导致内存溢出(OOM)。 其实在 MySQL 数据库中提供了流式查询,允许把符合条件的数据分批一部分一部分地加载到内存中,可以有效避免 OOM;本文主要介绍如何使用流式查询并对比普通查询进行性能测试。 二、JDBC 实现流式查询 使用 JDBC 的 PreparedStatement/Statement 的 setFetchSize 方法设置为 Integer.MIN_VALUE 或者使用方法 Statement.enableStreami...
63 天前 / 逗逗
前文见 :一文看齐,主流大数据技术总结(上) 计算引擎 计算引擎目前主流的两个开源组件分别是 Spark 和 Flink。从两个引擎的处理模型来看,Spark 的批处理更为高效,Flink 则善于流处理,尽管两者都向着流批一体化的方向发展。当然,只要对弱项做优化还是可以跟另一方未做太多优化的强项比的,只是实现难度大些和效果上限可能略低。比如 Blink,阿里内部的 Flink,其 ML 模块经过优化,在大部分常用模型的计算效率都能高于开源的 Spark 的。如果开源 Spark 也经过阿里那样深度的优化,两者的差距就难说了。
67 天前 / 个推技术学院
回首过去十年,我们见证了大数据从概念诞生到行业落地,逐渐发展到基于数据中台驱动决策的数据智能时代。作为后互联网时代的产物,数据智能必将是未来很长一个发展阶段的核心所在。 每日互动(个推)作为数据智能行业的代表企业之一,于今年迎来了第一个十年。在这十年间,个推以消息推送起家,借助技术力量拓宽以数据智能为核心的业务范畴,现已成长为一家在 A 股上市的数据智能企业。 但“数据智能”这个词,对于大众来说仍然相对比较陌生。
71 天前 / 携程技术
作者简介 饭饭爱吃饭,携程高级数据分析师,主要负责旅游领域数据赋能相关工作。对旅游趋势识别与推荐、旅游广告投放、旅游 LBS 等领域有浓厚兴趣。 一、背景 随着大数据的发展,自然科学、社会科学、工业工程、金融科技等领域都积累了海量的数据,在这些海量的数据中,时间序列数据(按时间戳顺序依次到达的数据)是其中重要的组成部分。利用这些时间序列数据来预测其未来一段时间的状态有着广泛的应用场景,比如在金融领域被使用来做现金流量预测、股票价格预测,在零售行业被使用来做业务收入预测、库存消耗预测...