4 天前 / 逗逗
点击上方公众号进入3 分钟秒懂大数据主页 然后点击右上角“设为标星” 比别人更快接收硬核文章 大家好,我是土哥。 今天给大家分享一波这十天录的视频的知识点,同时这十个知识点被拼多多、网易的面试官都考察过,出现的频率都很高,所以,没看完视频的小伙伴,可以看看文字,一块学习学习~ 1 Spark 的任务提交流程你熟悉吗?当面试官问你,Spark 的任务提交流程你熟悉吗? 你应该这样回答他: 当在命令行执行 spark -submit --master xxx.jar 的命令后,会执行以下操作: 1、客户端向资源管理器 Master 发送注册和申请资源的请求。
17 天前 / 逗逗
“ 大家下午好,我是来自当贝网络科技大数据平台的基础开发工程师王昱翔,感谢社区的邀请来参与这次分享,关于 Apache DolphinScheduler 在当贝网络科技大数据环境中的应用。 本次演讲主要包含四个部分: 平台建设的背景 大数据平台重构 大数据调度平台建设 下一步规划 Apache DolphinScheduler 王昱翔 当贝大数据平台基础开发工程师 毕业于电子科技大学,主要是做大数据平台的构建、集成及组件的运维的工作。 01 背景 在当贝网络科技使用 Apache DolphinScheduler 作为大数据调度平台之前,我们在平台、测试环境和调度环境中都面临着不少问题需要解决。
34 天前 / sjf0115
本期作者 沈汪洋 哔哩哔哩资深开发工程师 负责 B 站数据平台工具侧元数据、数据运营、数据管理等业务方向,专注于元数据采集、血缘应用、数据地图、建模工具、治理工具等工具或产品功能的落地和推广。 背景介绍 元数据是数据平台的衍生数据,比如调度任务信息,离线 hive 表,实时 topic,字段信息,存储信息,质量信息,热度信息等。在数据平台建设初期,这类数据主要散落于各种平台子系统的数据库中,例如 HiveMetaStore,调度系统 db 等,在这个时期数据平台主要以服务业务数据需求为主,平台也以管理表,写 ETL,配置调度这类功能性需求作为重点...
54 天前 / 逗逗
分享嘉宾:祝江华 网易 资深大数据工程师 编辑整理:陈凯翔亚厦股份 出品平台:DataFunTalk 导读:本文的主题是网易大数据 HDFS 的优化和实践,下面会从三个方面来介绍网易在大数据存储相关的工作和努力。 网易大数据平台 HDFS 在网易的实践及挑战 重点业务分享 01 网易大数据平台网易引入 Hadoop 十年有余。开源是大数据行业的发展趋势,网易也是本着开源开放的心态来做好大数据。 近年来随着业务的发展,网易实现了大数据跨云部署,跨云生产,为业务在生产效益上带来了很多益处。
54 天前 / 老白经
新粉请关注我的公众号 我很久没写大数据的东西了,最主要的原因是因为我不知道写啥。这个领域里面还在发生着很多事情,但是有深度的,有意义的事情不多,有趣的事情也不多。 最近看到了 Apache Kyuubi 这个项目,应该严格的说是 Apache Kyuubi(incubating)。项目还在孵化器中,并没有升级成为 Apache 的正式项目。 这是一个挺有趣的项目,所以我打算来写写。 我花了一点时间去了解这个项目的实际情况,发现这个项目是由网易开源的,还是有点吃惊。
103 天前 / sjf0115
关注快手大数据获取大数据资讯 导 读 本文主要介绍快手大数据统一安全平台。本文源自马玲玲老师在『快手大数据|数据中台技术交流会』上的演讲,相关视频回放可用快手 APP 搜索“快手大数据”观看。 本文会分四个部分展开介绍。首先,对相关的背景进行介绍,包括快手大数据安全解决的问题、比较经典的数据安全理论和快手大数据安全遇到的挑战;其次,会重点介绍我们的解决方案,包括具体的落地路径、平台的发展历程和架构;再次,会重点介绍我们平台的一些核心技术;最后,会介绍我们当前取得的进展和未来的规划。
109 天前 / 逗逗
文章作者:林家宝 贝壳 工程师 内容来源:作者投稿 出品平台:DataFunTalk 01 引言数据因为连接而产生更大的价值!这是大数据时代的底层色彩,所以稍有规模的公司都会组建自己的数据团队来专门的为数据服务。任务调度系统解决的就是数据的连接管理问题!( 以下简称:调度。)它就像是一条高速公路与加油站、而数据则是路上的车辆,时不时的需要加油才能驶离这条公路。 这套流程的核心就是作业调度管理和数据的 ETL ( Extract,Transform,Load )、调度就是解决哪些作业先运行以及如何运行的问题。
118 天前 / 云智慧AIOps社区
云智慧 AIOps 社区是由云智慧发起,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交流社区。该社区致力于传播 AIOps 技术,旨在与各行业客户、用户、研究者和开发者们共同解决智能运维行业技术难题,推动 AIOps 技术在企业中落地,建设健康共赢的 AIOps 开发者生态。 区间关联(Interval Join)Flink 支持常规 Join(Regular Join)和区间 Join(Interval Join) 关联,本章节将会对比说明常规关联和区间关联的技术差异和各自的适用场景。
136 天前 / sjf0115
▼ 关注「ApacheFlink」,看更多大咖▼ 摘要:本篇内容整理自 Pravega 中国社区创始人、戴尔科技集团软件工程技术总监滕昱在 Flink Forward Asia 2021 主会场的演讲。主要内容包括: 存储抽象的现状 Pravega 性能架构详解 Pravega 流存储数据演示展望未来 Tips:点击「阅读原文」查看原文视频 & 演讲 PDF~ 一、存储抽象的现状 在计算机软件设计中,有一个非常著名的观点:任何新的计算机问题都可以通过新加入的抽象层解决,对于存储也是一样。上图列出了三种大家主要使用的存储抽象,即块存储、文件存储和对象存储。
137 天前 / sjf0115
导读: 今天介绍一种大数据时代有名的列式存储文件格式:Parquet,被广泛用于 Spark、Hadoop 数据存储。Parquet 中文直译是镶木地板,意思是结构紧凑,空间占用率高。 1 概念 大规模分析型数据处理在互联网乃至其他行业中应用都已越来越广泛,尤其是当前已经可以用廉价的存储来收集、保存海量的业务数据情况下。如何让分析师和工程师便捷的利用这些数据也变得越来越重要。列式存储(Column-oriented Storage)是大数据场景面向分析型数据的主流存储方式。
155 天前 / 逗逗
摘要:本文整理自中国工商银行大数据平台负责人袁一在 Flink Forward Asia 2021 的分享。主要内容包括: 工行实时大数据平台建设历程工行实时大数据平台建设思路 展望 Tips:点击「阅读原文」查看原文视频 & 演讲 PDF~ 一、工行实时大数据平台建设历程 工商银行从 2002 年开始建设数据集市,当时主要使用 Oracle 类单机版的关系型数据库。随着数据量不断增加,开始引入 TD、ED 等国外高端一体机。2014 年工行正式基于 Hadoop 技术建设了大数据平台,在其之上构建了企业级数据湖及数据仓库。
158 天前 / HueiFeng
1 什么是数据倾斜 数据倾斜即指在大数据计算任务中某个处理任务的进程(通常是一个 JVM 进程)被分配到的任务量过多,导致任务运行时间超长甚至最终失败,进而导致整个大任务超长时间运行或者失败。外部表现的话,在 HiveSQL 任务里看到 map 或者 reduce 的进度一直是 99% 持续数小时没有变化;在 SparkSQL 里则是某个 stage 里,正在运行的任务数量长时间是 1 或者 2 不变。总之如果任务进度信息一直在输出,但内容长时间没有任何变化的时候,大概率是出现数据倾斜了。
162 天前 / sjf0115
作者 | 松子(李博源)策划 | Tina 编者按:《透过数字化转型再谈数据中台》系列连载 6-8 篇左右,作者结合自己在数据中台领域多年实践经验,总结了数据架构知识、BI 知识,以及分享给大家一些产业互联网实施经验。本文是系列文章中的第三篇。 在前面两篇 “关于数字化转型的几个见解 ”、“唯一性定理中的数据中台”提到了数据中台发展问题。比如概念发展太快,信息量过载,以及存在广义、狭义的数据中台定义的差别等,涉及到的这些知识都离不开数据架构的范畴,所以这一篇我会通过大数据架构发展的视角来总结与分享。
164 天前 / 逗逗
击上方"蓝色"关注,“星标”一起成长 点击上方卡片回复:666, 领取资料 数据资产管理服务工作,涵盖企业 IT 系统生命周期的不同阶段,协助企业建立适合自身特点的数据资产管理制度,提升企业对自身数据资产管理的能力,为后续数据挖掘变现提供可靠、有价值和高质量的数据,提供更好的产品和服务,降低开发和运维成本,控制风险,以及为企业提供更明智和更有效的决策数据支持。 数据资产管理平台实现数据资产的可视化、自动化和智能化运营,让数据资产管理团队从众多纷繁复杂的数据管理工作中解放出来,降低整体人员投入和成本投入。
173 天前 / sjf0115
时间过得真快,2021 年就过去了,又到了一年总结的时候了。本文将延续之前的惯例来总结一下过去一年大数据相关的项目顺利毕业成 Apache 顶级项目。在 2021 年一共有四个大数据相关项目顺利毕业成顶级项目,主要是 Apache DataSketches、Apache Gobblin、Apache DolphinScheduler 以及 Apache Pinot;同时有两个项目进入到 Apache 孵化器,主要是 Apache Kyuubi 以及 Apache SeaTunnel。值得关注的是,国内主导的 Apache 开源项目越来越多了,这个还是很不错的现象。