174 天前 / 苏鹭彬
现象最近发现线上的Kafka Consumer Client频繁出现无法消费的情况,导致offset积压。但是在重启Kafka Broker之后又正常了。 而Cloudera Manager在重启之前,我们发现三台broker中并没有KakfaController。让人很是不解。排查步骤检查Topic的状态目前已经没办法复现当时的场景,我们简单描述下,通过命...
176 天前 / 逗逗
感谢阅读「美图数据技术团队」的第 13 篇文章,关注我们持续获取美图最新数据技术动态。 美图收集的日志需要通过 ETL 程序清洗、规整,并持久化地落地于 HDFS / Hive,便于后续的统一分析处理。 图 1 / 什么是 ETL? / ETL即 Extract-Transform-Load,用来描述将数据从来源端经过抽取(extract)、转换(t...
181 天前 / 浪尖
shuffle概览 一个spark的RDD有一组固定的分区组成,每个分区有一系列的记录组成。对于由窄依赖变换(例如map和filter)返回的RDD,会延续父RDD的分区信息,以pipeline的形式计算。每个对象仅依赖于父RDD中的单个对象。诸如coalesce之类的操作可能导致任务处理多个输入分区,但转换仍然被认为是窄依赖的,因为一个父RDD的分区只会被...
182 天前 / 美图数据技术团队
本文系美图互联网技术沙龙第 11 期嘉宾分享内容,公众号后台回复「美图大数据平台」获取 PPT,点击阅读原文可观看完整视频回放。 如今大数据在各行业的应用越来越广泛:运营基于数据关注运营效果,产品基于数据分析关注转化率情况,开发基于数据衡量系统优化效果等。美图公司有美拍、美图秀秀、美颜相机等十几个 app,每个 app 都会基于数据做个性化推荐、搜索、报表...
183 天前 / Jieshan.Bi
本文针对HBaseCon Asia 2018大会的所有技术分享内容,做了简要的总结,希望能为大家带来一些帮助。因为这个总结存在较多主观的因素,难以概括到所有的要点,与演讲者自身希望传达的信息也可能存在较大的出入,如有理解偏差,欢迎联系本文作者交流或请直接留言。文末部分给出了8月18号圆桌会议讨论的几点关键信息。大会演讲议题与演讲者信息,请参考下图中的会议议...
183 天前 / 博文视点Broadview
要想成为一名优秀的大数据平台开发工程师,只要做到深度与广度并重,钻研技术、理解产品、能搭架构、能解Bug,那就妥妥的了。优秀的人都是类似的,说起来就太过无聊了。所以,本文换一个角度,聊聊如何做到不那么优秀,要想成为一名糟糕的开发工程师都需要有哪些表现。本文选自《大数据平台基础架构指南》一书,原文篇幅较长摘取时有部分删改。1 我是小白我怕谁 要想成为一名糟糕...
189 天前 / phperzone
本文根据徐皓老师在〖2018DAMS中国数据资产管理峰会〗现场演讲内容整理而成。 讲师介绍 徐皓,奇虎360大数据中心技术总监。曾就职于华为,主要负责软件产品线平台相关研发工作,涉及中间件、云等相关领域。目前负责奇虎360数据中心平台的规划和建设。 我们今天介绍一下奇虎360大数据中心平台化的演进过程和实践,整个介绍分为四个部分: 大数据中心的业务背景;...
189 天前 / yuzhangqi
作者|杜圣东“数据科学家走在通往无所不知的路上,走到尽头才发现,自己一无所知。”-Will Cukierski,Head of Competitions & Data Scientist at Kaggle 最近不少网友向我咨询如何学习大数据技术?大数据怎么入门?怎么做大数据分析?数据科学需要学习那些技术?大数据的应用前景等等问题。由于大数据技术涉及内容太庞...
190 天前 / sjf0115
本文来自于王新春在2018年7月29日 Flink China社区线下 Meetup·上海站的分享。王新春目前在唯品会负责实时平台相关内容,主要包括实时计算框架和提供实时基础数据,以及机器学习平台的工作。之前在美团点评,也是负责大数据平台工作。他已经在大数据实时处理方向积累了丰富的工作经验。 本文主要内容如下:唯品会实时平台现状Flink在唯品会的实践 Fl...
191 天前 / sjf0115
阿里妹导读:本文将为大家展示饿了么大数据平台在实时计算方面所做的工作,以及计算引擎的演变之路,你可以借此了解Strom、Spark、Flink的优缺点。如何选择一个合适的实时计算引擎?Flink凭借何种优势成为饿了么首选?本文将带你一一解开谜题。 本文作者:易伟平 整理:姬平&郑宁 平台现状 下面是目前饿了么平台现状架构图: 来源于多个数据源的数据写到k...
192 天前 / 浪尖
浪尖一直觉得spark 的源码值得我们细细品读,帮助解决我们生产中的问题,可以学习大牛的编程思路,学习spark架构设计,学习scala及java编程,到处都是成长。但是,成长欠缺的地方可能是大家希望有个人做指导,那么点击阅读原文加入浪尖知识星球,已经和正在公布源码学习视频及文章。帮助大家在技术方面更进一步。1. backpressure-背压backpre...
194 天前 / 眠三沐
Flink处理“流”,对流消息的处理支持三种级别语义分别是“At Most once、At Least once、Exactly once”。 At Most onces:消息最多被处理一次,sender发出消息之后,receiver无论是否处理成功,都不会再重发。类似于UDP协议的效果,只管发送,不管结果。 At Least once:消息至少被处理一次,...
196 天前 / sjf0115
前面,已经有一篇文章讲解了spark的checkpoint:必会:关于SparkStreaming checkpoint那些事儿 同时,浪尖也在知识星球里发了源码解析的文章。spark streaming的Checkpoint仅仅是针对driver的故障恢复做了数据和元数据的Checkpoint。而本文要讲的flink的checkpoint机制要复杂了很多,...
196 天前 / 携程技术中心
作者简介 束开亮,携程大市场部BI团队,负责数据分析与挖掘。同济应用数学硕士,金融数学方向,法国统计学工程师,主修风险管理与金融工程。 前言 商业智能(BI)是企业级大数据分析必不可少的组成部分,除了传统的ETL,数据仓库,可视化报表等应用和展示层技术,如今的BI更是依托大数据工具兼顾且发展了数据的策略和算法层,比如利用R和Python做数据分析和数据挖...
197 天前 / 眠三沐
Qestion: Flink被用来和Spark相比,但是我认为这样的比较不太合适,把Flink窗口事件和Spark微批处理进行比较,同样的Flink与Samza对比也是,这两种情况下的比较都是实时流计算与批量处理事件策略的比较,我更想比较Flink与Storm之间的区别,这两者在概念上更相近。 我发现了这个幻灯片1(4),他主要的区别在于“可调整延迟时间”,...