61 天前 / HueiFeng
本期作者 刘昊 哔哩哔哩 基础架构部 SRE 体系负责人 一、引言 随着 B 站近几年的快速发展,业务规模越来越大,迭代速度越来越快,系统运行复杂度越来越高。线上每天都会发生各种各样的故障,且发生的场景越来越刁钻。为了应对这种情况,保障业务在任何时刻都能将稳定性维持在一个高基线之上,B 站专门成立了 SRE 体系团队,在提升业务稳定性领域进行了全方位、体系化的积极探索,从理论性支撑和能力化建设进行着手,从故障应急响应、事件运营、容灾演练、意识形态等多方面进行稳定性运营体系的构筑。
102 天前 / 志军
本文说明了可用性的本质和两种可用性的计算方式。最后通过案例探讨该如何选择计算方式。 不可用和可用性是什么?软件系统是开发给用户使用的。所以,软件系统的可用性是由用户决定的。对一个没有用户使用的软件系统,谈论它的可用性是没有意义的。 由此,我们推导出“软件的不可用”的定义:用户能感知到的不可用才叫不可用。 那么,计划内停机是否算不可用?如果用户认为该计划停机,我们通常认为计划内停机不算不可用。 不可用的反面,即可用。软件系统维持可用的状态的能力,我们称之为可用性。这也就是可用性的本质。
133 天前 / 志军
总目标“可用性”带来的问题对于 SRE 来说,他们的终极 KPI 是可用性。但是,这个 KPI 对于 SRE 团队来说没有任何的指导意义。就好比篮球比赛上的目标是 100 分,它也不会教你的团队如何在一场比赛中拿到 100 分。我们应该思考的是如何在篮球比赛拿分,是通过提升个人能力,还是通过战术等。 说到底,不论是篮球分数,还是可用性,它们都是结果性指标,是无法指导我们的过程的。我们应该把精力放在过程指标,而不是结果指标。球场上的球员紧盯着计分牌对于得分是起不了任何作用的。
167 天前 / u128287
我有一剑,可搬山,可填海! 上一篇分享了 SRE 的相关理论、概念,以及如何从技术债务入手来推进 SRE 建设(见:SRE 实战 (01) 初识 + 探索 SRE 如何推进好大夫在线技术债务改造),本篇再来聊一聊建设落地过程中遇到的一大问题。 随着 SRE 的概念逐步推广,越来越多的业务接入微服务治理平台,大量数据也随之而来,ElasticSearch 对海量日志的实时分析逐渐出现了性能问题。另外,随着治理平台自身的发展以及各种监控大盘的陆续上马,业务研发对日志可视化的实时性要求也越来越高,查询的数据规模和范围也越来越大。
221 天前 / 虞大胆
公众号关注「奇妙的 Linux 世界」 设为「星标」,每天带你玩转 Linux ! 有很多人问过我想了解一下 SRE 这个岗位,这是个很大的话题,在这篇博客中把想到的一些介绍一下吧。 SRE 到底是什么?这是一个最早由 Google 提出的概念,我的理解是,用软件解决运维问题。标准化,自动化,可扩展,高可用是主要的工作内容。这个岗位被提出的时候,想解决的问题是打破开发人员想要快速迭代,与运维人员想要保持稳定,拒绝频繁更新之间的矛盾。 SRE 目前对于招聘来说还是比较困难。
256 天前 / 志军
如果对于生产环境的故障没有一个提前的准备,出现故障时,团队必定手忙脚乱。前段时间,笔者设计了一个线上故障处理的流程模板。当出现故障时,根据这个模板创建一个故障单,然后团队的人各司其职,将自己的那部分信息填到故障单中。方便排查人排查故障的根因。 当然,这个故障单应该是可以自动化生成的,但是,并不是每个团队一开始就有这样的能力去建设。所以,小团队时,手工创建这个故障单也是可以的。 同时,你也会发现,这个故障处理模板很大程度上,其实是一个初级的 AIOps。
290 天前 / 豌豆花下猫
在过去三年 SRE 的经历中,遇到过多起因为 JVM OOM 导致的线上故障。其中印象最深的一次排查经历:收到故障外呼后,几个大男人现场梳理业务链路,经过一番排查,最后发现根因竟然是部分网关应用动态加载数据库中的 groovy 脚本,导致 Metaspace out of memory 报错,影响了部分 XX 商户的代扣业务,最终落了一个 P4 故障。 但是之后很长一段时间内,都不太明白 Metaspace 是什么,为什么会耗尽?和 perm 区的关系是?不同线程本地变量和全局对象的关系? 正好趁这次机会,系统性的整理和分享一下 :) 一、走近 Java首先预热一下...
336 天前 / 祝坤荣(时序)
祝坤荣 读完需要 7 分钟速读仅需 3 分钟 原文 ( https://dzone.com/articles/top-open-source-projects-for-sres-and-devops ) 翻译: 祝坤荣 构建可伸缩与高可靠的软件系统是所有 SRE 的终极目标。跟着我们最近提供的博客给出的在监控,部署和运维领域的开源项目来进行持续学习。 想成为成功的 SRE 需要持续学习。现在有许多 SRE/DevOps 可使用的开源项目,每一种都是新的而让人兴奋的实现,其经常应对特定领域的挑战。这些开源项目帮你承担的重量让你可以干的更轻松些。
491 天前 / BloomingRose
SRE 关键词是「高扩展性」「高可用性」。高扩展性是指当服务用户数量暴增时, 应用系统以及支撑其服务(服务器资源、网络系统、数据库资源)可以在不调整系统结构,不强化机器本身性能 ,仅仅增加实例数量方式进行扩容。高可用性是指,应用架构中任何环节出现不可用时,比如应用服务、网关、数据库 等系统挂掉,整个系统可以在可预见时间内恢复并重新提供服务。当然,既然是「高」可用,那么这个时间一般期望在分钟级别。
550 天前 / kafeidou
本文源自《SRE 工作手册》英文版第三章,讲述的是家得宝(THD)公司在 SRE 转型中如何使用 VALET。 VALET 是一个易记易用的模式语言,分别代表: Volume Availability Latency Error Ticket 内容简介: 一、家得宝运维工作的原始状态 二、SRE 改进步骤 建立统一语言 自动数据收集 建设仪表盘 写入开发负责人的 OKR 管理批处理任务的 SLO 正文如下: 家得宝(THD)是世界上最大的家居装饰零售商,在北美拥有 2200 多家商店,每个商店都拥有 35,000 多种独特产品 ( 并在线提供了超过 150 万种产品。
562 天前 / 开发者头条
大家好,我是周刊菌。 以下内容选自「码农周刊 VIP 会员」圈子,每日更新,精彩不断。「码农周刊 VIP 会员」推出 34 周啦!感谢亲们的大力支持!第 034 期「码农周刊 VIP 会员专属邮件周报」已发送完毕,请注意查收。告诉大家一个好消息:已有数位上市公司 CTO 低调订阅了我们的「码农周刊 VIP 会员专属邮件周报」,感谢肯定! 「码农周刊 VIP 会员」是什么?简介版码农周刊 VIP 会员 = 全年 52 期「VIP 会员专属邮件周报」 + 只限 VIP 会员加入的交流圈子 + 大厂「内推机会」 + N 多福利 详细版 点击「阅读原文」即可查看详细介绍 加入「码农周刊 VIP 会员...
563 天前 / lxneng
School of SRE In early 2019, we started visiting campuses across India to recruit the best and brightest minds to ensure LinkedIn, and all the services that make up its complex technology stack, is always available for everyone. This critical function at Linkedin falls under the purview of the Site Engineering team and Site Reliability Engineers (SREs) who are Software Engineers specializing in reliability. SREs apply the principles of computer science and engineering to the design, development and operation o...
698 天前 / 后场技术
SRE 和 DevOps 有什么区别?您可能会说这很大程度上是语义问题,实际上,SRE 和 DevOps 工程师扮演着相同的基本角色。 尽管如此,SRE 和 DevOps 之间还是存在一些区别,即使是细微的区别。考虑到这两种角色在很大程度上具有相同的价值观和实践,它们似乎并不重要,但现实是,最终 SRE 和 DevOps 工程师满足了不同的需求。了解这些差异是确保您的 IT 团队尽可能高效地运营的关键。 什么是 SRE?SRE(Site Reliability Engineering)是站点可靠性工程或站点可靠性工程师的缩写,是指使用软件工程原理来帮助维护和管理 IT 系统。
849 天前 / 一猿小讲
监控值班室: @ 隔壁老王头 SQL 执行耗时时间过长,达到了报警阈值【5000ms】 隔壁老王头: @ 监控值班室 少量报警请忽略,批量关注即可。 监控值班室: @ 隔壁老王头 订单号【88886666】状态为处理中,是否需要关注? 隔壁老王头: @ 监控值班室 请忽略,稍后运营会处理。 如果上面的对话,每天都会高频出现在 QQ、微信之中,你是否会炸毛,尤其是深夜梦正香甜时。 如果上面的报警,你是否会怒火,尤其是当报警邮件撑爆了你的邮箱时。 其实,这就是宁可错杀一千,不可放过一个的监控系统设计理念,千万别怒火。
856 天前 / u505746
编者按本文是阅读 Site Reliability Engineering: How Google Runs Production Systems一书时所做的一些笔记。 这本书其实是以 SRE 为主题串联起来的一本 Google 技术合辑,涵盖了 Google 的大部分技术栈,各章都是由不同团队或个人撰写的(其中很多篇都是在收录到本书之前就发表了的)。除了综述性质的前两章开篇,后面各章都可以独立阅读。 本文内容仅供学习交流,如有侵权立即删除。