5 天前 / 开发者头条
大家好,我是周刊菌。 以下内容选自「码农周刊 VIP 会员」圈子,每日更新,精彩不断。 「码农周刊 VIP 会员」推出 38 周啦!感谢亲们的大力支持!第 038 期「码农周刊 VIP 会员专属邮件周报」已发送完毕,请注意查收。 告诉大家一个好消息:已有数位上市公司 CTO 低调订阅了我们的「码农周刊 VIP 会员专属邮件周报」,感谢肯定! 「码农周刊 VIP 会员」是什么? 简介版 码农周刊 VIP 会员 = 全年 52 期「VIP 会员专属邮件周报」 + 只限 VIP 会员加入的交流圈子 + 大厂「内推机会」 + N 多福利 详细版 点击「阅读原文」即可查看详细介绍 码农周刊 VIP 新年特...
28 天前 / sjf0115
在前一篇文章《ClickHouse 的运行指标监控可以怎么玩?》中,我介绍了怎么利用 ClickHouse 内置的 /metrics 服务,轻松与Prometheus和Grafana 集成。 所以今天就接着聊一聊,在 ClickHouse 中有哪些常用的监控指标。 在生产环境中,大部分操作都是围绕MergeTree 进行的,总的来说不外乎 INSERT、ALTER 、MERGE 和SELECT这么几类操作。 由于 ClickHouse 内部记录的指标非常多, 这里不可能列全,所以今天只能算是抛砖引玉,供大家参考。
57 天前 / kafeidou
由吴晟、高洪涛 和 Tevah Platt 撰写。Apache SkyWalking 创始人吴晟和 SkyWalking 的核心贡献者高洪涛都是 Tetrate 的工程师,而 Tevah Platt 是 Tetrate 的内容创造者。Tetrate 帮助企业采用开源服务网格工具,包括 Istio、Envoy 和 Apache SkyWalking,让它们轻松管理微服务,在任何架构上运行服务网格,以至现代化他们的应用。 可观察性平台和开源应用程序性能监控(APM)项目 Apache SkyWalking,今天刚宣布 8.0 的发布版本。
106 天前 / 煎鱼
“你说说,没有仪表盘的车,你敢开吗?” “没有仪表盘的车开在路上,你怎么知道现在是什么情况?” 图来自网络 “客户说你这车又崩了,咋知道什么时候好的?啥时候出的问题?” 前言将思考转换到现实的软件系统中,可想而知没有监控系统的情况下,也就是没有 ”仪表盘“ 的情况下实在是太可怕了。 你的故障永远都是你的客户告诉你的,而。..在什么时候发生的,你也无法确定,只能通过客户的反馈倒推时间节点,最后从错误日志中得到相对完整的日志信息。
132 天前 / reesunhuang
在 Kubernetes 中手动方式部署 Prometheus 联邦。 monitor-prom 当我们有多个 Kubernetes 集群的时候,这个时候就需要需要指标汇总的需求了,如上图一样,我们假定在外部部署一个 Prometheus 的 Federate,然后去采集当前 k8s 中的 kube-system 与 default 俩个 namespace。 环境我的本地环境使用的 sealos 一键部署,主要是为了便于测试。 OSKubernetesHostNameIPServiceUbuntu 18.041.17.7sealos-k8s-m1192.168.1.151node-exporter prometheus-federate-0Ubuntu 18.041.17.7sealos-k8s-m2192.168.1.152node-exporter grafana alertmanager-0Ubuntu 18.04...
143 天前 / reesunhuang
本章节讲解服务发现与 Relabelling 的机制与范例。 通过服务发现的方式,我们可以在不重启 Prometheus 服务的情况下动态的发现需要监控的 Target 实例信息。 如上图所示,对于线上环境我们可能会划分为:dev, stage, prod 不同的集群。每一个集群运行多个主机节点,每个服务器节点上运行一个 Node Exporter 实例。Node Exporter 实例会自动注册到 Consul 中,而 Prometheus 则根据 Consul 返回的 Node Exporter 实例信息动态的维护 Target 列表,从而向这些 Target 轮询监控数据。
172 天前 / xF0rk
之前,我写过几篇有关「线上问题排查」的文章,文中附带了一些监控图,有些读者对此很感兴趣,问我监控系统选型上有没有好的建议? 目前我所经历的几家公司,监控系统都是自研的。其实业界有很多优秀的开源产品可供选择,能满足绝大部分的监控需求,如果能从中选择一款满足企业当下的诉求,显然最省时省力。 这篇文章,我将对监控体系的基础知识、原理和架构做一次系统性整理,同时还会对几款最常用的开源监控产品做下介绍,以便大家选型时参考。
193 天前 / 开发者头条
大家好,我是头条菌。我爱程序员!我的微信号:toutiaoio007,欢迎加我好友,拉你入群~ 今天要推荐的是,360 开源的,基于 Prometheus 的监控系统。 老规矩,看介绍! 该系统主要由三个组件组成——计算引擎、报警网关以及 Web-UI。与 Prometheus 使用静态的配置文件来配置报警规则不同,Doraemon 可以通过 Web-UI 动态的配置加载报警规则。此外,Doraemon 还集成了许多自定义的报警功能。 加入「码农周刊 VIP 会员」,与上市公司 CTO 一起成长! 全年 52 期「VIP 会员专属邮件周报」 + 只限 VIP 会员加入的交流圈子 + 大厂「内推机会」 + N 多福利...
201 天前 / 开发者头条
大家好,我是头条菌。 我爱程序员!我的微信号:toutiaoio007,欢迎加我好友,拉你入群~ 今天要推荐的是一款 GitHub 代码泄露监控系统,它通过定期扫描 GitHub 发现代码泄露行为,为企业安全保驾护航! 老规矩,看介绍! 全可视化界面,操作简单 支持 GitHub 令牌管理及智能调度 扫描结果信息丰富,支持批量操作 任务配置灵活,可单独配置任务扫描参数 支持白名单模式,主动忽略白名单仓库 项目地址:https://github.com/4x99/code6 不想错过更多精彩内容?欢迎扫码了解!
215 天前 / 雨后天空
点击上方“zhisheng”,选择“设为星标” 后台回复"666",获取新资料 之前讲解了 JobManager、TaskManager 和 Flink Job 的监控,以及需要关注的监控指标有哪些。本文带大家讲解一下如何搭建一套完整的 Flink 监控系统,如果你所在的公司没有专门的监控平台,那么可以根据本文的内容来为公司搭建一套属于自己公司的 Flink 监控系统。 利用 API 获取监控数据熟悉 Flink 的朋友都知道 Flink 的 UI 上面已经详细地展示了很多监控指标的数据,并且这些指标还是比较重要的,所以如果不想搭建额外的监控系统...
249 天前 / u566500
使用命令行参数usage: mini-status [-h] [-v] [-u URI] [-a ADDRESS] [-p PASSWORD]miniStatus backend programOptional arguments:-h, --help Show this help message and exit.-v, --version Show program's version number and exit.-u URI, --uri URI uri for api, default '/update'-a ADDRESS, --address ADDRESSaddress to listen, default 0.0.0.0:8080-p PASSWORD, --password PASSWORDaccess password, default 1234567890配置微信小程序点击小程序右下角的+按钮,填写对应的配置选项 例如...
261 天前 / u128287
背景 阿里集团针对故障处理提出了“1/5/10”的目标 -- 1 分钟发现、5 分钟定位、10 分钟恢复,这对我们的定位能力提出了更高的要求。 EMonitor 是一款集成 Tracing 和 Metrics,服务于饿了么所有技术部门的一站式监控系统,其覆盖了:1、前端监控、接入层监控;2、业务 Trace 和 Metric 监控;3、所有的中间件监控;4、容器监控、物理机监控、机房网络监控。 每日处理总数据量近 PB,每日写入指标数据量上百 T,日均几千万的指标查询量,内含上万个图表、数千个指标看板,并且已经将所有层的监控数据打通并串联了起来。
290 天前 / 静逸秋水
某天产品经理,在群里吐槽,自己打开自家的网站,浏览器崩溃了。然后又有人运营跟着评论,说某天也遇见了这种情况。这个时候 HR 也跳出来说面试的候选人也说遇到过这种情况。似乎这个时候,无论我们自己的电脑怎样,但是这个问题就必须有结论。 *前端不想看到的崩溃界面*确定问题其实大家日常在开发的时候,也偶尔会遇到 Crash 的问题,但是大多数原因是我们代码逻辑的问题,因此复现率非常高,我们也容易定位问题。
293 天前 / kafeidou
大家好,我是 roc,来自腾讯云容器服务 (TKE)团队,这次为大家带来实用的打造云原生大型分布式监控系统系列文章,请笑纳。 No.1概述 Prometheus 几乎已成为监控领域的事实标准,它自带高效的时序数据库存储,可以让单台 Prometheus 能够高效的处理大量的数据,还有友好并且强大的 PromQL 语法,可以用来灵活的查询各种监控数据以及配置告警规则,同时它的 pull 模型指标采集方式被广泛采纳,非常多的应用都实现了 Prometheus 的 metrics 接口以暴露自身各项数据指标让 Prometheus 去采集...
304 天前 / 开发者头条
更多 GitHub 开源项目 我是头条菌 我爱程序员,交个朋友吧! 我的微信号:toutiaoio007 识别下方头条菌二维码申请进群,等你来撩哦~ 项目介绍 夜莺(Nightingale)是滴滴基础平台联合滴滴云研发和开源的企业级监控解决方案。旨在满足云原生时代企业级的监控需求。 Nightingale 在产品完成度、系统高可用、以及用户体验方面,达到了企业级的要求,可满足不同规模用户的场景,小到几台机器,大到数十万都可以完美支撑。兼顾云原生和裸金属,支持应用监控和系统监控,插件机制灵活,插件丰富完善,具有高度的灵活性和可扩展性。