4 天前 / StorPlus
1. iXsystems 宣布推出第二版 TrueNAS SCALE,用于横向扩展存储和开放式超融合。TrueNAS SCALE 具有高可用 (HA) 和对 SMB 集群的支持,并且通过 TrueCommand 轻松创建 SMB 集群。TrueNAS SCALE 基于 Linux 构建,支持 Docker 容器、Kubernetes、KVM 和具有开源经济性的横向扩展 OpenZFS。 主要更新如下: 默认使用 SHA-512 校验提高了重复数据删除性能 改进了极端情况下的 pool importing 允许多个容器共享 Intel GPU UPS 监控和报告修复 集群 SMB API 随着驱动器数量的增加,中间件性能得到改善 2. 美光推出全球首款 1.5TB microSD 卡:i400。
6 天前 / 开发者头条
本文内容节选自「码农周刊 VIP 会员专属邮件周报 Vol.095」,感谢阅读。 想邮件订阅周报?扫码即刻订阅! ↓↓↓ 对话罗永浩:再创业可能后悔,不再创业百分之百后悔 https://mp.weixin.qq.com/s/l-jZBoVC29H-dyGeWL_NDQ 一个被理想化了的理想主义者、一个更成熟的创业者、一个更合格的商人。 被高薪“惯坏”的年轻人:离开大厂,从降薪开始? https://mp.weixin.qq.com/s/e_Nv4bBrMPx9J3AMqnlwiQ 跳槽就涨薪,仿佛不灵了。
7 天前 / sjf0115
背景 字节跳动特征存储痛点当前行业内的特征存储整体流程主要分为以下四步: 特征存储的整体流程 业务在线进行特征模块抽取; 抽取后的特征以行的格式存储在 HDFS,考虑到成本,此时不存储原始特征,只存抽取后的特征; 字节跳动自研的分布式框架会将存储的特征并发读取并解码发送给训练器; 训练器负责高速训练。字节跳动特征存储总量为 EB 级别,每天的增量达到 PB 级别,并且每天用于训练的资源也达到了百万核心,所以整体上字节的存储和计算的体量都是非常大的。在如此的体量之下,我们遇到了以下三大痛点: 特征抽取周期长。
12 天前 / 码小生
大厂技术坚持周更精选好文 手把手教你理解轮子之 git 当年他陈刀仔,能用 20 块赢到 3700 万,今天我卢。.... Sry,串台了 当年他 linus 能用两个星期写完 Git, 今天我叶某人。... ( 好吧,当场给 linus 跪下) 前言本文试图理解 git 的原理,重写部分 git 命令,从最底层的几个命令开始,听起来很离谱,做起来也很离谱,但是真正去做了,发现,诶,好像没有那么离谱。 俗话说得好(我也不知道哪里来的俗话,maybe 我自己说的),理解一个东西最好的方法就是实现它。
17 天前 / sjf0115
本文转自:DataFunTalk,分享嘉宾:翟佳,StreamNative 联合创始人 编辑整理:张晓伟 美团点评 导读:多数读者们了解 BookKeeper 是通过 Pulsar,实际上 BookKeeper 在数据库和存储场景都有着非常广泛的应用。BookKeeper 是 Pulsar 的底层存储,Pulsar 有着广泛数据入口,Pulsar 跟 Kafka 及各类 MQ(RabbitMQ、ACTIVEMQ)的较大区别是 Pulsar 是统一的云原生消息流平台,不但是分布式系统,而且做了存算分离,可以让用户在云的环境下,体验到云原生的优势,例如随意扩缩容、数据灵活迁移复制等。
21 天前 / sjf0115
作者|Jingsong [email protected] 一、数仓中的计算 在计算机领域,数据仓库(DW 或 DWH),是一个用于报告和数据分析的系统,被认为是商业智能的一个核心组成部分。它将当前和历史数据存储在一个地方,为整个企业的工作人员创建分析报告。[1] 典型的基于提取、转换、加载(ETL)的数据仓库使用 ODS 层、DWD 层和 DWS 层来容纳其关键功能。数据分析师可以灵活的查询 (Query) 数仓中的每一层,获取有价值的商业信息。 数仓中有三个关键指标[2]: 数据的新鲜度:数据从产生开始,到在仓库中经过一系列处理后可供用户查询所经过的时间长度。
35 天前 / HueiFeng
Apache RocketMQ 自 2012 年开源以来,因其架构简单、业务功能丰富、具备极强的可扩展性等特点被广泛采用。RocketMQ 在阿里巴巴集团内部有着数千台的集群规模,每天十万亿消息流转的规模。在阿里云上,RocketMQ 的商业化产品也以弹性云服务的形式为全球数万个用户提供企业级的消息解决方案,被广泛应用于互联网、大数据、移动互联网、物联网等领域的业务场景,成为了业务开发的首选消息中间件。尽管消息中间件 RocketMQ 在阿里巴巴和开源社区已经走过了十多个年头,但在云原生浩浩荡荡的浪潮下,我们开始对 RocketMQ 的架构有了一些新的思考。
43 天前 / yybbb
译者 | 陈峻 审校 | 孙淑娟 本文将从概念上向您重点介绍如何改进当前的数据湖平台,并最终将其变成 Lakehouse,以增强架构模式,进而改造传统的数据仓库。 众所周知,数据仓库的初始架构旨在通过把来自各种异构数据源的数据,收集到集中式的存储库中,以提供分析的见解,并充当决策支持和商业智能(business intelligence,BI)的支点。不过,由于它只能支持写入时模式(schema-on-write),而无法存储非结构化的数据、不能与计算紧密集成、以及只能实现本地设备存储,因此近年来,数据仓库碰到了诸如数据模型设计耗时过长等各种挑战。
44 天前 / 博文视点Broadview
【本文原创:郭远威】 MongoDB 作为领先的 NoSQL,为了支撑更多的需求场景,也在不断完善其功能。从早期支持大吞吐量读 / 写操作的 MMAPv1 存储引擎,到引入支持高并发操作的 WiredTiger 存储引擎,以及对事务功能的持续演进,MongoDB 不仅保留了最初的架构优势,同时又汲取了其他数据库的优点。 MongoDB 从 3.0 版本引入 WiredTiger 存储引擎之后开始支持事务,MongoDB 3.6 之前的版本只能支持单文档的事务,从 MongoDB 4.0 版本开始支持复制集部署模式下的事务,从 MongoDB 4.2 版本开始支持分片集群中的事务。
46 天前 / Juicedata
本文根据 Juicedata 技术专家高昌健在 DataFunSummit 大数据存储架构峰会所作主题演讲《JuiceFS 在数据湖存储架构上的探索》整理而成,现场视频可点击这里查看。 大家好,我是来自 Juicedata 的高昌健,今天想跟大家分享的主题是《JuiceFS 在数据湖存储架构上的探索》,以下是今天分享的提纲: 首先我会简单的介绍一下大数据存储架构变迁以及它们的优缺点,然后介绍什么是 JuiceFS,其次的话会再重点介绍一下关于 JuiceFS 和数据湖的一些结合和关联,最后会介绍一下 JuiceFS 和数据湖生态的集成。
53 天前 / 猿天地
点击上方蓝字“设为星标” 大家好,我是【架构摆渡人】,一只十年的程序猿。这是消息队列的第一篇文章,这个系列会给大家分享很多在实际工作中有用的经验,如果有收获,还请分享给更多的朋友。今天跟大家聊聊如何用数据库来做消息的存储,这样就可以将消息队列的整体复杂度进行降低,如果后续你们需要自己造更贴近公司业务的轮子,我觉得可以用数据库来存储。容量设计 假设你们的业务消息量每天是 10 亿条,数据存储最近 7 天的量,也就是 70 亿条。我们以单表 2000W 条数据作为上限,1 个库放 10 张表,那么总共需要 40 个库来承载这些数据量。
78 天前 / BloomingRose
一、背景 在 B 站的业务场景中,存在很多种不同模型的数据,有些数据关系比较复杂像:账号、稿件信息。有些数据关系比较简单,只需要简单的 kv 模型即可满足。此外,又存在某些读写吞吐比较高的业务场景,该场景早期的解决方案是通过 MySQL 来进行数据的持久化存储,同时通过 redis 来提升访问的速度与吞吐。但是这种模式带来了两个问题,其一是存储与缓存一致性的问题,该问题在 B 站通过 canal 异步更新缓存的方式得以解决,其二则是开发的复杂度,对于这样一套存储系统,每个业务都需要额外维护一个任务脚本来消费 canal 数据进行缓存数据的更新。
82 天前 / kafeidou
开源项目推荐 Grafana Mimir[1]Grafana Mimir 是 Grafana Labs 新开源的项目,用来为 Prometheus 提供持久化存储,开源许可协议是 AGPL-3.0。此前 Grafana 开源了 Cortex,但 Grafana Cloud 使用的还是内部商用的存储,因此 Grafana 团队需要维护两套代码。也许是维护两套代码太累了,所以干脆将 Grafana Cloud 使用的存储开源了,就是 Grafana Mimir。 Open Policy Registry[2]Open Policy Registry 是一个用于共享 Open Policy Agent 策略的镜像仓库,此外还提供了一个 CLI 工具,你可以像使用 Docker 一样来 push/pull 各种 Workflow。
112 天前 / sjf0115
点击上方“中间件兴趣圈”,选择“设为星标” 越努力越幸运,唯有坚持不懈! 由于笔者公司目前使用的 kafka 版本是 2.2.1,故当下关于 kafka 的内核研究目前主要是基于该版本,当然该专栏还会继续关注 Kafka3.0。 我在使用 kafka 时发现客户端可以不依赖 Zookeeper 的情况下完成消息发送、消息消费,众所周知早期的 Kafka,所有的元信息 (topic、消费组、集群)等信息都存储在 Zookeeper 中,原先的消息发送客户端、消息消费客户端都需要依赖 Zookeeper。