95 天前 / yybbb
译者 | 陈峻 审校 | 孙淑娟 本文将从概念上向您重点介绍如何改进当前的数据湖平台,并最终将其变成 Lakehouse,以增强架构模式,进而改造传统的数据仓库。 众所周知,数据仓库的初始架构旨在通过把来自各种异构数据源的数据,收集到集中式的存储库中,以提供分析的见解,并充当决策支持和商业智能(business intelligence,BI)的支点。不过,由于它只能支持写入时模式(schema-on-write),而无法存储非结构化的数据、不能与计算紧密集成、以及只能实现本地设备存储,因此近年来,数据仓库碰到了诸如数据模型设计耗时过长等各种挑战。
101 天前 / sjf0115
1. 摘要在 Halodoc,我们始终致力于为最终用户简化医疗保健服务,随着公司的发展,我们不断构建和提供新功能。我们两年前建立的可能无法支持我们今天管理的数据量,以解决我们决定改进数据平台架构的问题。在我们之前的博客中,我们谈到了现有平台的挑战以及为什么我们需要采用 Lake House 架构来支持业务和利益相关者以轻松访问数据。在这篇博客中,我们将讨论我们的新架构、涉及的组件和不同的策略,以拥有一个可扩展的数据平台。 2. 新架构让我们首先看一下经过改进的新数据平台 2.0 的高级架构。
449 天前 / djwang
由 StreamNative Founder & CEO 郭斯杰 执笔的 Apache Pulsar 作为 Lakehouse 的提案,阐述如何利用 Apache Hudi 解决 Pulsar 作为 Lakehouse 的痛点问题,强烈推荐! 1. 动机 Lakehouse 最早由 Databricks 公司提出,其可作为低成本、直接访问云存储并提供传统 DBMS 管系统性能和 ACID 事务、版本、审计、索引、缓存、查询优化的数据管理系统,Lakehouse 结合数据湖和数据仓库的优点:包括数据湖的低成本存储和开放数据格式访问,数据仓库强大的管理和优化能力。Delta Lake,Apache Hudi 和 Apache Iceberg 是三种构建 Lakehouse 的技术。
590 天前 / sjf0115
1. 摘要数仓架构在未来一段时间内会逐渐消亡,会被一种新的 Lakehouse 架构取代,该架构主要有如下特性 基于开放的数据格式,如 Parquet;机器学习和数据科学将被作为头等公民支持;提供卓越的性能; Lakehouse 可以解决数据仓库面临的几个主要挑战,如数据陈旧,可靠性,总成本,数据格式不开放和有限场景支持。 2. 数据分析平台发展数据仓库将业务数据库的数据收集到集中式仓库来帮助企业领导者获得分析见解,然后将其用于决策支持和商业智能(BI),仓库使用写模式(schema-on-write)写入数据,对下游消费者进行了优化,此为第一代数据分析平台。
923 天前 / sjf0115
翻译自:https://databricks.com/blog/2020/01/30/what-is-a-data-lakehouse.html 1. 引入在 Databricks 的过去几年中,我们看到了一种新的数据管理范式,该范式出现在许多客户和案例中:LakeHouse。在这篇文章中,我们将描述这种新范式及其相对于先前方案的优势。 数据仓库技术自 1980 诞生以来一直在发展,其在决策支持和商业智能应用方面拥有悠久的历史,而 MPP 体系结构使得系统能够处理更大数据量。但是,虽然数据仓库非常适合结构化数据,但许多现代企业必须处理非结构化数据、半结构化数据以及具有高多样性,高速度和高容量的数据。