19 天前 / 比百事还可乐
作者| Apache SeaTunnel(Incubating)Contributor 范佳 整理| 测试工程师冯秀兰 对于百亿级批数据的导入,传统的 JDBC 方式在一些海量数据同步场景下的表现并不尽如人意。为了提供更快的写入速度,Apache SeaTunnel(Incubating) 在刚刚发布的 2.1.1 版本中提供了 ClickhouseFile-Connector 的支持,以实现 Bulk load 数据写入。 Bulk load 指把海量数据同步到目标 DB 中,目前 SeaTunnel 已实现数据同步到 ClickHouse 中。
43 天前 / sjf0115
点击上方蓝字关注我们! 作者 | 蔡芳芳 采访嘉宾 | 陈星、邵祎旸、海书山 ClickHouse 开源于 2016 年,在一众大数据计算引擎里算是一个后起之秀。但凭借性能方面的突出优势,这几年 ClickHouse 在分析型数据库领域可谓风生水起。 作为 ClickHouse 深度用户,字节跳动拥有国内规模最大的 ClickHouse 集群。根据官方提供的最新数据,截至 2022 年 2 月底,字节跳动内部的 ClickHouse 节点总数已经超过 18000 个,管理总数据量超过 700PB,最大的集群规模在 2400 余个节点。在这之上,承载着字节跳动广泛的业务增长分析工作。
67 天前 / sjf0115
点击上方蓝色字体,选择“设为星标” 回复"面试"获取更多惊喜八股文教给我,你们专心刷题和面试 Hi,我是王知无,一个大数据领域的原创作者。放心关注我,获取更多行业的一手消息。背景 目前公司的分析数据基本存储在 Hive 数仓中,使用 Presto 完成 OLAP 分析,但是随着业务实时性增强,对查询性能的要求不断升高,同时许多数据应用产生,比如对接 BI 进行分析等,Presto 不能满足需求,在这个阶段我们引入了 ClickHouse,用来建设性能更强悍,响应时间更短的数据分析平台,以满足实时性要求,但如何连通 Hive 数仓和 ClickHouse 呢?没错...
72 天前 / 逗逗
导读: ClickHouse 作为一款开源列式数据库管理系统(DBMS)近年来备受关注,主要用于数据分析(OLAP)领域。作者根据以往经验和遇到的问题,总结出一些基本的开发和使用规范,以供使用者参考。 随着公司业务数据量日益增长,数据处理场景日趋复杂,急需一种具有高可用性和高性能的数据库来支持业务发展,ClickHouse 是俄罗斯的搜索公司 Yandex 开源的 MPP 架构的分析引擎,号称比事务数据库快 100-1000 倍,最大的特色是高性能的向量化执行引擎,而且功能丰富、可靠性高。
98 天前 / sjf0115
1. 问题背景在我们日常的业务中,数据往往以库表的形式呈现,数据生产和数据消费则分别对应着库表的创建和查询。对于 ClickHouse 而言,数据的生成是上游库表的同步导入,数据的消费是用户通过诸如 BI 平台等服务对库表进行查询。理论上,按照业务的需求,每个 ClickHouse 的表都应该有一个相应的生命周期,假设所有的表都以天粒度为分区,则某些表往往只需要保留一周或一个月的数据,其它有一些表可能需要保留三个月或半年,可见不同的表生命周期应该是不一样的。
100 天前 / yaya
导读: ClickHouse 作为一款开源列式数据库管理系统(DBMS)近年来备受关注,主要用于数据分析(OLAP)领域。作者根据以往经验和遇到的问题,总结出一些基本的开发和使用规范,以供使用者参考。 随着公司业务数据量日益增长,数据处理场景日趋复杂,急需一种具有高可用性和高性能的数据库来支持业务发展,ClickHouse 是俄罗斯的搜索公司 Yandex 开源的 MPP 架构的分析引擎,号称比事务数据库快 100-1000 倍,最大的特色是高性能的向量化执行引擎,而且功能丰富、可靠性高。
142 天前 / 逗逗
点击“大数据技术团队”,一键关注 Tips:公众号后台回复:JD,获取本文 PPT 演讲视频直播回放 / END / 往期推荐 终于,进字节了! 大数据文章合集 10 大高级 SQL 技巧 职业规划 -5 年数仓之路 高级数据研发工程师面试题 北京户口到手。
155 天前 / sjf0115
分享嘉宾:周路 eBay 高级软件工程师 编辑整理:马瑶 传智播客 出品平台:DataFunTalk 导读:本文的主题是基于 ClickHouse 的广告数据平台架构实践。包括广告业务面临的现状,为什么会使用 ClickHouse 来提供数据多维分析服务,如何基于 ClickHouse 的优势和特点在适应亿贝广告业务场景的前提下来设计系统平台架构,实践过程中遇到的技术问题和解决方案,以及数据平台在日常使用、版本迭代、质量监控过程中是如何去做的。
160 天前 / sjf0115
译者 何源(荆杭),阿里云计算平台事业部高级产品专家 前言 本文翻译自 Altinity 针对 ClickHouse 的系列技术文章。面向联机分析处理(OLAP)的开源分析引擎 ClickHouse,因其优良的查询性能,PB 级的数据规模,简单的架构,被国内外公司广泛采用。 阿里云 EMR-OLAP 团队,基于开源 ClickHouse 进行了系列优化,提供了开源 OLAP 分析引擎 ClickHouse 的云上托管服务。EMR ClickHouse 完全兼容开源版本的产品特性,同时提供集群快速部署、集群管理、扩容、缩容和监控告警等云上产品功能,并且在开源的基础上优化了 ClickHouse 的读写性能...
169 天前 / sjf0115
译者 何源(荆杭),阿里云计算平台事业部高级产品专家 前言 本文翻译自 Altinity 针对 ClickHouse 的系列技术文章。面向联机分析处理(OLAP)的开源分析引擎 ClickHouse,因其优良的查询性能,PB 级的数据规模,简单的架构,被国内外公司广泛采用。 阿里云 EMR-OLAP 团队,基于开源 ClickHouse 进行了系列优化,提供了开源 OLAP 分析引擎 ClickHouse 的云上托管服务。EMR ClickHouse 完全兼容开源版本的产品特性,同时提供集群快速部署、集群管理、扩容、缩容和监控告警等云上产品功能,并且在开源的基础上优化了 ClickHouse 的读写性能...
177 天前 / sjf0115
分享嘉宾:毕玉龙 京东科技 画像团队技术负责人 编辑整理:翟佳鹤 京东 出品平台:DataFunTalk 导读:京东科技画像平台通过对用户分群,针对不同的用户投放以不同形式的不同内容,实现千人千面的精准投放,并进行投后监控,最终实现用户的增长。该平台提供一个底层的通用服务,服务于不同的业务,以支持精准营销、精细化运营,智能外呼等营销场景。该平台最核心部分便是通过 ClickHouse 的 BitMap 存储标签明细来进行实时的人群计算。 本次分享主要围绕引入案例、场景下用户画像和高效 ClickHouse 这三个方面进行展开。
184 天前 / u128287
作者:微信 WeOLAP 团队 & 腾讯云数据仓库 Clickhouse 团队 微信作为一款国民级应用,已经覆盖了社交、支付、出行等人们生活的方方面面。海量多样化的业务形态,对数据分析提出了新的挑战。为了满足业务数据分析的需求,微信 WeOLAP 团队联手腾讯云,共建千台规模、数据 PB 级、批流一体的 ClickHouse 数据仓库,实现了 10 倍以上的性能提升。下文将由浅入深,为大家揭晓微信在 ClickHouse 实时数仓实践中积累的经验及方法。
197 天前 / 虞大胆
1、背景:我们线上有一套 clickhouse 集群,5 分片 2 副本总计 10 个实例,每个实例独占 1 台物理机,配套混布一个 3 节点 zookeeper 集群。 软件版本:centos 7.5 + CK 19.7.3 + ZK 3.4.13 从昨天开始应用写入日志开始堆积,并不断的报错 zookeeper session timeout。 登录机器查看 clickhouse 的 errlog,大量的 timeout 信息: 2021.09.2905:48:19.940814[32]{}app.log_dev_local(ReplicatedMergeTreeRestartingThread):ZooKeepersessionhasexpired.Switchingtoanewsession. 2021.09.2905:48:19.949000[25]{}app.log_k8s_local(ReplicatedMergeTreeRest...
212 天前 / sjf0115
ClickHouse 虽然提供了一些 备份 & 还原 的方法(我在书里都有介绍),但目前总体来看,都不算 “自动化”。 在 ClickHouse 的 2021 Roadmap 中,有一项关于备份和还原的议题,期望通过添加 BACKUP 和 RESTORE 命令,来实现一键备份和还原。 该议题涵盖的内容很多,目前的进展是,在 21.10 release 版本中已经能够使用到 BACKUP/RESTORE 关键字,但是该功能还处于非常初级的阶段,远不能在生产环境中使用。 即便如此,还是阻止不了我一探究竟的好奇心,接下来就让我们体验一下这项新功能吧。
221 天前 / Juicedata
ClickHouse 存算分离架构探索高昌健2021.03.15背景ClickHouse 作为开源 OLAP 引擎,因其出色的性能表现在大数据生态中得到了广泛的应用。区别于 Hadoop 生态组件通常依赖 HDFS 作为底层的数据存储,ClickHouse 使用本地盘来自己管理数据,官方推荐使用 SSD 作为存储介质来提升性能。但受限于本地盘的容量上限以及 SSD 盘的价格,用户很难在容量、成本和性能这三者之间找到一个好的平衡。JuiceFS 的某个客户近期就遇到了这样的难题,希望将 ClickHouse 中的温冷数据从 SSD 盘迁移到更大容量、更低成本的存储介质,更好地支撑业务查询更长时间数据的需求。