49 天前 / 比百事还可乐
作者| Apache SeaTunnel(Incubating)Contributor 范佳 整理| 测试工程师冯秀兰 对于百亿级批数据的导入,传统的 JDBC 方式在一些海量数据同步场景下的表现并不尽如人意。为了提供更快的写入速度,Apache SeaTunnel(Incubating) 在刚刚发布的 2.1.1 版本中提供了 ClickhouseFile-Connector 的支持,以实现 Bulk load 数据写入。 Bulk load 指把海量数据同步到目标 DB 中,目前 SeaTunnel 已实现数据同步到 ClickHouse 中。
94 天前 / sjf0115
当前版本:2.1.0 1. 简介随着互联网流量爆发式增长,越来越多的公司业务需要支撑海量数据存储,对高并发、高可用、高可扩展性等特性提出了更高的要求,这促使各种类型的数据库快速发展,至今常见数据库已经达到 200 多个。与之相伴的便是,各种数据库之间的同步与转换需求激增,数据集成便成了大数据领域的一个亟需优秀解决方案的方向。当前市面上没有一个简单易用且支持每天数百亿条海量数据同步的开源软件,于是 SeaTunnel 应运而生。
152 天前 / sjf0115
点击蓝字 关注我们 背景 公司目前构建了基于 PG 传统数据库类型数仓,但是由于数据量大且无法实时进行处理分析,希望基于大数据平台建立数仓,并可充分利用大数据平台相关组件。了解传统 hive 数仓时效性无法满足,故探索基于 Flink 到 Hudi 的实时数据湖同步方案,自此引入了 SeaTunnel。 01 方案论述 基于 SeaTunnel 启动配置化脚本 cdc 入湖。方案主要是由 cdc + SeaTunnel + hudi ,支持全增量的 mysql ( 或者 cdc 支持数据库)日志采集,解析,入湖,hudi 作为一个可 upsert 和增量查询的系统,可实时观看入湖数据。
167 天前 / sjf0115
点击蓝字 关注我们 背景 目前参与的项目属于公司里面数据量大、计算密集的一个重要业务项目,需要提供高效且准确的 OLAP 服务,并提供灵活且实时的报表。业务数据存储在 MySQL 中,数据增长多而且快,出现了多个千万级、亿级的大表。随着数据量的日益增长和实时分析的需求越来越大,急需对系统进行流式计算、实时化改造。正是在这个背景下,开始了我们与 Apache SeaTunnel 的故事。 01 方案概述 我们基于 SeaTunnel 提出了把报表的数据实时化的方案,该方案主要通过 SeaTunnel CDC + Elasticsearch 实现。
1148 天前 / sergiojune
五一假期即将过去了,大家玩得怎样?我出去玩了两天,又累钱包又伤。忽然想到自己有差不多两周的时间没有更新了,逼着自己爬起来更新文章,要不总觉得对不起那些关注我的读者,这算不算良心博主?哈哈哈哈哈!!! 最近两周我学了下安卓逆向,还要学下学校的课程,感觉再不学就要没了,而且个人也有点事,所以文章更新给耽误了。学了点安卓逆向之后,就需要应用,要不学了也是浪费时间。 爬取安卓 APP 的内容第一步总离不开抓包,自己以前对 APP 抓过包,原本以为这一关很容易,结果让我弄了好几天,期间还差点怀疑自己是不是选错了方向...