武汉大龄程序员,今天来一篇整库同步到数据湖的方案,
首先,我们需要选择一个好的ETL工具,之前使用dinky也遇到一些问题,还未解决,今天,我给大家推荐一个新的数据开发平台streampark,这个平台支持flink和spark两种底层框架,可以支持可视化的方式编写同步作业。
然后,我选取的源数据库是mysql,目标数据湖用的是paimon,那就开始直接上手使用paimon提供的cdc jar包,这个jar包支持模式演变以及整库同步,用起来非常丝滑,没想到很顺利的就成功了,感觉比dinky容易上手一些。