pydatax
文章平均质量分 90
介绍pydatax
zping_6967
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
13TB的StarRocks大数据库迁移过程
公司有一套StarRocks的大数据库在大股东的腾讯云环境中,通过腾讯云的对等连接打通,通过dolphinscheduler调度datax离线抽取数据和SQL计算汇总,还有在大股东的特有的Flink集群环境,该环境开发了flink开发程序包部署,实时同步数据。 公司业务帆软报表平台有40张左右的报表连接的Starrocks大数据库。Starrocks大数据库整个库大小超过13T...原创 2024-12-02 11:20:00 · 1083 阅读 · 0 评论 -
数据抽取平台pydatax使用案例---11个库项目使用
数据抽取平台pydatax,前期项目做过介绍: 1,数据抽取平台pydatax介绍--实现和项目使用 项目2: 客户有9个分公司,用的ERP有9套,有9个库,不同版本,抽取的同一个表字段长度有不一样,字段可能有多有少,客户ERP核心分公司ERP几个月后有大版本升级。 在2023年12月,当时做这个抽取时,客户只是做一个分公司的,抽取9套其中的一套ERP的...原创 2024-11-25 11:11:00 · 713 阅读 · 0 评论 -
数据抽取平台pydatax介绍
缘起一: 公司现有数据仓库,是通过kettle从mysql抽取到目标库,运行多年,主要有以下问题, 1,效率低:kettle抽取行数少 2,容错性差:一个表抽取出错就导致后续计算会出问题, 3,扩展性差: 对多库多表等支持不好 近300张表抽取,再加上计算,每天都算到7点,还有2个巨大的计算...原创 2024-02-21 15:58:00 · 1028 阅读 · 0 评论 -
数据抽取平台pydatax介绍--实现和项目使用
因项目2中:数据仓库使用的GreePlum,datax的驱动用的是gpdbwriter-v1.0.4-hashdata.jar,该驱动自动删除"0x"非法字符,就不存在该错误。项目2: 客户有9个分公司,用的ERP有9套,有9个库,不同版本,抽取的同一个表字段长度有不一样,字段可能有多有少,客户ERP核心分公司ERP几个月后有大版本升级。# 获取分公司库该表的字段,如对比核心库表字段的缺失,使用null as 字段替换,如果多余则废弃,取9个库的最大值,作为目标表字段的字段长度。原创 2024-02-28 10:11:17 · 1162 阅读 · 0 评论
分享