
大数据
文章平均质量分 96
凉茶冰
我不想被后浪拍在沙滩上。
展开
-
DataX迁移数据到StarRocks大表报too many version问题记录
这里其实有一个实际实施时候的困难点,业务人员对数仓的特性不了解,了解数仓特性的技术人员对业务不了解,然后基于数仓又开发了更上层的数据中台等应用,让业务人员直接使用,这就造成实际实施的时候,很难讲数仓的威力发挥出来,因为业务人员没办法明确知道那些列或者那些字段作为分桶键效果更好。对于分区一般都有一个基本的认知,基于分区键,将数据进行不同分区的数据路由,分桶是SR独有的概念,在分区下面又有分桶,基于分桶再对数据做二次的分布,并提供副本机制。这样每天凌晨迁移数据的时候,都是只迁移增量的数据。原创 2024-08-06 18:03:43 · 1493 阅读 · 0 评论 -
DataX同步数据到StarRocks问题记录
DataX同步mysql数据到StarRocks遇到的关于特殊字符等相关问题总结。原创 2022-09-10 21:50:07 · 4256 阅读 · 2 评论 -
moonbox使用CDH6.0.0部署记录
目录前言1.moonbox启动后,spark on yarn 任务运行失败2.netty包冲突3.spark相关包4.关于rest方式提交时候影响的jar5.其他前言 moonbox目前最新版本是0.3.0,官方的文档上在环境准备这一块明确指出仅支持Apache Spark2.2.0 已安装Apache Spark 2.2.0 (此版本仅支持A...原创 2019-07-24 10:06:25 · 792 阅读 · 1 评论 -
CDH6.0正常安装使用后尝试修改log目录入坑记录
通过Cloudera Manager安装的Hadoop平台,全界面化操作,自带主机监控及各个组件的监控,煞是好用。但是,如果真的是自学的话,建议还是老老实实自己一个一个组件的装来的方便,hadoop相关的生态的组件不像想象的那么难那么复杂,反倒因为贪图简单易用安装的CM黑盒子封装的有点让人苦恼。问题描述:通过CM安装的hadoop平台,默认的log目录在/var/log目录,yarn的No...原创 2019-08-05 22:03:52 · 809 阅读 · 1 评论