
大数据
文章平均质量分 67
凭嗓门抢地主
这个作者很懒,什么都没留下…
展开
-
记录一次spark2.x数据倾斜(隐藏的笛卡尔积)排查处理过程
目录一、问题描述二、尝试调整参数三、查看spark具体sql流程图一、问题描述有一个dwd层中间表的入表任务,有几天的日期永远无法执行成功,平时的任务时间大概在2分钟。之前也遇到过一次这样的情况,是通过排查脏数据得到了解决(长字符串id中有不规则脏字符),这次实在没有头绪。二、尝试调整参数因为查看yarn任务的页面,发现总是报错在拒绝连接,看到有个别任务总是执行半天卡住,并且shuffle的records数量也明显高于其他exceutor,并且不仅spill到内存,甚至到了磁原创 2022-04-17 15:56:43 · 1941 阅读 · 0 评论 -
apache-sqoop使用问题及总结
目录1.找不到hive2.sqoophook、hivedatatypes使用版本为ambari-2.7.3,自带的sqoop-1.4.71.找不到hive21/09/08 11:16:16 ERROR tool.ImportTool: Import failed: java.io.IOException: Cannot run program "hive": error=2, No such file or directory在安装sqoop的机器上,安装hive客户端并配置环.原创 2021-09-08 17:30:22 · 588 阅读 · 0 评论 -
apache-dolphinscheduler的使用问题总结
一、租户问题二、指定虚拟python环境的python类型任务的执行时环境变量问题三、资源中心创建目录或者文件失败四、由zookeeper同步引起的shutdown问题原创 2021-08-27 21:06:20 · 3345 阅读 · 0 评论 -
apache-flume使用经验及优化
关于flume的简介不再过多赘述,小伙伴们可参考官方文档及谷歌翻译进行了解~一、使用架构目前我在实际生产使用的方案是在网上参照大神们的一套高可用方案:agent-collector。一个节点作为agent从kafka消费获取数据,然后通过avro-sink,传输到2个collector(当然同样适用avro-source进行接收了),然后2个collector绑定为一个group,并配置为failover,写入hdfs-sink。整个过程的channel,都用的是memory,因为这样效率比原创 2021-08-14 12:08:30 · 259 阅读 · 0 评论 -
hive元数据修改未生效
一、问题及分析我将一个tinyint的字段通过hive客户端修改为smallint类型。后续通过presto查询数据时候,报错:java.io.IOException: Malformed ORC file. Can not read SQL type tinyint from ORC stream .origin of type SHORT...原创 2021-05-31 20:41:09 · 955 阅读 · 4 评论