
hadoop
文章平均质量分 52
wang972779876
这个作者很懒,什么都没留下…
展开
-
spark读写文件修改换行符
spark修改换行符、hadoop inputformat原创 2022-04-24 10:15:37 · 2370 阅读 · 0 评论 -
数据倾斜问题处理-转载
看到一篇问题处理数据倾斜的,做下备份,基本都是比较常用的方法,启用倾斜连接优化的方法是之前没有使用过的,以后出现数据倾斜的问题尝试下效果。原文地址:实操 : Hive 数据倾斜问题定位排查及解决多数介绍数据倾斜的文章都是以大篇幅的理论为主,并没有给出具体的数据倾斜案例。当工作中遇到了倾斜问题,这些理论很难直接应用,导致我们面对倾斜时还是不知所措。今天我们不扯大篇理论,直接以例子来实践,排查是否出现了数据倾斜,具体是哪段代码导致的倾斜,怎么解决这段代码的倾斜。当执行过程中任务卡在 99%,转载 2021-10-29 11:40:16 · 281 阅读 · 0 评论 -
hive 读取sparksql的orc文件报ArrayIndexOutOfBoundsException:6
报错日志如下可以看出报错的地方再OrcFile的WriterVersion的from方法,定位代码发生在下面代码的values[val]代码段。values的值从代码可以看出values的数据应该为5,见下图代码而传过来的val是6,向上看代码,version来源是文件的meta,应该是spark版本的原因导致hive不支持的version。解决修改OrcFile文件的WriterVersion的内部类的from方法:public static WriterVersio原创 2021-10-28 17:13:07 · 1901 阅读 · 0 评论 -
apache hadoop 升级
hadoop版本apache:2.7.7->2.9.2hadoop集群为非高可用集群1.创建镜像回滚:hdfs dfsadmin -rollingUpgrade prepare2.hdfs dfsadmin -rollingUpgrade query查看镜像回滚状态,直到显示Proceed with rolling upgrade状态3.下载并解压hadoop-2.9.24.将hdfs-site.xml、core-site.xml 、yarn-site.xml拷贝到hadoop-.原创 2021-10-12 09:40:56 · 340 阅读 · 0 评论 -
datax 自定义transformer
datax 自带的transformer :原创 2021-05-31 14:30:31 · 1568 阅读 · 1 评论 -
hdfs 客户端超时时间设置
问题:使用java连接hdfs当输入错误时,都需要等待很长时候或者停止程序,有没有什么办法设置我们的等待时间,客户端的超时连接有那些参数决定参考:https://blog.youkuaiyun.com/zhanglong_4444/article/details/99471338解决hdfs的超时连接有两个参数决定:ipc.client.connect.max.retries.on.timeouts 和ipc.client.connect.timeout两个参数决定第一个是尝试次数,第二个是超时的时间,也就是说原创 2021-05-18 17:40:56 · 3536 阅读 · 0 评论 -
多线程创建FileSystem,当close时导致其他的FileSystem关闭
问题1:当我们使用FileSystem.get(conf)时会创建几个实例针对这个问题我们进行代码测试import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import java.io.IOException;import java.util.List;public class ThreadTest extends Thread{ private FileSystem原创 2021-05-18 16:12:13 · 875 阅读 · 0 评论