- 博客(23)
- 收藏
- 关注
原创 spark读写csv对空字符串的处理
写csv:spark写出到csv时,空字符串会写成 “”,例如: a,b,"",d如果想生成这样的形式: a,b,d在write时添加 option(“emptyValue”,"")读csv:spark读取csv时,对空字符串会翻译成null值,如果不想翻译成null,可以在fill()中替换成自己想要的字符,例如替换成空字符串:spark.read.csv(“path”).na.fill("")...
2021-02-22 17:43:03
1715
原创 windows环境设置用户名,获取hdfs的读写权限
val properties = System.getPropertiesproperties.setProperty(“HADOOP_USER_NAME”, “impala”)
2021-02-05 14:25:20
409
原创 spark的conf常用配置
.set(“spark.rdd.compress”, “true”) //rdd压缩.set(“spark.sql.shuffle.partitions”, “200”) //shuffle分区(sql).set(“spark.default.parallelism”, “200”) //shuffle分区.set(“spark.sql.auto.repartition”, “true”) //开启自动分区.set(“spark.executor.userClassPathFirst”, “true
2020-12-22 16:02:54
2272
原创 mysql字符集不一致导致索引失效
mysql字符集不一致导致索引失效两个表join查询,却不走连接条件的索引。当索引无问题,sql也无问题时,就可以去看看这两个表连接字段的字符集是否一致
2020-08-28 22:16:54
278
原创 mysql配置 my.cnf
mysql配置 my.cnfhttps://blog.youkuaiyun.com/weixin_39530695/article/details/94453203
2020-08-27 18:01:56
80
原创 yarn的resourcemanager内存溢出
yarn的resourcemanager内存溢出将以下配置改小,让rm维护的已完成的application数量变少yarn.resourcemanager.max-completed-applications10000增大rm的堆内存,修改yarn-env.shJAVA_HEAP_MAX=-Xmx4000m
2020-08-25 20:51:53
526
原创 华为云安装mysql5.7
华为云安装mysql5.7https://my.oschina.net/zouxiangrd/blog/4305310
2020-08-21 16:10:39
142
原创 spark.shuffle.service.enabled配置详解
spark.shuffle.service.enabledhttps://www.jianshu.com/p/5749ad5d48e6
2020-05-29 10:04:17
1313
原创 azkaban安装 3.x
azkaban安装 3.xhttps://www.cnblogs.com/weiyiming007/p/12162461.html
2020-04-21 13:14:03
126
原创 hiveserver2的ha配置
hiveserver2的ha配置http://lxw1234.com/archives/2016/05/675.htm
2020-04-16 18:37:01
162
原创 sparksql生成的hive表有空文件,但是sparksql读取的时候,因为是orc格式,导致解析文件出错
sparksql生成的hive表有空文件,但是sparksql读取的时候,因为是orc格式,导致解析文件出错,但是用hive却可以正常读取。设置:set spark.sql.hive.convertMetastoreOrc=trueset spark.sql.orc.impl=native...
2020-02-29 21:01:52
1133
原创 hive的beline频繁建表删表之后,再创建相同表名的表报错
hive的beeline频繁建表删表之后,再创建相同表名的表报错,unable to move source hdfs…
2020-02-19 20:28:04
358
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人