大数据开发遇坑大杂烩

本文用于记录开发过程中遇到得一些坑,可能涉及到得大数据工具包括Hive、Presto、Spark、Flink、ES、Hadoop等,解决方案包括自己研究和网络搬运

  1. PySpark中报错:UnicodeEncodeError: 'ascii' codec can't encode characters in position 8-11: ordinal not in range(128)
    在操作dataframe并调用show()时报错(非数据显示操作并不会报错),解决方案是在调用show()前添加
    reload(sys)
    sys.setdefaultencoding( "utf-8" )

  2. Spark并行度无法提高的问题:例如读取hive表某一个分区的数据写入ES或Doris,会发现即使申请了数十个worer,但只会有几个节点处理数据,stage中task并行度也很小。这是因为单个spark task处理128M得数据,根据读取文件的个数和大小拆分并行度。如果恰好读取的是一个500M的文件,那么并行度就会是4。为了提高并行度,有两种方式:

    第一种是利用repartition(N)改变并行度,好处是可以根据worker数设置,资源利用率好,缺点是需要shuffle(注意这里不能用coalesce,因为coalesce不会shuffle,只能用于减少分区)
    
    第二种是通过参数调整,好处是在map端改变并行度无需shuffle, 缺点是并行度不固定使部分worker闲置。
    具体参数如下:
    "mapreduce.input.fileinputformat.split.maxsize":"67108864&#
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值