
spark
xufwind
这个作者很懒,什么都没留下…
展开
-
spark参数调优
引子开发大数据的程序时间一长,就会发现和以前开发其它程序的方式有很大的不同。除了要将更多的关注点放在数据上之外,一个很重要的事情是,你开发的程序在测试库运行的好好的,到线上数据量大之后,程序执行就可能会出各种问题,有时狂加资源程序也不能很好的执行。这其中就会涉及到一些spark程序调优方面的内容,网上一翻,会出现一大堆这种方面的东西,有些还是很有用的,能解决工作中的实际问题。这里就将工作中碰到的调优问题和解决方案做分享执行参数调优spark的每一个参数格式及对参数的解释和默认值都能在官网上原创 2021-06-23 19:36:52 · 634 阅读 · 0 评论 -
airflow initdb 报 UnicodeEncodeError 和 ab_permission_view_role doesn‘t exist
使用mysql作为airflow的数据库,在airflow.cfg中设置字符编码为utf-8,在初始化airflow数据库时还是会碰到如下错误:UnicodeEncodeError: 'charmap' codec can't encode characters in position 0-3: character maps to <undefined>这种还是在编码设置问题上,处理需要在airflow.cfg中设置编码 sql_engine_encoding = utf-8 还需要在.原创 2021-02-20 10:04:27 · 973 阅读 · 0 评论 -
spark读取parquet数据报异常: java.lang.NegativeArraySizeException
背景: 在执行spark任务的时候,中间有多次落盘,将数据以parquet格式写到hdfs。然后再将数据读取出来继续执行。执行到中间有如下报错: [spark] Caused by: org.apache.parquet.io.ParquetDecodingException: Can not read value at 0 in block -1 in file hdfs://master1:8020/user/xxx/part-00512-0462dbf5-98b2-41fa-925c-3a.原创 2021-01-29 17:40:55 · 2290 阅读 · 0 评论 -
spark sql 如何判断数组字段包含某个值
在使用spark sql发现某些字段是数组字段,需要判断该是否包含某些值的写法:spark.sql("select id, array_field from tmp_v where array_contains(array_field, 'hello')").show(200, false)参考:https://spark.apache.org/docs/latest/api/sql/#array...原创 2021-01-05 14:54:38 · 5705 阅读 · 0 评论 -
spark计算结果按excel模板(多tab)格式输出
场景描述使用spark对数据进行处理,处理完成后,要求按用户给定的excel模板将数据导给用户模板中的部分tab所需数据不是spark计算的,但是这部分tab需要在最后的输出中将tab和列名展示出来模板中的部分列在计算中是没有的,这些列也需要输出,数据留着空白就可以excel的输出要求:每个tab严格按照模板的顺序,数据中的列严格按照模板的顺序,每一行按规定的字段排序实现思路spark的输出对照模板tab,每个tab一个csv文件,写到 hdfs 指定文件目录下将每个tab的列名生原创 2020-06-04 17:03:28 · 843 阅读 · 0 评论