spark2.x
wuzhilon88
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark 多线程体检job
spark 解决单job 问题,对于初学者来说经常遇到的问题。原创 2022-03-16 16:45:37 · 1807 阅读 · 0 评论 -
sqoop 处理换行符 \n 和\r 等特殊符号处理
公司大数据平台ETL操作中,在使用sqoop将mysql中的数据抽取到hive中时,由于mysql库中默写字段中会有换行符,导致数据存入hive后,条数增多(每个换行符会多出带有null值得一条数据),导致统计数据不准确。因为sqoop 导出文件不能是ORC这种列式存储,所以只能替换。导出后对替换的字符在进行替换,将数据表存储orc解决办法:利用一下两个参数可以实现对换行等特殊字...原创 2019-12-31 21:44:02 · 5456 阅读 · 3 评论 -
设置spark thriftServer2 端口
spark thriftServer要设置开放端口,在hive-site.xml中设置没有用时:可以设置:export HIVE_SERVER2_THRIFT_PORT=10013脚本如下:act=$1export HIVE_SERVER2_THRIFT_PORT=10013function start_Thrift(){ ./sbin/sta...原创 2019-11-18 17:40:58 · 2602 阅读 · 0 评论 -
Hive textfile数据表更改输入输出文件格式
altertabletmp_etltest.xxx SETFILEFORMATINPUTFORMAT'org.apache.hadoop.mapred.TextInputFormat'OUTPUTFORMAT'org.apache.hadoop.mapred.TextOutputFormat'SERDE'org.apache.hadoop.hive.serde2.lazy.Laz...原创 2019-11-11 16:53:06 · 1369 阅读 · 0 评论 -
Spark 2.x永久自定义函数编写
以前写过一篇spark1.6.x编写永久的自定义函数,今天补上写spark2.x永久自定义函数的步骤:1、使用scala语言编写自定义函数,spark2.x已经不在支持使用hive的方式加载函数 Scala类参数不同继承不同scala类(UnaryExpression、BinaryExpression、TernaryExpression、Expression) 重写nullSafeEv...原创 2018-03-06 18:03:47 · 3592 阅读 · 0 评论 -
org.apache.spark.shuffle.FetchFailedException: Failed to connect to xxx.hadoop.com:7337
在大规模数据处理中,这是个比较常见的错误。报错提示报错1: FetchFailed(BlockManagerId(846, xxx.hadoop.com, 7337, None), shuffleId=262, mapId=96, reduceId=122, message=org.apache.spark.shuffle.FetchFailedException: Failed to conn...原创 2018-05-04 18:11:41 · 6081 阅读 · 0 评论 -
StrutsStreaming实时cube:5个维度
第一步拼接 all#字段 select to_utc_timestamp(exec_time, 'PDT') as ftime, substr(exec_time, 0, 10) as Fexec_date, substr(exec_time, 12, 5) as Fexec_hhmm, concat('ALL', '#', headers_host) as Fs...原创 2019-09-02 14:59:54 · 312 阅读 · 0 评论 -
解决hivemeta 多服务缓存数据不同步问题
1、改动的地方2、增加的数据表hiveMetastore.METASTORE_REFRESH 数据表1、增加了各个hivemeta 服务进行定时检测功能,检测其他hivemta 是否有alter 操作设计思想图:修改的主要代码:org.apache.hadoop.hive.metastore.ObjectStore的initialize...原创 2019-09-02 15:54:44 · 911 阅读 · 2 评论 -
spark sql 出现 java.lang.RuntimeException: serious problem
1、详细的日志异常信息java.lang.RuntimeException: serious problematorg.apache.hadoop.hive.ql.io.orc.OrcInputFormat.generateSplitsInfo(OrcInputFormat.java:1021)atorg.apache.hadoop.hive.ql.io.orc.OrcInputFor...原创 2019-09-03 17:56:01 · 6528 阅读 · 0 评论
分享