
spark
文章平均质量分 55
deepthinkers
近期会总结大量之前遇到的问题会不断更新。
我会抽出时间努力做这件事
展开
-
记录oracle转sparksql的问题
oracle转sparksql中遇到某些函数转换问题1.listagg 行转列函数 LISTAGG(Item_Category_Name ‘,’) WITHIN GROUP(ORDER BY Item_Category_Name)//oracle 经过多方查询: 使用 CONCAT_WS(“,”,collect_set(Item_Category_Name)) over (od...原创 2018-03-29 17:35:12 · 2806 阅读 · 0 评论 -
spark on hive任务丢失parquet.io.ParquetDecodingException: Can not read value at 0 in block
解决一个问题记录一下:spark提交任务,发现任务意外job aborted无法继续跑。根据任务发现是利用sparksql 查询某张表的时候,读parquet出了问题.困扰很久,把程序改了很久,才从网上找到了帖子,希望能够帮到大家.我是内网作业报错信息也是借鉴网上的。spark是1.5.1远古版本附上我参考的帖子如下ERROR: Error while processing statem...原创 2019-05-24 16:19:33 · 1693 阅读 · 0 评论 -
spark数据倾斜处理
本篇文章属于转载原文出处https://blog.youkuaiyun.com/lw_ghy/article/details/51419877调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象1、绝大多数task执行得都非常快...转载 2018-12-13 11:18:53 · 499 阅读 · 0 评论 -
Spark jobhistory日志清理
spark开启history-server之后,app日志会保存在制定的目录下, 若yarn开启日志收集,也需要进行app-logs的自动清理,因为项目组大数据平台经常日志太多,需要做清理,jobhistory中 也会经常出现长时间的load,鉴于此问题采取以下措施解决## yarn日志收集yarn.log-aggregation.retain-seconds = 1209600ya...转载 2018-09-06 10:44:35 · 4606 阅读 · 0 评论 -
spark记录单个task卡住的,导致作业不结束的问题
实际上是由于数据的倾斜问题,采用reparation将数据重分区就ok了,还有一点可以加入spark推测机制来容错复杂的集群网络环境,可能由于某个单节点存在异常,网络不稳定或是磁盘io满了,使用推测显得尤为重要。以下为常见可调用参数:资源相关参数 (1) mapreduce.map.memory.mb: 一个Map Task可使用的资源上限(单位:MB),默认为1024。如果Map Tas...原创 2018-08-17 16:04:31 · 8083 阅读 · 2 评论 -
记录一些spark缓存中的方法
此为使用者自己选择释放需要的已经缓存的rdd。def unpersistUnuse(rddString: Set[String], sc: SparkContext) = { var persistRdds = sc.getPersistentRDDs persistRdds.foreach(truple => { val xx = truple._2.toString(...原创 2018-05-15 10:02:32 · 1411 阅读 · 0 评论 -
记录oracle回写的几个解决方案
由于用的是spark1.5.1的版本,出现诸多想不到的bug,记录下来,供大家参考。首先说下我们的需求,是将hive的表进行回写入oracle,必须使用sparksql这种形式,所以就不考虑sqoop,集群的大数据平台没有sqoop组件。必须按照一定的数据格式精准输出,从oracle跑数时用的什么类型,最后回到oracle是什么类型,并且精度是一致的。 由于大数据平台hive中,将date也...原创 2018-04-25 18:10:46 · 1209 阅读 · 0 评论 -
记录使用sparksql 写txt,csv等问题
由于是在内网工作无法截图,只是文字记录,见谅!1.生成csv的方法 由于sparksql 1.5的版本导致很多函数是有bug的,经过多次尝试以下是生成csv的正确方法。 mave加入一个特殊的jar包<groupId>com.databricks</groupId><artifactId>spark-csv_2.10</artifact...原创 2018-04-11 18:54:51 · 4195 阅读 · 0 评论 -
关于sparksql使用hive读写oracale相关操作
在本人项目中涉及到spark相关读写问题,实际上我们项目做的是一个利用sparksql提高传统业务数据的流转速度的项目,使用hive中的数据并利用spark计算将数据回写入oracle。 本人使用的是spark 1.5的版本,内网操作,无法升级。 记录以下问题 1.使用oracle的原数据进行读,写入hive表 val conf=new SparkConf().setMaster(“loc...原创 2018-04-10 14:22:48 · 639 阅读 · 0 评论 -
使用Spark sql的shell转换Oracle sql的例子
使用Sparksql的shell转换Oracle的例子//1.创建表 create table AUTO_PAID_CASE_TMP_01 ( branch_company_code VARCHAR(25), policy_no VARCHAR(60), product_code_detail VARCHAR(24),原创 2018-03-14 11:03:38 · 781 阅读 · 0 评论 -
sparksql小文件生成过多,导致job之间任务出现大量空白时间
由于时间久远。该问题十分具有代表性。所以今天将其记录一下。本人使用的是华为C70集群,spark1.5.1的版本,由于版本问题。原先批处理一个小时的程序变慢一倍。达到2小时的处理时长。以jstack和jstat的方式大量观察,排除了gc和oom的问题。那么问题到底出在哪里?截图为内网。我无法拿出来。我用语言描述一下:即为可以从spark UI界面观察得出。job界面中 多个stage之...原创 2019-09-05 14:45:57 · 1891 阅读 · 0 评论