
Spark
掉进悬崖的狼
世界上并没有完美的程序,
但我们并不因此而沮丧,
因为写程序本来就是一个不断追求完美的过程。
你可以不够优秀,但不要甘于平凡。
展开
-
Spark用DataFrame取代RDD以提高性能???
在许多人眼中, RDD是老掉牙的, 而用了DataFrame的Spark 2.1会更快. 然而, 很多人没有意识到Dataframe是基于RDD实现的. 我们可以试着打开引擎盖,看看里面到底是怎么工作的.在Spark中, DataFrame是一个以命名列方式组织的分布式数据集,等同于关系型数据库中的一个表,也相当于R/Python中的data frames(但是进行了更多的优化). RDD是一个分布式的数据集,数据分散在分布式集群的各台机器上.下图标示了两者结构上的对比.左侧的RDD[Person]原创 2020-05-15 17:58:22 · 2095 阅读 · 4 评论 -
spark参数调优
spark参数调优前言为什么要发这篇文章呢?因为搞了半天,感觉这个更新换代很快啊~ 今天运行sparksql作业的时候,发现yarn上面的CPU资源,被占用完了,这™还搞个锤子并发嘛?任务没有资源无法运行截图如下:看了一下报错信息,原来是没有核数了~ 内存很充足~怎么回事呢?才刚刚提了一个sparksql任务就给占满了?排查过程经过排查代码后发现,代码中开启了...原创 2020-03-20 15:26:49 · 1340 阅读 · 0 评论 -
聊一下服务器上OOM的那些事儿
前言为什么今天来讨论这个话题呢?因为昨天遇到一个大坑,其实也不是算大坑吧,就是一件特别奇怪的事儿。问题不多bb,直接上图,在我提交sparkSQL和datax同步任务的时候发现部分任务报错如下:部分任务OOM了,所在机器配置是物理内存为32G,我提交了20个任务......(datax同步任务有最大使用内存限制为1G、sparkSQL只有一个Driver端在服务器上面,没有设置...原创 2020-03-19 11:23:03 · 901 阅读 · 2 评论 -
SparkSQL查询Hive表报错 HiveException: copyFiles: error while moving files!!!
今天遇到一个大坑,发现好多个任务报错了~~~ 慌得一笔,为啥每次轮到我,都是这个样子,这么刺激~错误日志如下:2019-09-23 12:45:59,771 | INFO | task-result-getter-3 | Finished task 164.0 in stage 4.0 (TID 365) in 81 ms on yiclouddata16-SZZB (ex...原创 2019-09-23 14:22:05 · 1955 阅读 · 0 评论 -
udf自定义函数多个函数放在一个包内的那些坑~
本想好好吐槽两句hive和sparkSQL,哎,,也不能怪人家,可能自己操作确实有点问题吧。报错原因: 好多人都说这个是很明显的问题,原因很明显嘛就是数组越界的问题,我™,内心很崩溃,代码就那么多,哪里会报数组越界呢?代码如下:package com.dtwave.udfs.xin;import org.apache.commons.lang3.StringU...原创 2020-03-26 11:58:38 · 1206 阅读 · 0 评论 -
Spark之 RDD && Transformation && Action
其实我觉得学习spark、官网看着很得劲儿,感觉很详细 网址:http://spark.apache.org/docs/latest/rdd-programming-guide.html下面我就直接上图了,不想搬砖了!Resilient Distributed Datasets (RDDs)Spark revolves aro...原创 2019-03-08 11:55:24 · 244 阅读 · 0 评论 -
SparkSQL 操作Hive表 Demo程序
package org.apache.spark.examples.sql.hive;// $example on:spark_hive$import java.io.File;import java.io.Serializable;import java.util.ArrayList;import java.util.List;import org.apache.spark.a...原创 2019-03-27 11:56:12 · 2077 阅读 · 0 评论 -
RDD、DataSet与DataFream
1.1 什么是RDD?RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。1.2 RDD的属...原创 2019-03-27 11:48:47 · 1146 阅读 · 0 评论 -
sparkSQL清洗埋点数据(java版)
数据格式:{"actionTimes":"2018-11-25","actions":"搜索","bb":"v1.0","fromType":"Chrome/73.0.3683.75","fromURL":"https://www.nyist.com/s?wd=ip%E5%9C%B0%E5%9D%80&rsv_spt=1","ip":"120.50.10.233","requestM...原创 2019-03-27 11:31:06 · 1384 阅读 · 0 评论 -
采用spark RDD清洗apache日志(java版)
日志格式:8.35.201.164 - - [30/May/2013:17:38:21 +0800] "GET /static/image/common/pn.png HTTP/1.1" 200 5928.35.201.165 - - [30/May/2013:17:38:21 +0800] "GET /uc_server/avatar.php?uid=56212&size=mid...原创 2019-03-27 11:26:18 · 573 阅读 · 0 评论 -
spark任务提交方式 && 任务运行情况
spark运行模式有如下几种运行模式;以上就是相关内容,偷过来记录下,晚点好复习,哈哈...总结一点经验吧,说实话搞了两三年大数据开发了,刚开始感觉好难,后来慢慢的回味,感觉还好呀!所以不要放弃自己,努力,加油,有朝一日,回过头来,你会发现,这些都是 So easy......原创 2019-03-08 13:50:18 · 228 阅读 · 0 评论 -
spark优化篇
原创 2019-03-08 16:32:46 · 223 阅读 · 0 评论 -
Structured Streaming 详解
我觉得哈,简单的讲就是spark的Flink流处理,概念架构都是类似的。原创 2019-03-08 16:12:03 · 492 阅读 · 2 评论 -
Structured Streaming && Spark Streaming
第一件事儿先贴官方文档,由此可见,英文的重要性啊,哈哈...structured streaming :http://spark.apache.org/docs/latest/structured-streaming-programming-guide.htmlspark Streaming :http://spark.apache.org/docs/latest/streamin...原创 2019-03-08 15:59:21 · 1294 阅读 · 0 评论 -
sparkSQL讲解
官网文档:http://spark.apache.org/docs/latest/sql-programming-guide.html我觉得官方文档很详细,研究完文档,再加点个人开发经验,玩转sparkSQL妥妥的呀!哈哈...Spark SQL,DataFrames和Datasets GuideSpark SQL是用于结构化数据处理的Spark模块。与基本的Spark RDD API...原创 2019-03-08 14:33:12 · 244 阅读 · 0 评论 -
spark shuffle 详解
众所周知,大数据领域相关问题,无非就是 大数据存储和分布式计算。Hadoop有HDFS和MapReduce计算引擎,但是MapReduce用于批处理,相对来说处理大数据集是强项,并且所依赖的机器配置方面要求较低。而慢慢的被后期之秀spark给取缔,我认为两者的核心区别是 MapReduce不支持迭代计算,而spark支持,其实都是批处理的方式进行大数据的存储,spark没有大数据存...原创 2019-03-08 14:13:40 · 389 阅读 · 0 评论