
spark
文章平均质量分 64
风是外衣衣衣
这个作者很懒,什么都没留下…
展开
-
spark常见问题处理
1、spark thriftserver报以下错误,其他诸如hive/sparksql等方式均正常ERROR ActorSystemImpl: Uncaught fatal error from thread [sparkDriverActorSystem-akka.actor.default-dispatcher-379] shutting down ActorSystem [sparkDriverActorSystem]java.lang.OutOfMemoryError: Java heap转载 2020-08-24 11:20:16 · 4584 阅读 · 0 评论 -
用spark获取前一行数据,DF.withColumn(colName,lag(colName,offset).over(Window.partitionBy().orderBy(desc())))
数据:1,11,1112,22,2223,33,3331,22,3331,22,444代码:package com.emg.etp.analysis.preproces.nullphotoimport com.emg.etp.analysis.preproces.nullphoto.pojo.EcarDataimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.SparkSes原创 2020-07-22 11:39:42 · 1922 阅读 · 0 评论 -
Spark JDBC系列--取数的四种方式
本文旨在介绍 Spark 通过JDBC读取数据库数据的四种API调用前准备对于不同的数据库,需要在spark的环境中添加对应的依赖包,如: <dependency> <groupId>org.postgresql</groupId> <artifactId>postgresql</artifactId> <version>42.1..转载 2020-06-02 16:39:28 · 4226 阅读 · 0 评论 -
streaming读取kafka数据再保存到es7.7.0代码及踩过的坑
代码import org.apache.kafka.clients.consumer.ConsumerConfigimport org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.sql.SparkSessionimport org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.st原创 2020-05-26 10:58:13 · 532 阅读 · 0 评论 -
spark读取excel表格
参考资料:https://blog.youkuaiyun.com/qq_38689769/article/details/79471332参考资料:https://blog.youkuaiyun.com/Dr_Guo/article/details/77374403?locationNum=9&fps=1pom.xml: <!--读取excel文件--> <dep...原创 2019-10-29 18:03:55 · 9908 阅读 · 9 评论 -
Spark SQL将数据写入Mysql表的一些坑
转自:https://blog.youkuaiyun.com/dai451954706/article/details/52840011/ 最近,在使用Spark SQL分析一些数据,要求将分析之后的结果数据存入到相应的MySQL表中。 但是将数据处理完了之后,存入Mysql时,报错了: 代码的基本形式为: val r1: Dataset[Row] =...转载 2018-08-24 15:41:46 · 5242 阅读 · 0 评论 -
spark之jvm调优
转自:https://blog.youkuaiyun.com/lxhandlbb/article/details/52987928一、性能调优分类:1.常规性能调优: 分配资源,并行度。。等。2.JVM调优:JVM相关的参数。通常情况下,如果你的硬件配置,基础的JVM的配置,都ok的话,JVM通常不会造成太严重的性能问题,反而更多的是, 在troubleshooting中,JVM占了很重要的位置!!JVM造成...转载 2018-05-22 00:34:10 · 1187 阅读 · 0 评论 -
reduceByKey和groupByKey区别与用法
转自:https://blog.youkuaiyun.com/zongzhiyuan/article/details/49965021在spark中,我们知道一切的操作都是基于RDD的。在使用中,RDD有一种非常特殊也是非常实用的format——pair RDD,即RDD的每一行是(key, value)的格式。这种格式很像Python的字典类型,便于针对key进行一些处理。针对pair RDD这样的特殊形式...转载 2018-05-19 13:40:52 · 31840 阅读 · 5 评论 -
Spark性能优化 Shuffle性能优化
转载 http://blog.sina.com.cn/s/blog_9ca9623b0102w8qi.htmlSpark性能优化 Shuffle性能优化一:Shuffle性能调优1, 问题:Shuffle output file lost? 真正的最重要的原因是GC导致的!!!下一个Stage向上一个Stage要数据,需要消耗CPU, 导致GC。Full GC的时候,线程不再工作,向上一个Sta...转载 2018-05-18 16:54:22 · 436 阅读 · 0 评论 -
spark连接hive的两种方式
在pom中添加依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocatio...原创 2018-12-18 14:12:38 · 30108 阅读 · 4 评论 -
Broadcast与map进行join,避免shuffle,从而优化spark
转自:https://blog.youkuaiyun.com/zsw7181084/article/details/52254388Broadcast与map进行join,避免shuffle,从而优化spark适用场景进行join中至少有一个RDD的数据量比较少(比如几百M,或者1-2G)因为,每个Executor的内存中,都会驻留一份广播变量的全量数据Broadcast与map进行join代码示例创建RDD...转载 2018-05-18 14:54:37 · 1847 阅读 · 0 评论 -
streaming流式读取hdfs采坑记
package rockerMQimport org.apache.spark.sql.SparkSessionimport org.apache.spark.{SparkConf, SparkContext, sql}import org.apache.spark.streaming.{Seconds, StreamingContext}/** * @Auther: sss...原创 2018-11-27 11:57:33 · 872 阅读 · 0 评论 -
spark:Exception in connection from /192.168.40.56:46550 java.io.IOException:Connection reset by peer
错误日志如下 网上百度了很多 没解决最后发现是自己代码问题去掉coalesce就好了或是把分区数调大一点原因如下:原创 2018-12-20 18:21:04 · 2011 阅读 · 0 评论 -
spark 常用算子总结
https://blog.youkuaiyun.com/fortuna_i/article/details/81170565 链接https://blog.youkuaiyun.com/u013013024/article/details/73498508 sparkUI详解转载 2018-12-20 18:32:54 · 301 阅读 · 0 评论 -
spark-submit提交到yarn上常见错误
#!/bin/bashsystime=`date -d "-24 hour" +%Y%m-%d-%H-%M`ym=`echo ${systime} | awk -F '-' '{print $1}'`d=`echo ${systime} | awk -F '-' '{print $2}'`h=`echo ${systime} | awk -F '-' '{print $3}'`syst...原创 2019-01-29 10:27:49 · 2629 阅读 · 0 评论 -
spark-submit提交到yarn中运行的log怎么看?
原创 2019-02-22 13:27:05 · 2117 阅读 · 0 评论 -
spark处理json数据Demo
/** * @Auther: sss * @Date: 2019/2/26 14:24 * @Description: * ps:数据是json 如下(数据是a#b#格式) 需求:lat,lng;timestamp#lat,lng;timestamp#lat,lng;timestamp (最后要是a#b格式) */object xiaoM {...原创 2019-02-26 17:07:22 · 3098 阅读 · 0 评论 -
spark处理中文遇到的乱码问题(小表join大表)
package cn.bw.spark.object_cxbimport cn.bw.spark.object_cxb.WriteSQL.{sc, transfer}import org.apache.hadoop.io.{LongWritable, Text}import org.apache.hadoop.mapred.TextInputFormatimport org.apache...原创 2018-04-16 09:24:36 · 1325 阅读 · 0 评论 -
Spark性能优化:shuffle调优
shuffle调优调优概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个Spark的性能调优中占到一小部分而已。...转载 2018-05-18 10:02:34 · 140 阅读 · 0 评论 -
Spark性能优化:资源调优篇
http://tech.meituan.com/spark-tuning-basic.html (美团技术点评团队)在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没...转载 2018-05-18 10:01:02 · 133 阅读 · 0 评论 -
spark之Sort(三)
package textSortimport org.apache.spark.{SparkConf, SparkContext}object SortDemo02 extends App { /* * 自定义排序 * 排序规则给女明星排序 年龄 颜值 演技 * * 注意 sortBy只应用于元组tuple * */ val conf = new Spa...原创 2018-04-11 00:32:50 · 237 阅读 · 0 评论 -
spark之Sort(二)
package textSortimport org.apache.spark.{SparkConf, SparkContext}/** 自定义排序* 排序规则给女明星排序 年龄 颜值 演技** 注意 sortBy只应用于元组tuple* */object SortDemo03 extends App{ val conf=new SparkConf().setAppN...原创 2018-04-11 00:31:03 · 150 阅读 · 0 评论 -
spark之Sort(一)
package textSortimport org.apache.spark.{SparkConf, SparkContext}/** 自定义排序* 排序规则给女明星排序 年龄 颜值 演技** 注意 sortBy只应用于元组tuple* */object SortDemo01 extends App{ val conf = new SparkConf().setApp...原创 2018-04-11 00:29:24 · 555 阅读 · 0 评论 -
最详细讲解spark数据倾斜之自定义分区
package urlimport java.net.URLimport org.apache.spark.{Partitioner, SparkConf, SparkContext}import scala.collection.mutable/** 自定义一个分区 不会存在数据倾斜问题 参数都是写活的* */object UrlCompute2 extends A...原创 2018-04-11 00:15:58 · 1030 阅读 · 0 评论 -
spark常用的算子
http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.htmlmap是对每个元素操作, mapPartitions是对其中的每个partition操作------------------------------------------------------------------------------------...原创 2018-04-09 22:54:52 · 258 阅读 · 0 评论 -
spark写基站的小练习
package cn.bw.spark.day02import org.apache.spark.{SparkConf, SparkContext}object LacCompute { def main(args: Array[String]): Unit = { //setMaster在本地做的时候指定一个虚拟的核数 val conf = new SparkConf(...原创 2018-04-09 21:39:12 · 634 阅读 · 0 评论 -
Spark RDD 详解
转自 :https://blog.youkuaiyun.com/haohaixingyun/article/details/67640939 Google 发表三大论文 GFS MapReduce BigTable 衍生出很多开源框架 ,毫无疑问 Hadoop 在 大家心中的地位是不可估量的 。Hadoop 因为其高可用 高扩展 高容错 特性成为开源工业界的事实标准,作为一个可以搭建下廉价PC 机器上...转载 2018-04-08 20:30:52 · 143 阅读 · 0 评论 -
用IDEA写spark单词统计
1.创建一个项目2.选择Maven项目,然后点击next3.填写maven的GAV,然后点击next4.填写项目名称,然后点击finish5.创建好maven项目后,点击Enable Auto-Import创建maven后不能创建scala 按照下面的来注意自己的版本号注意!!!记得把以下几个选项勾上 不然打不了jar包这个不用选 因为自己选择的是默认的的c:\\user\..\.m2\set...原创 2018-04-07 20:38:27 · 1839 阅读 · 1 评论 -
spark之broadcast后分析数据并行分区保存到mysql
package cn.bw.spark.day03import java.sql.{Connection, DriverManager, PreparedStatement, SQLException}import java.util.Dateimport org.apache.spark.{SparkConf, SparkContext}object IpLocaltion ext...原创 2018-04-11 21:23:12 · 1034 阅读 · 0 评论 -
用JdbcRDD将mysql中的数据并发分区写到本地文件
package cn.bw.spark.day03import java.sql.DriverManagerimport org.apache.spark.rdd.JdbcRDDimport org.apache.spark.{SparkConf, SparkContext}/** 将mysql中的数据并发分区读取到本地* */object JdbcRdd2 extends A...原创 2018-04-11 21:26:30 · 280 阅读 · 0 评论 -
Spark性能优化:开发调优篇(超级干货)
1、前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业...转载 2018-05-18 09:58:26 · 573 阅读 · 0 评论 -
spark性能调优:高级篇(数据倾斜)
spark性能优化:高级篇(数据倾斜调优,shuffle调优)2017年03月06日 22:59:04阅读数:772原文链接:http://tech.meituan.com/spark-tuning-pro.html前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能...转载 2018-05-18 00:17:30 · 327 阅读 · 0 评论 -
spark分析出来的结果用echarts展示
<%@ page language="java" import="java.util.*" pageEncoding="utf-8"%><%@ taglib prefix="c" uri="http://java.sun.com/jsp/jstl/core"%><% String path = request.getContextPa原创 2018-04-18 23:30:24 · 2656 阅读 · 0 评论 -
SparkRDD从6大方面详解
转自:https://blog.youkuaiyun.com/erfucun/article/details/51972225一:RDD粗粒度与细粒度 粗粒度: 在程序启动前就已经分配好资源(特别适用于资源特别多而且要进行资源复用) 细粒度:计算需要资源是才分配资源,细粒度没有资源浪费问题。二: RDD 的解密: 1,分布式(擅长迭代式是spark的精髓之所在) 基于内存(有些时候也会基于硬盘) 特别适合于计...转载 2018-04-13 00:21:26 · 2168 阅读 · 0 评论 -
Spark中的Driver
转自:http://www.jobplus.com.cn/article/getArticleDetail/30566spark的四种分布式运行模式如图所示,上方为spark的架构图,spark的组件可以分为四个部分,driver、cluster Manager、worker和executor根据clusterManager的不同,spark可以分成四种不同的运行模式,standalone、loc...转载 2018-04-12 19:17:08 · 9862 阅读 · 2 评论 -
spark面试题
统计微博信息 试题描述:有一个数据文件,它包含如下格式的两列数据11111111 1274345711111111 1638658711111111 1976438811111111 1236437511111111 1342627511111111 1235636311111111 1325623611111111 1000003211111111 1000000111111111 10000...原创 2018-04-18 15:19:10 · 842 阅读 · 0 评论 -
spark之共享数据(累加器)
累加器顾名思义,累加器是一种只能通过关联操作进行“加”操作的变量,因此它能够高效的应用于并行操作中。它们能够用来实现counters和sums。Spark原生支持数值类型的累加器,开发者可以自己添加支持的类型,在2.0.0之前的版本中,通过继承AccumulatorParam来实现,而2.0.0之后的版本需要继承AccumulatorV2来实现自定义类型的累加器。如果创建了一个具名的累加器,它可以...原创 2018-04-11 21:41:23 · 942 阅读 · 0 评论 -
spark之共享数据(广播变量详细图解)
广播变量:比如数据库中一份公共配置表格,需要同步给各个节点进行查询。广播变量允许程序缓存一个只读的变量在每台机器上面,而不是每个任务保存一份拷贝。例如,利用广播变量,我们能够以一种更有效率的方式将一个大数据量输入集合的副本分配给每个节点。Spark也尝试着利用有效的广播算法去分配广播变量,以减少通信的成本。 一个广播变量可以通过调用SparkContext.broadcast(v)方法从一个初始变...原创 2018-04-11 21:37:46 · 6111 阅读 · 1 评论 -
spark新手入门安装+小练习
解压安装包到指定位置tar -zxvf spark-1.5.2-bin-hadoop2.6.tgz -C /usr/local进入到Spark安装目录cd /usr/local/spark-1.5.2-bin-hadoop2.6进入conf目录并重命名并修改spark-env.sh.template文件cd conf/mv spark-env.sh.template spark-env.shvi ...原创 2018-04-07 20:04:07 · 540 阅读 · 0 评论