
spark
zhuiqiuuuu
这个作者很懒,什么都没留下…
展开
-
hive 参数优化
SET hive.exec.dynamic.partition = true;SET hive.exec.dynamic.partition.mode = nonstrict;SET mapreduce.job.running.reduce.limit = 800;SET mapreduce.job.running.map.limit = 1000;SET mapreduce.job.reduce.slowstart.completedmaps = 1.0;SET mapred.output.co原创 2021-06-18 19:50:44 · 867 阅读 · 1 评论 -
hive 频繁gc 参数配置
set mapreduce.map.memory.mb=6144;set mapreduce.map.java.opts=-Xmx6144M;set mapreduce.map.cpu.vcores = 4;set mapreduce.reduce.memory.mb=8192;set mapreduce.reduce.java.opts=-Xmx6144M;set mapreduce.reduce.cpu.vcores = 8;原创 2021-06-18 18:52:34 · 1403 阅读 · 0 评论 -
spark中job,stage,task之间的关系
转载https://blog.youkuaiyun.com/mys_35088/article/details/80864092?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.add_param_isCf&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.add.转载 2020-11-11 13:28:31 · 2983 阅读 · 0 评论 -
spark cache (几种缓存方法)
例如有一张hive表叫做activity。cache表,数据放内存,数据被广播到Executor,broadcast,将数据由reduce side join 变map side join。效果都是查不多的,基本表达的都是一个意思。具体效果体现:读数据次数变小;df(dataframe)执行过一次就已经有值,不用重新执行前方获取df的过程。将多份数据进行关联是数据处理过程中非常普遍的用法,不过在分...转载 2018-02-08 15:28:10 · 42138 阅读 · 4 评论 -
spark 数据倾斜
一. 数据倾斜的现象1、spark中一个stage的执行时间受限于最后那个执行完的task,因此运行缓慢的任务会拖累整个程序的运行速度(分布式程序运行的速度是由最慢的那个task决定的)比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时。这种情况很常见。 2、原本能够正常执行的Spark作业,某天突然报出OOM(内存溢出)异常,观察异常栈...转载 2018-02-08 16:48:38 · 1046 阅读 · 0 评论 -
本地安装spark环境,pycharm看spark源码
https://blog.youkuaiyun.com/funfun0/article/details/77802590原创 2018-06-21 21:56:28 · 369 阅读 · 0 评论 -
pyspark.sql import Window窗口函数的使用
To be able to use window function you have to create a window first. Definition is pretty much the same as for normal SQL it means you can define either order, partition or both. First lets create ...转载 2018-08-21 12:37:33 · 5230 阅读 · 0 评论 -
spark架构 driver worker
spark架构spark任务的两种运行模式 spark submit --deploy cluster/client当为client模式时,本地提交时,driver程序在堡垒机上运行,所以堡垒机上能看到自己打印的一些日志;线上时,driver程序在客户端节点上执行。客户端节点的资源,决定了提交到集群的任务的并发数,一版为队列中状态的是在客户端节点上,执行中状态才是在集群上...原创 2018-11-21 21:08:37 · 444 阅读 · 0 评论 -
Spark On Yarn 中Executor 内存分配的机制
问题导读1. Spark On Yarn 下executor-memory 参数如何生效?2. Cluster 和 Client 模式中 内存开销的区别?3. 规整化因子是什么?综述 提交任务时,配置的executor-memory 的参数,设置为6g,结果实际运行中,占据的资源算下来,每个executor 使用的却接近7个g,被管理集群的同事找上门,逃。 那么,为何会配置的参数没有生效呢?...转载 2019-01-18 14:28:45 · 8715 阅读 · 3 评论 -
spark streaming
问题导读1.为什么使用spark streaming?2.什么是StreamingContext?3.什么是DStream?spark streaming介绍 Spark streaming是Spark核心API的一个扩展,它对实时流式数据的处理具有可扩展性、高吞吐量、可容错性等特点。我们可以从kafka、flume、witter、 ZeroMQ、Kinesis等源获取数据,也可以通过由 高...转载 2019-01-18 14:58:24 · 154 阅读 · 0 评论 -
Spark SQL 1.3.0 DataFrame介绍、使用及提供了些完整的数据写入
问题导读1.DataFrame是什么?2.如何创建DataFrame?3.如何将普通RDD转变为DataFrame?4.如何使用DataFrame?5.在1.3.0中,提供了哪些完整的数据写入支持API? 自2013年3月面世以来,Spark SQL已经成为除Spark Core以外最大的Spark组件。除了接过Shark的接力棒,继续为Spark用户提供高性能的SQL on Hadoop解...转载 2019-01-18 15:03:59 · 261 阅读 · 0 评论 -
spark sql优化:小表大表关联优化 & union替换or & broadcast join
----原语句(运行18min) SELECT bb.ip FROM ( SELECT ip , sum(click) click_num, ...转载 2018-02-08 16:14:16 · 13276 阅读 · 8 评论 -
spark中cache和persist的区别,rdd缓存源码解析
一、cache和persist的区别昨天面试被问到了cache和persist区别,当时只记得是其中一个调用了另一个,但没有回答出二者的不同,所以回来后重新看了源码,算是弄清楚它们的区别了。cache和persist都是用于将一个RDD进行缓存的,这样在之后使用的过程中就不需要重新计算了,可以大大节省程序运行时间。cache和persist的区别基于Spark 1.4.1 的源码,可以看到/** ...转载 2018-02-08 10:31:38 · 605 阅读 · 0 评论 -
spark dataFrame 新增一列函数withColumn
http://blog.youkuaiyun.com/sparkexpert/article/details/51023375往一个dataframe新增某个列是很常见的事情。然而这个资料还是不多,很多都需要很多变换。而且一些字段可能还不太好添加。不过由于这回需要增加的列非常简单,倒也没有必要再用UDF函数去修改列。利用withColumn函数就能实现对da转载 2017-05-30 11:34:02 · 63900 阅读 · 5 评论 -
如何在windows下安装配置pyspark notebook
如何在windows下安装配置pyspark notebook第一步:安装anacondaanaconda自带一系列科学计算包下载链接:http://pan.baidu.com/s/1b4jWlg 密码:fqq3接着配置环境变量:如我安装在D盘下 试一下命令行启动,确保ipython从anaconda启动 第二步:安装spark(需要提前安装原创 2017-05-30 13:45:32 · 2311 阅读 · 0 评论 -
spark dataframe操作集锦(提取前几行,合并,入库等)
转载:http://blog.youkuaiyun.com/sparkexpert/article/details/51042970Spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选、合并,重新入库。首先加载数据集,然后在提取数据集的前几行过程中转载 2017-05-31 16:17:36 · 3082 阅读 · 0 评论 -
pyspark sql createGlobalTempView和createOrReplaceTempView
createGlobalTempView(name)Creates a global temporary view with this DataFrame.The lifetime of this temporary view is tied to this Spark application. throws TempTableAlreadyExistsException, if th原创 2017-09-24 16:24:14 · 5318 阅读 · 0 评论 -
spark压缩 配置
压缩相关配置spark.broadcast.compress默认值:true。 在发送广播变量之前是否压缩它。spark.io.compression.codec默认值:snappy。压缩诸如RDD分区、广播变量、shuffle输出等内部数据的编码解码器。默认情况下,Spark提供了三种选择:lz4, lzf和snappy。你也可以用完整的类名来制定原创 2017-09-29 09:23:43 · 5004 阅读 · 1 评论 -
插入hive表的几种写法
1.sql="" insert overwrite table app.app_od_info partition(dt='{startT}') select so_no,so_num from table1"""spark.sql(sql)2.sql=""" select so_no,so_num,原创 2017-11-03 19:35:59 · 3207 阅读 · 0 评论 -
spark参数调优
摘要 1.num-executors 2.executor-memory 3.executor-cores 4.driver-memory 5.spark.default.parallelism 6.spark.storage.memoryFraction 7.spark.shuffle.memoryFraction转载 2017-12-20 14:51:26 · 383 阅读 · 0 评论 -
spark编程模型与基本架构图
1. spark编程模型Spark应用程序从编写到提交、执行、输出的整个过程如图2-5所示,图中描述的步骤如下。0)用户使用SparkContext提供的API(常用的有textFile、sequenceFile、runJob、stop等)编写Driver application程序。1)Cluster Manager:Spark的集群管理器,主要负责资源的分配与管理。集群管理原创 2017-12-07 21:59:11 · 859 阅读 · 0 评论 -
sparksql的agg函数,作用:在整体DataFrame不分组聚合
1、 agg(expers:column*) 返回dataframe类型 ,同数学计算求值df.agg(max("age"), avg("salary"))df.groupBy().agg(max("age"), avg("salary"))2、 agg(exprs: Map[String, String]) 返回dataframe类型 ,同数学计算求值 map类型的df.a原创 2017-05-31 16:13:23 · 43193 阅读 · 1 评论 -
spark concat_ws,collect_set
hive > select product_id, concat_ws('_',collect_set(promotion_id)) as promotion_ids from product_promotion group by product_id;OK5112 960024_960025_960026_960027_9600285113 960043_960044_960045_960原创 2017-05-30 11:19:04 · 7231 阅读 · 0 评论