
Spark
文章平均质量分 68
spark
ztcheck
每个人都是生活的导演
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
HDFS 上文件 block 的副本参不参与计算
前段时间在部门内部做了一个 大数据组件 的知识分享,期间说到 hdfs 的文件多副本存储 和 Spark 的数据本地性时,一位同学提到“既然文件在集群上有多个副本,那么,Spark 计算时会不会有重复?” 我的第一反应是不会重复,但,原因呢?后面特意去查了下 Spark 的源码 以及 HDFS 上的文件读写过程,简单记录下我的理解。1. Spark 读取 HDFS 上的文件时,为什么计算结果不会重复?Spark 在读取 HDFS 上的文件时,首先向 HDFS 发起一个读请求,这时,Spark 相当.原创 2022-05-27 15:18:56 · 181 阅读 · 0 评论 -
Spark中内存参数的理解
最近开始使用 pyspark ,对于 executor 中的内存参数有些之前没注意到的地方,查看资料后,这里作下记录。1. spark 内存划分Spark 的内存分为:JVM 内存JVM之外的内存JVM内部的内存分为4部分:存储内存-此内存用于spark缓存数据、广播变量等;执行内存-此内存用于存储执行spark任务期间所需的数据(主要是shuffle阶段);用户内存-此内存用于用户目的。您可以在这里存储自定义数据结构、udf、UDAFs等;保留内存-此内存用于spark用途,从sp原创 2021-12-28 10:46:43 · 1807 阅读 · 0 评论 -
Hive on Spark && Spark-sql 中插入数据时的文件数量
Hive on Spark 表明 schema 使用的是 hive catalog,engine 使用的是spark;Spark-sql 则是schema 和 engine 都是用的是Spark。那么,使用上述两种方式向表里多次插入数据据时,底层的文件数量是怎么样的呢?是否严格按照 hdfs block 的大小来划分的?结论使用 Hive on Spark 每次插入都会生成一个copy文件,和block大小无关,和原始表的文件数量无关;使用 Saprk-sql 时,则按照原始表的文件数量进行 co原创 2021-08-02 11:13:10 · 651 阅读 · 0 评论 -
彻底打通实时数据仓库该如何实现及多种技术架构解析
彻底打通实时数据仓库该如何实现及多种技术架构解析本文转自:https://www.aboutyun.com/forum.php?mod=viewthread&tid=30039问题导读1.实时数据仓库有哪些特点?2.公司构建实时数据仓库有哪些好处?3.如何构建实时数据仓库?4.实时数据仓库本文解析了哪些架构?越来越多的实时数据需求,需要更多的实时数据来做业务决策,例如需要依据销售情况做一个资源位的调整;同时有些活动也需要实时数据来增强与用户的互动。如果数据有实时和离线两种方案,优先考虑转载 2020-12-30 09:12:50 · 591 阅读 · 0 评论 -
Spark借助Alluxio保障在k8s中的数据本地性
Spark借助Alluxio保障在k8s中的数据本地性继续接着之前的文章谈一谈,Spark在k8s中的数据本地性。上一篇文章详见Spark在k8s中的数据本地性,这里开始实际操作。主要参考官网文档,下面主要记录几个需要注意的地方:开启短读【short-cuit】特性【默认开启】,短读特性是指client在读取数据时,如果数据在worker本地节点存在的话,client会直接读取数据而不是通过worker读取数据,对性能有较好的提升。# 用户自定义的config.yaml中,在worker定义部分原创 2020-07-03 14:21:59 · 914 阅读 · 1 评论 -
Spark在k8s中的数据本地性
Spark在k8s中的数据本地性在k8s中,天然存在着数据隔离和网络隔离,这就造成了Spark在k8s中运行时,很难达到较好的数据本地性级别。常规意义上讲Spark的数据本地性,大部分是指的是Spark在读取数据时,第一个stage的数据本地性。这是由于Spark在读取数据时,首先会先去task执行位置寻找数据是否有缓存,其次会寻找数据是否存在优选位置【检查checkpointRDD的数据位置,主要是有的任务设置的checkpoint,任务失败恢复时,直接读取checkpoint的数据】,最后才是寻找窄依原创 2020-07-03 09:21:13 · 526 阅读 · 0 评论 -
Spark Scheduler模块源码分析之TaskScheduler和SchedulerBackend
原文链接:[https://blog.youkuaiyun.com/dabokele/article/details/51932102](https://blog.youkuaiyun.com/dabokele/article/details/51932102) 本文是Scheduler模块源码分析的第二篇,第一篇Spark Scheduler模块源码...转载 2020-06-23 15:37:16 · 254 阅读 · 0 评论 -
Spark-自定义RDD以及java和scala混合编译
转载自: 作者:玄尺 链接:https://blog.youkuaiyun.com/weixin_37893887/article/details/83473201 ...转载 2020-02-11 15:25:24 · 1224 阅读 · 0 评论 -
Spark-Core源码精读(2)、Master中的schedule详解
Spark-Core源码精读(2)、Master中的schedule详解本文转载至:[Spark-Core源码精读(2)、Master中的schedule详解](https://www.jianshu.com/p/153ec6adf83c) 作者:sun4lower注:本专题的文章皆使用Spark-1.6.3版本的源码为参考,如果Spark-2.1.0版本有重大改进的地方也会进行说明。什么...转载 2020-01-19 15:25:56 · 338 阅读 · 0 评论 -
Spark RPC 到底是个什么鬼?
转发自:[Spark RPC 到底是个什么鬼?](https://www.jianshu.com/p/228b274faa51),作者:sun4lower本文会为大家介绍Spark中的RPC通信机制,详细阐述“Spark RPC到底是个什么鬼?”,闲话少叙,让我们来进入Spark RPC的世界!Spark RPC三剑客Spark RPC中最为重要的三个抽象(“三剑客”)为:RpcEnv、...转载 2020-01-19 14:53:03 · 174 阅读 · 0 评论 -
Spark中ClosureClean中的clean方法
转载原文地址:https://blog.youkuaiyun.com/u013761049/article/details/82492581 spark里面,大量使用了一个方法,...转载 2020-01-13 11:12:29 · 318 阅读 · 0 评论 -
Spark社区分享集锦
主要是spark社区里面分享的好文汇总,转发到博客里做个备份。详情请点击连接–>https://mp.weixin.qq.com/s/d4FnXXCJS9SuztUDA2KvTw转载 2020-01-06 17:14:09 · 344 阅读 · 0 评论