
spark
文章平均质量分 81
Jiede1
专注与数据挖掘和人工智能
Github: https://github.com/Jiede1
展开
-
用户画像算法TF_IDF,TextRank实战
TF_IDF算法#coding:utf-8import jieba.analyse#基于 TF-IDF(term frequency–inverse document frequency) 算法的关键词抽取print('*****案例一********')txt='该项目采用盆栽与田间试验相结合的研究方法,揭示了冀南矿粮复合区矿井水的不同灌溉方式对冬小麦和夏玉米轮作体系中粮食产量与品质的影响,探明了矿井水直接用于灌溉抑制冬小麦和夏玉米作物的光合作用,导致作物减产,降低作物的籽粒品质;发现了矿井水原创 2021-02-02 20:05:55 · 1059 阅读 · 0 评论 -
Spark DataFrame算子使用与窗口函数
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...原创 2020-05-05 14:16:46 · 3589 阅读 · 0 评论 -
Spark Shuffle问题高级调优
数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一...转载 2020-03-13 17:38:20 · 1121 阅读 · 0 评论 -
Spark底层原理---Spark宽依赖和窄依赖深度剖析
RDD依赖关系与stage划分Spark中RDD的高效与DAG图有着莫大的关系,在DAG调度中需要对计算过程划分stage,而划分依据就是RDD之间的依赖关系。1. 窄依赖与宽依赖针对不同的转换函数,RDD之间的依赖关系分为窄依赖(narrow dependency)和宽依赖(wide dependency,也成shuffle dependency)。1.1 窄依赖窄依赖是指1个父RDD...转载 2020-03-02 23:25:37 · 973 阅读 · 0 评论 -
Spark内核剖析4---Master主备切换机制
Spark Master主备切换主要有两种机制,之中是基于文件系统,一种是基于Zookeeper.基于文件系统的主备切换机制需要在Active Master挂掉后手动切换到Standby Master上,而基于Zookeeper的主备切换机制可以实现自动切换Master。切换流程图流程说明:Standby Master模式使用持久化引擎读取持久化的storeApps、storeD...转载 2020-02-29 15:45:47 · 229 阅读 · 0 评论 -
Spark内核剖析2---Spark yarn client/cluster模式提交任务流程
在Spark内核剖析1—Spark standalone模式提交任务过程中描述了spark的standalone提交模式的主要细节,这是spark最经典的模式。但一般在生产中,使用的都是yarn-client或yarn-cluster模式,下文主要描述其原理。Yarn-cluster模式这里的ResourceManager相当于standalone的master,NodeManager相...原创 2020-02-22 12:59:49 · 511 阅读 · 0 评论 -
Spark内核剖析1---Spark standalone模式提交任务过程
standalone 模式Spark standalone模式是spark很常见的一种模式,集群角色分为Master,Worker,Driver三个端。Master端是集群的大脑,负责协调,分配资源给worker。Worker端是集群“办事的人”,主要接受Master的调度,以及driver端传来的task的执行。Driver端是指提交spark-submit的服务器,主要会将提交的程序...原创 2020-02-13 14:41:55 · 253 阅读 · 0 评论 -
如何为Spark集群配置–num-executors, – executor-memory和–execuor-cores
前言在我们提交spark进程时,应该如何为Spark集群配置–num-executors, - executor-memory和–execuor-cores 呢?一些资源参数设置的基本知识Hadoop / Yarn / OS Deamons 当我们使用像Yarn这样的集群管理器运行spark应用进程时,会有几个守护进程在后台运行,如NameNode,Secondary NameNod...转载 2020-01-02 09:34:11 · 2527 阅读 · 0 评论 -
Spark常用RDD算子总结
spark的算子比较多,但只有部分是常用的,特此记录下来,如需补充更多算子,请在评论留言。常见RDD算子(非Key-Vaue型)mapmap作用在RDD分区的每一个元素上scala> val nums=sc.parallelize(List(1,2,3))nums: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[...原创 2019-10-07 15:46:58 · 912 阅读 · 0 评论 -
Spark的GPU支持方法研究
引言:工作以来研究了一段时间的Spark利用GPU进行异构加速训练的的研究。下文是整理了网上一些常见的Spark结合GPU使用的方法。为了使用Spark进行机器学习,支持GPU是必须的,上层再运行神经网络引擎。目前AWS\GCP和Databricks的云都已经支持GPU的机器学习,AliYun也在实验之中。这包括几个层次:GPU直接支持Spark。因为Spark是多线程的,而GPU往往只能...转载 2018-12-22 17:54:32 · 5940 阅读 · 0 评论 -
spark多种运行模式【基于原理讲述】
1. 本地模式该模式被称为Local[N]模式,是用单机的多个线程来模拟Spark分布式计算,通常用来验证开发出来的应用程序逻辑上有没有问题。其中N代表可以使用N个线程,每个线程拥有一个core。如果不指定N,则默认是1个线程(该线程有1个core)。如果是local[*],则代表 Run Spark locally with as many worker threads as log...转载 2018-09-05 11:11:18 · 713 阅读 · 0 评论 -
使用Python写CUDA程序
使用Python写CUDA程序有两种方式: * Numba * PyCUDAnumbapro现在已经不推荐使用了,功能被拆分并分别被集成到accelerate和Numba了。例子numbaNumba通过及时编译机制(JIT)优化Python代码,Numba可以针对本机的硬件环境进行优化,同时支持CPU和GPU的优化,并且可以和Numpy集成,使Python代码可以在GP...转载 2018-07-05 18:02:38 · 21612 阅读 · 1 评论 -
spark-shell 基础操作(持续更新)
概述 Spark SQL 是 Spark 处理结构化数据的一个模块。与基础的 Spark RDD API 不同,Spark SQL 提供了查询结构化数据及计算结果等信息的接口。在内部,Spark SQL 使用这个额外的信息去执行额外的优化。有几种方式可以跟 Spark SQL 进行交互,包括 SQL 和 Dataset API。当使用相同执行引擎进行计算时,无论使用哪种 API / 语言都可以快速原创 2017-09-11 19:58:51 · 1702 阅读 · 0 评论 -
Spark能做什么
在已经有了一定基础后,继续学习新东西的时候,最首先的就是弄清楚要学的东西能做什么,跟自己已有的知识有什么挂钩的地方。现在打算学习Spark,所以接下来会介绍Spark的最基础的入门。一、Spark有些什么?1.全面兼容Hadoop的生态系统的MapReduce框架(这可是分布式计算的基础啊)2.提供Scala、Java和Python的语言编程接口,总有一门语言适合你��(三门都不会就老实学一门转载 2017-08-22 16:14:45 · 15169 阅读 · 1 评论