
Spark
zkq_1986
这个作者很懒,什么都没留下…
展开
-
【Spark系列】一、基本概念
1基本概念1.1什么是Spark Spark是一种计算框架,是与mapreduce不一样的计算框架。他与Hadoopmapreduce相比具有以下优势:1) Spark通过将中间结果缓存在内存,而不是磁盘,因此很适合于多阶段的作业,如需多次迭代的机器学习。而mapreduce则将中间结果每次都存到磁盘,速度下降很多。2) Spark在通信方面采用Akaa框架的(角色原创 2017-01-26 19:57:03 · 365 阅读 · 0 评论 -
【python】python本地windows调试spark安装配置及代码示例
安装要想在windows下搭建Spark(python版本)主要分为:JDK安装配置Scala安装配置 (可不安装)Spark安装配置Hadoop安装配置Python安装配置PyCharm运行JDK安装配置JDK 版本需要在 1.8 下载地址:http://www.oracle.com/technetwork/java/javase/downloads/inde...原创 2019-01-23 14:35:51 · 664 阅读 · 0 评论 -
【spark】windows本地通过pyCharm调试pyspark程序的配置
首先需要安装Java到官网下载并安装Java Standard Edition即Java SE10.0.1版本,这里下载的是window64位版本JDK,点击打开链接,设置环境变量安装过程中按照默认配置就好,安装好以后,配置Java的环境变量,右键我的电脑,依次点击属性-高级系统设置-环境变量新建用户变量: JAVA_HOME;C:\Program Files\Java\jdk-10...原创 2019-01-21 16:51:44 · 3061 阅读 · 0 评论 -
python读取hdfs上的parquet文件
python读取hdfs上的parquet文件在使用python做大数据和机器学习处理过程中,首先需要读取hdfs数据,对于常用格式数据一般比较容易读取,parquet略微特殊。从hdfs上使用python获取parquet格式数据的方法(当然也可以先把文件拉到本地再读取也可以):1、安装anaconda环境。2、安装hdfs3。 conda install hdfs...转载 2018-11-28 14:55:32 · 4428 阅读 · 0 评论 -
【Spark】Spark的checkpoint机制
Checkpoint 到底是什么和需要用 Checkpoint 解决什么问题:Spark 在生产环境下经常会面临 Transformation 的 RDD 非常多(例如一个Job 中包含1万个RDD) 或者是具体的 Transformation 产生的 RDD 本身计算特别复杂和耗时(例如计算时常超过1个小时) , 可能业务比较复杂,此时我们必需考虑对计算结果的持久化。Spark 是擅转载 2018-01-18 14:47:16 · 392 阅读 · 0 评论 -
【Spark】worker、executor、stage、task、partition关系
一个物理节点可以有一个或多个worker。一个worker中可以有一个或多个executor,一个executor拥有多个cpu core和memory。只有shuffle操作时才算作一个stage。一个partition对应一个task。如下示例,总共有4个stage(包括最后一个count),分区数10个,从而task也为10。假如总共的core数为2,那个这10个ta原创 2017-12-07 16:45:45 · 5623 阅读 · 0 评论 -
【Spark】sortBy[T]和sortByKey[T]排序详解
问题导读:1. 排序算子是如何做排序的?2. 完整的排序流程是?解决方案:1 前言在前面一系列博客中,特别在Shuffle博客系列中,曾描述过在生成ShuffleWrite的文件的时候,对每个partition会先进行排序并spill到文件中,最后合并成ShuffleWrite的文件,也就是每个Partition里的内容已经进行了排序,在最后的action操作的转载 2017-12-19 15:22:30 · 1578 阅读 · 0 评论 -
【Spark-Scala语法】implicit(隐式转换)关键字详解
implicit关键字,告诉程序从上下文获取相关的变量或函数。包括隐式参数、隐式转换、隐式函数。1.隐式参数当我们在定义方法时,可以把最后一个参数列表标记为implicit,表示该组参数是隐式参数。一个方法只会有一个隐式参数列表,置于方法的最后一个参数列表。如果方法有多个隐式参数,只需一个implicit修饰即可。 当调用包含隐式参数的方法是,如果当前上下文中有合适的隐式值转载 2017-12-19 14:41:33 · 2706 阅读 · 0 评论 -
【scala编程】学习大数据的第一步-搭建Scala开发环境,以及使用Intellij IDEA开发Scala程序
1为什么要学习Scala语言2Scala简介3Scala在Windows系统上的安装及环境配置1安装Java下载JDK配置环境变量测试Java环境3安装Scala下载Scala配置环境变量测试Scala环境4使用Intellij IDEA写hello world1安装Intellij IDEA下载Intellij IDEA配置Intellij IDEA1、为什么要学习Scala语言?结合Spark转载 2018-01-02 14:46:30 · 1860 阅读 · 0 评论 -
【Scala】泛函数
def findFirstA[A](arr: Array[A],target:A)(equ: (A, A) => Boolean): Int = { def loop(idx: Int): Int = idx match { case l if (l >= arr.length) => -1 //indicate not found转载 2017-12-20 12:41:24 · 604 阅读 · 0 评论 -
【Scala】Scala中的match、case模式匹配
scala中的case语法与java中的switch语法类似,但比switch更强大:例子一,正则匹配:val Pattern="(s.*)".r val v1="spark"; val r=v1 match { case Pattern(v1)=> "begin s*" case "1"=> "1" case "2"=> "2转载 2017-12-20 11:42:12 · 1411 阅读 · 0 评论 -
【Spark系列】Scala语法——case
1 case classcase class作用:1)模式匹配;2)不用new创建对象,直接用工厂模式创建。原创 2017-05-24 10:48:09 · 517 阅读 · 0 评论 -
【Spark系列】三、Spark工作机制
Spark工作机制ClientDriver程序Spark ContextRDD DAGDAGSchedularTaskSchedular原创 2017-01-26 20:06:35 · 2563 阅读 · 0 评论 -
【Spark系列】二、弹性分布式数据集RDD
3.1RDD基本概念(1)RDD的两种创建方式1)外部文件创建,如HDFS、本地文件。2)RDD转换得到新的RDD。(2)RDD的两种操作算子对于RDD可以有两种计算操作算子:Transformation(变换)与Action(行动)。只有行动(Action)算子才会触发作业(Job)提交。(3)RDD的重要内部属性1)分区列表。2)计算每个分片的函数。3)原创 2017-01-26 20:03:57 · 660 阅读 · 0 评论 -
【pyspark】pyspark提交python代码至yarn运行
1.压缩工程文件sudo zip -r 项目.zip.gz ./*2.配置PYTHONPATH,指向该目录3.工程下创建配置文件conf.py文件AI_PLATFORM_SOURCE=r'/usr/项目.zip'2.代码引用外部模块#从conf引用模块路径from conf import 项目路径sys.path.append(项目路径)from settings i...转载 2019-07-10 10:23:26 · 5751 阅读 · 0 评论