
Spark
文章平均质量分 87
AcceptedLin
ACC
展开
-
Spark环境下Scala和Python两种语言的对比
Spark环境下Scala和Python两种语言的对比Apache Spark作为类Hadoop MapReduce的通用并行框架,一款专为大规模数据处理而设计的分布式计算引擎,以其优越的性能,较为完善的生态,受到了大数据从业人员的青睐。Spark的框架使用Scala编写(注:Scala是一种运行在Java虚拟机上,实现和Java类库互联互通的面向对象及函数式编程语言),而Spark的开发目前主要使用三种语言:Scala、Python、Java。相比于Java,Spark中用Scala开发.转载 2021-03-01 09:52:32 · 1187 阅读 · 0 评论 -
大数据处理引擎Spark与Flink对比
大数据处理引擎Spark与Flink对比大数据技术正飞速地发展着,催生出一代又一代快速便捷的大数据处理引擎,无论是Hadoop、Storm,还是后来的Spark、Flink。然而,毕竟没有哪一个框架可以完全支持所有的应用场景,也就说明不可能有任何一个框架可以完全取代另一个。Spark简介Spark的历史比较悠久,已经发展了很长时间,目前在大数据领域也有了一定的地位.Spark是Apache的一个顶级项目。它是一种快速的、轻量级、基于内存、分布式迭代计算的大数据处...转载 2020-12-08 13:48:57 · 3286 阅读 · 0 评论 -
Spark中foreachRDD、foreachPartition和foreach解读
Spark中foreachRDD、foreachPartition和foreach解读foreachRDD、foreachPartition和foreach的不同之处主要在于它们的作用范围不同,foreachRDD作用于DStream中每一个时间间隔的RDD,foreachPartition作用于每一个时间间隔的RDD中的每一个partition,foreach作用于每一个时间间隔的RDD中的每一个元素。Foreach与ForeachPartition都是在每个partiti...转载 2020-09-15 13:30:02 · 17940 阅读 · 0 评论 -
pyspark API使用方法说明
pyspark API使用方法说明参考:https://blog.youkuaiyun.com/weixin_41734700/article/details/80542017https://blog.youkuaiyun.com/zwahut/article/details/90638252?utm_medium=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLear...转载 2020-08-29 12:28:42 · 330 阅读 · 0 评论 -
pySpark之RDD转dict
pySpark之RDD转dict在日常的数据处理过程,有时需要生成一个dict。大数据来源主要有有:HIVE表、HDFS上的文件。1. 从HIVE表读数据并转成dictfrom pyspark import SparkContextfrom pyspark.sql import HiveContext,SparkSessionsc = SparkContext()sql_context = HiveContext(s...转载 2020-07-21 14:12:15 · 18401 阅读 · 0 评论 -
Spark中map和flatmap的区别
Spark中map和flatmap的区别map的作用很容易理解就是对rdd之中的元素进行逐一进行函数操作映射为另外一个rdd。 flatMap的操作是将函数应用于rdd之中的每一个元素,将返回的迭代器的所有内容构成新的rdd。通常用来切分单词。Spark 中 map函数会对每一条输入进行指定的操作,然后为每一条输入返回一个对象。 而flatMap函数则是两个操作的集合——正是“先映射后扁平化”:操作1:同map函数一样:对每一条输入进行...转载 2020-07-19 15:09:11 · 29769 阅读 · 0 评论 -
pyspark之dataframe当前行与上一行值求差
pyspark之dataframe当前行与上一行值求差from pyspark import SparkContextfrom pyspark.sql import SQLContextfrom pyspark.sql import functions as Ffrom pyspark.sql.window import Windowsc = SparkContext(appName="PrevRowDiffApp")sqlc = SQLContext...转载 2020-07-17 14:40:26 · 4176 阅读 · 0 评论 -
pandas的DataFrame与dict之间的相互转换
pandas的DataFrame与dict之间的相互转换一、dict生成DataFrame1、如果只有一个dict,即一行dataframe数据# 注:dict的形式必须是如下2种,不然会报错# 1、dict外面加一层list【】dict_a = [{'a': 0, 'b': 1, 'c': 2}] # 2、dict内部的数据至少有1个或多个是list形式# 注:此时dict外面如果加上list,即[{}]形式,生成的df,有[]的数据是l...转载 2020-07-17 14:10:45 · 30253 阅读 · 3 评论 -
pysparksql_标记异常值_提取异常值_approxQuantile
pysparksql_标记异常值_提取异常值_approxQuantilesparksql_标记异常值_提取异常值用 .approxQuantile(…) 方法计算四分位数df_outliers = spark.createDataFrame([(1,143.5,5.3,28), (2,154.2,5.5,45), (3,...转载 2020-06-24 11:24:21 · 2130 阅读 · 0 评论 -
Explode in PySpark
Explode in PySpark有时要将dataframe中的一列变成多列:df = sqlContext.createDataFrame( [('cat \n\n elephant rat \n rat cat', )], ['word'])df.select(explode(split(col("word"), "\s+")).alias("word")).show()结果:## +--...转载 2020-06-17 18:56:57 · 8182 阅读 · 0 评论 -
pyspark dataframe生成一列常量数组
pyspark dataframe生成一列常量数组>>> from pyspark.sql.types import *>>> from pyspark.sql.functions import array>>> tag=array(lit("oracle"),lit("java")>>> df2.withColumn("tags",tag).show()结果:|gende...转载 2020-06-16 20:46:42 · 8525 阅读 · 0 评论 -
Convert Pyspark dataframe to dictionary
Convert Pyspark dataframe to dictionaryinput:Col0, Col1-----------A153534,BDBM40705R440060,BDBM31728P440245,BDBM50445050output:{'A153534': 'BDBM40705'}, {'R440060': 'BDBM31728'}, {'P440245': 'BDBM50445050'}Method1:df...转载 2020-06-16 20:36:26 · 2791 阅读 · 0 评论 -
pySpark创建DataFrame的方式
pySpark创建空DataFrame有时候需要在迭代的过程中将多个dataframe进行合并(union),这时候需要一个空的初始dataframe。创建空dataframe可以通过spark.createDataFrame()方法来创建:# 先定义dataframe各列的数据类型from pyspark.sql.types import *schema = StructType([ StructField("a",...转载 2020-05-31 12:00:10 · 2128 阅读 · 0 评论 -
pyspark列合并为一行
pyspark列合并为一行将dataframe利用pyspark列合并为一行,类似于sql的GROUP_CONCAT函数。例如如下dataframe:+----+---+| s| d|+----+---+|abcd|123|| asd|123|+----+---+需要按照列相同的列d将s合并,想要的结果为:+---+-----------+| d| newc...转载 2020-05-28 14:19:18 · 23392 阅读 · 1 评论 -
PySpark error采坑记
PySpark error采坑记最近在跑pyspark任务有报错:PySpark error: AttributeError: 'NoneType' object has no attribute '_jvm' if prefer != ['-911']: for prefer_i in prefer: prefer_l = prefer_i.split...原创 2020-05-25 20:25:01 · 17410 阅读 · 0 评论 -
Spark中yarn模式两种提交任务方式(yarn-client与yarn-cluster)
Spark中yarn模式两种提交任务方式(yarn-client与yarn-cluster)Spark可以和Yarn整合,将Application提交到Yarn上运行,和StandAlone提交模式一样,Yarn也有两种提交任务的方式。1.yarn-client提交任务方式配置在client节点配置中spark-env.sh添加Hadoop_HOME的配置目录即可提交yarn 任务,具体步骤如下:export HADOOP_CONF_DIR=$HADOOP_HOME/etc/had...转载 2020-05-10 13:48:30 · 10391 阅读 · 0 评论 -
Kafka设计解析Kafka Stream
Kafka设计解析Kafka Stream本文介绍了Kafka Stream的背景,如Kafka Stream是什么,什么是流式计算,以及为什么要有Kafka Stream。接着介绍了Kafka Stream的整体架构,并行模型,状态存储,以及主要的两种数据集KStream和KTable。并且分析了Kafka Stream如...转载 2020-04-19 13:43:10 · 11710 阅读 · 0 评论 -
Pyspark DataFrame基础
Pyspark DataFrame基础1.读取csvimport pandas as pdfrom pyspark.sql import SparkSessionspark = SparkSession \ .builder \ .appName('my_first_app_name') \ ...转载 2020-03-24 18:10:58 · 11832 阅读 · 0 评论 -
pySpark创建空DataFrame
pySpark创建空DataFrame有时候需要在迭代的过程中将多个dataframe进行合并(union),这时候需要一个空的初始dataframe。创建空dataframe可以通过spark.createDataFrame()方法来创建:# 先定义dataframe各列的数据类型from pyspark....转载 2020-03-22 14:04:01 · 3740 阅读 · 1 评论 -
pyspark rdd 基本操作
pyspark rdd 基本操作众所周知,Spark的核心是RDD(Resilient Distributed Dataset)即弹性分布式数据集,属于一种分布式的内存系统的数据集应用。Spark主要优势就是来自RDD本身的特性,RDD能与其他系统兼容,可以导入外部存储系统的数据集,例如,HDFS、HBase或者其他...转载 2020-01-25 16:44:35 · 410 阅读 · 0 评论 -
pyspark rdd中按其中一列分割拆分后转为多行
pyspark rdd中按其中一列分割拆分后转为多行 dataframe也有按某列中按分隔符转成多行的函数,不过dataframe比rdd所需资源更多,所以此处先些rdd的按某列拆分转为多行dataframe的详见https://spark.apache.org/docs/2.3.1/api/python/pyspark.sql.html#...转载 2020-01-25 16:39:28 · 1698 阅读 · 0 评论 -
pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换
pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换# -*- coding: utf-8 -*-import pandas as pdfrom pyspark.sql import SparkSessionfrom pyspark.sql import SQLContextfrom pyspark import SparkCont...转载 2020-01-25 16:35:17 · 1216 阅读 · 0 评论 -
pyspark dataframe存hive表
pyspark dataframe存hive表##pyspark dataframe存hive表需要写入hive表的dataframe为df_write,需要写入名为course_table的hive表df_write.write.format("orc").mode("overwrite").saveAsTable("...转载 2019-12-20 20:13:41 · 1764 阅读 · 0 评论 -
PySpark学习笔记之一
PySpark学习笔记之一关于Spark分布式计算引擎的介绍见:https://blog.youkuaiyun.com/u013185349/article/details/85785638提交任务的配置:./bin/spark-submit \ --class <main-class> \ --master <m...原创 2019-01-11 16:16:40 · 13435 阅读 · 0 评论 -
Spark之pipeline机制
Spark之pipeline机制Spark ML Pipeline 的引入,是受到 scikit-learn 的启发,虽然 MLlib 已经足够简单实用,但如果目标数据集结构复杂,需要多次处理,或是在学习过程中,要使用多个转化器 (Transformer) 和预测器 (Estimator),这种情况下使用 MLlib 将会让程序结构极其复杂...转载 2019-01-11 16:52:41 · 491 阅读 · 0 评论 -
RDD的map和flatMap操作
RDD的map和flatMap操作RDD的map() 接收一个函数,把这个函数用于 RDD 中的每个元素,将函数的返回结果作为结果RDD 中对应元素的结果。flatMap()对RDD每个输入元素生成多个输出元素,和 map() 类似,我们提供给 flatMap() 的函数被分别应用到了输入 RDD 的每个元素上。不 过...转载 2019-07-10 10:14:45 · 4605 阅读 · 0 评论 -
Spark程序运行常见错误解决方法以及优化
Spark程序运行常见错误解决方法及优化一.org.apache.spark.shuffle.FetchFailedException1.问题描述这种问题一般发生在有大量shuffle操作的时候,task不断的failed,然后又重执行,一直循环下去,非常的耗时。2.报错提示(1) missing output loc...转载 2019-08-19 17:22:46 · 4514 阅读 · 0 评论 -
PySpark入门:键值对RDD操作
PySpark入门:键值对RDD操作RDD基本转换运算创建RDD最简单的方式是使用SparkContext的parallelize方法intRDD=sc.parallelize([3,1,2,5,5])intRDD.collect()由于spark的惰性,转化操作并不会马上执行,而collect()是一个“动作”...转载 2019-08-19 18:10:21 · 1185 阅读 · 0 评论 -
spark scala中的var 和val、def区别对比
spark scala中的var 和val、def区别对比一、最直观的就是:val定义的变量不能被再次赋值,而var定义的可以,见下图scala> val s=10s: Int = 10 scala> s=11<console>:27: error: reassignment to val ...转载 2019-08-25 15:24:15 · 723 阅读 · 0 评论 -
Spark的安装(基于Mac)
Spark的安装(基于Mac)一、简介1.1内容在mac电脑上成功安装spark(不用预先安装hadoop),并在jupyter上使用pyspark来操作spark。1.2 知识点jdk的安装 spark和pyspark的安装 虚拟环境的内核1.3 环境本文所有的环境变量是在.bash_prof...转载 2019-08-25 15:29:09 · 20814 阅读 · 0 评论 -
PySpark︱DataFrame操作指南:增/删/改/查/合并/统计与数据处理
PySpark︱DataFrame操作指南:增/删/改/查/合并/统计与数据处理https://blog.youkuaiyun.com/sinat_26917383/article/details/80500349#_13___142转载 2019-08-18 10:59:43 · 354 阅读 · 0 评论 -
Spark与Pandas中DataFrame对比
Spark与Pandas中DataFrame对比 Pandas Spark 工作方式 单机single machine tool,没有并行机制parallelism 不支持Hadoop,处理大量数据有...转载 2019-09-14 21:31:16 · 193 阅读 · 0 评论 -
Spark大数据计算引擎介绍
Spark大数据计算引擎介绍大数据生态的两个主要部分是Hadoop软件框架和Spark内存级计算引擎。Hadoop包含四个项目:Hadoop common,HDFS,YARN和MapReduce。 HDFS用于存储数据,HDFS文件被划分成区块分布在集群上; 用于管理集群资源(CPU和内存)和支持Hadoop的公共实用程序; MapRe...转载 2019-01-04 17:09:43 · 1640 阅读 · 0 评论