
Spark
文章平均质量分 77
介绍pyspark的使用
只是甲
10年及以上金融信贷、通信行业数据库运维管理、数据仓库及大数据相关工作经验,持有Oracle OCP和Linux RHCE认证证书。
展开
-
pyspark案例系列12-查找Spark官方文档
Spark官方文档如何查找Spark官方文档Spark 读写 CSV、MySQL、Hive原创 2022-06-16 09:02:36 · 665 阅读 · 0 评论 -
pyspark案例系列11-ALS推荐算法
spark ALS算法 推荐算法原创 2022-06-16 08:59:22 · 1331 阅读 · 0 评论 -
pyspark案例系列10-java.lang.ClassNotFoundException: com.mysql.jdbc.Driver
spark 连接mysql报错原创 2022-06-15 09:12:50 · 730 阅读 · 0 评论 -
pyspark案例系列9-好友推荐实战
spark 好友推荐原创 2022-06-15 09:11:11 · 1146 阅读 · 0 评论 -
pyspark案例系列8-Dataframe的求差集、交集 、并集
spark 差集 并集 交集 去重原创 2022-06-14 09:00:53 · 2126 阅读 · 0 评论 -
pyspark案例系列7-通过dataframe的pivot实现行转列
spark pivot 自动行转列原创 2022-06-14 08:58:35 · 939 阅读 · 0 评论 -
pyspark案例系列6-将Hive表数据写入MySQL
Spark ETL Hive to MySQL原创 2022-06-13 10:35:01 · 723 阅读 · 0 评论 -
pyspark案例系列5-Spark ETL将MySQL数据同步到Hive
Spark ETL mysql to hive原创 2022-06-13 10:06:31 · 1144 阅读 · 0 评论 -
pyspark案例系列4-dataframe输出到单个文件夹的解决方案
spark 将dataframe输出到文件原创 2022-06-10 17:29:21 · 1412 阅读 · 0 评论 -
pyspark案例系列3-dataframe实现mysql的group_concat功能
一.问题描述今天写pyspark遇到一个问题,要实现同mysql的GROUP_CONCAT函数的功能数据1:col1 col21 a1 b1 c2 d2 f想要的结果1:col1 new_col21 a,b,c2 d,f如果存在多列是否也可行数据2:col1 col2 col31 a 1001 b 20原创 2021-05-24 10:28:44 · 5226 阅读 · 2 评论 -
pyspark案例系列2-rdd与DataFrame相互转换
一.问题描述今天写pyspark脚本的时候遇到一个问题,需要类似于关系型数据库group by再聚合的操作,尝试通过rdd来写,发现不好实现。于是想到了使用DataFrame,通过类sql的group by直接进行实现。二.解决方案将rdd直接转为DataFrame。首先进行配置:SparkSession是Spark SQL的入口from pyspark import SparkContext, SparkConffrom pyspark.sql.session import SparkSe原创 2021-05-21 15:57:42 · 5052 阅读 · 0 评论 -
pyspark案例系列1- 运行spark-sql的几种方式
文章目录一.环境介绍二.运行spark-sql的几种方式2.1 spark-shell的方式2.2 beeline的方式2.3 spark-sql的方式参考:一.环境介绍我本地的环境的CDH 6.3.1的环境,自己已经将spark软件安装成功了。然后有一个节点因为不小心升级了spark的版本,导致与集群失去了联系,然后在该节点下重新安装了spark。二.运行spark-sql的几种方式2.1 spark-shell的方式可以通过spark-shell的方式来登陆spark,然后用spark.sq原创 2021-05-20 11:32:40 · 6602 阅读 · 1 评论 -
Java-Spark系列10-Spark性能调优概述
文章目录一.Spark 性能优化概述二.运行环境优化2.1 数据本地性2.2 数据存储格式三.RDD算子优化3.1 尽可能复用同一个RDD3.2 对多次使用的RDD进行持久化四.参数微调五.数据倾斜六. Spark常用的调优参数6.1 在内存中缓存数据6.2 其它配置项6.3 SQL查询连接的hint6.4 自适应查询执行6.5 合并分区后重新组合6.6 将排序合并联接转换为广播联接6.7 优化倾斜连接参考:一.Spark 性能优化概述首先笔者能力优先,使用Spark有一段时间,如下是笔者的工作经验的总原创 2021-10-11 17:38:17 · 37993 阅读 · 0 评论 -
Java-Spark系列9-Spark 运维管理
备注:Cloudera 6.3.1Spark 2.4文章目录一.Spark安装目录结构二.Spark日志目录结构三.维护命令与参数参考:一.Spark安装目录结构Spark组件主要文件安装目录:{BIGDATE_HOME} 为 /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567目录路径目录说明bin可执行文件,包含spark-submit、spark-shelletc配置文件lib、lib64Sp原创 2021-10-11 17:25:31 · 18180 阅读 · 0 评论 -
Java-Spark系列8-Spark streaming整合Kafka
文章目录一. Spark streaming整合Kafka概述1.1 Maven配置1.2 创建Direct Stream1.3 定位策略1.4 消费者的策略1.5 创建RDD1.6 获得Offsets1.7 存储 Offsets1.8 检查点1.9 Kafka自身1.10 自身数据存储二.Spark Streaming整合Kafka实战2.1 Maven配置2.2 代码2.3 测试参考:一. Spark streaming整合Kafka概述1.1 Maven配置对于使用SBT/Maven项目定义的S原创 2021-09-30 15:46:47 · 19980 阅读 · 0 评论 -
Java-Spark系列7-Spark streaming介绍
文章目录一.Spark streaming介绍1.1 Spark streaming简介1.2 Spark 与storm区别1.3 一个简单的例子二.Spark Streaming的组件介绍2.1 Streaming Context2.2 Dstream(离散流)2.1 Receiver2.2 数据源2.3 可靠性2.4 Dstream的操作2.5 缓存2.6 Checkpoint三.一个简单的测试用例3.1 linux服务器安装nc服务3.2 Java spark代码参考:一.Spark stream原创 2021-09-27 15:50:44 · 19581 阅读 · 0 评论 -
Java-Spark系列6-Spark SQL编程实战
文章目录一.Spark DataFrame概述1.1 创建DataFrame1.1.1 通过json文件创建DataFrame1.1.2 通过CSV文件创建DataFrame1.1.3 通过hive table创建DataFrame1.1.4 通过jdbc数据源创建DataFrame二.Spark SQL实战2.1 DataFrame的统计信息2.2 DataFrame的select操作2.3 DataFrame对列的操作2.3 过滤数据2.4 简单的聚合操作2.4.1 简单聚合2.5 自定义函数2.6 表原创 2021-09-26 18:13:48 · 24029 阅读 · 0 评论 -
Java-Spark系列5-Spark SQL介绍
文章目录一.Spark SQL的概述1.1 Spark SQL 来源1.2 从代码看Spark SQL的特点1.3 从代码运行速度看来看Spark SQL二.Spark SQL数据抽象2.1 DataFrame2.2 Dataset三.Spark SQL 操作数据库3.1 Spark SQL操作Hive数据库3.1.1 创建DataFrames3.1.2 以编程方式运行SQL查询3.2 Spark SQL操作MySQL数据库参考:一.Spark SQL的概述1.1 Spark SQL 来源Hive是目原创 2021-09-26 18:06:37 · 21430 阅读 · 0 评论 -
Java-Spark系列4-spark内核概述
文章目录一.Spark核心组件1.1 Cluster Manager(Master,ResourceManager)1.2 Worker(worker,NodeManager)1.3 Driver1.4 Executor1.5 Application二.Spark on Yarn3.1 Yarn的基本架构3.2 Spark on Yarn3.2.1 YARN-Cluster模式3.2.2 YARN-Client模式3.3 Spark Job参考:一.Spark核心组件SparkContext将资原创 2021-09-24 14:46:31 · 19434 阅读 · 0 评论 -
Java-Spark系列3-RDD介绍
文章目录一.RDD概念1.1 RDD的特点1.2 RDD的核心属性二.RDD概述2.1 准备工作2.2 初始化spark2.3 RDD数据集2.3.1 并行集合2.3.2 外部数据集三.操作RDD3.1 基础知识3.2 将函数传递给Spark3.3 理解闭包3.4 使用键值对3.5 常见Transformations操作及Actions操作四.RDD实例4.1 初始化RDD4.1.1 通过集合创建RDD4.1.2 通过文件创建rdd4.2 RDD的map操作4.3 RDD使用函数参考:一.RDD概念R原创 2021-09-24 14:38:45 · 20747 阅读 · 0 评论 -
Java-Spark系列2-quick-start
文章目录一.idea搭建maven工程二.Maven编译Java应用程序2.1 Java代码三.导出maven工程四.运行jar程序参考:一.idea搭建maven工程前面已经有博客介绍idea下搭建maven工程了,这里略过,主要介绍下pom.xml的配置。<project> <groupId>edu.berkeley</groupId> <artifactId>simple-project</artifactId> <原创 2021-09-22 16:17:42 · 19714 阅读 · 0 评论 -
Java-Spark系列1-spark概述
文章目录一.大数据技术栈二.Spark概述2.1 MapReduce框架局限性2.2 Hadoop生态圈中的各种框架2.3 Spark2.3.1 Spark的优势2.3.2 Spark特点2.3.3 SPRAK 2 新特性一.大数据技术栈如下图,当前的一个大数据技术栈:如上所示:数据采集,一般通过Sqoop或Flume将关系型数据库数据同步到hadoop平台。底层存储,采集到的数据存储在hdfs上,分布式进行存储。资源调度,hadoop的资源调度就是yarn,用来协调各个集群节点的资源。底原创 2021-09-22 15:59:40 · 24916 阅读 · 0 评论 -
pyspark开发趣味题2- 好友推荐
文章目录一.问题描述二. 解决方案2.1 pyspark 的 Spark SQL的解决方案2.2 pyspark的DataFrame的解决方案一.问题描述有这么一个类通讯录的数据集如下截图:我们想进行好友,例如B和C同是A的好友,但是C不时B的好友,此时我们可以向B推荐一个间接好友C。希望的输出:tmp2.id2_1 id2_newB CC B,D,E这个场景只是一个简单的数据场景,真实的场景会比这个复杂很多。二. 解决方案首先我们不要把问题想得复杂原创 2021-05-27 14:06:05 · 6341 阅读 · 4 评论 -
pyspark系列10-Spark SQL性能调优常用参数介绍
文章目录一.在内存中缓存数据二.其它配置项三.SQL查询连接的hint四.自适应查询执行五.合并分区后重新组合六.将排序合并联接转换为广播联接七.优化倾斜连接参考:一.在内存中缓存数据Spark SQL可以通过调用Spark.catalog.cachetable (“tableName”)或DataFrame.cache()来使用内存中的columnar格式缓存表。然后Spark SQL将只扫描所需的列,并自动调优压缩以最小化内存使用和GC压力。你可以调用spark.catalog.uncacheTab原创 2021-05-13 13:46:41 · 5598 阅读 · 0 评论 -
pyspark系列9-Spark性能调优概述
文章目录一.Spark 性能优化概述二.运行环境优化2.1 数据本地性2.2 数据存储格式三.RDD算子优化3.1 尽可能复用同一个RDD3.2 对多次使用的RDD进行持久化四.参数微调五.数据倾斜参考:一.Spark 性能优化概述首先笔者能力优先,使用Spark有一段时间,如下是笔者的工作经验的总结。Spark任务运行图:Spark的优化思路:一般是从3个层面进行Spark程序的优化:运行环境优化RDD算子优化参数微调二.运行环境优化2.1 数据本地性我们知道HDFS的数据文件原创 2021-05-11 14:02:23 · 4899 阅读 · 0 评论 -
pyspark系列8-Spark 运维管理
备注:Cloudera 6.3.1Spark 2.4文章目录一.Spark安装目录结构二.Spark日志目录结构三.维护命令与参数参考:一.Spark安装目录结构Spark组件主要文件安装目录:{BIGDATE_HOME} 为 /opt/cloudera/parcels/CDH-6.3.1-1.cdh6.3.1.p0.1470567目录路径目录说明bin可执行文件,包含spark-submit、spark-shelletc配置文件lib、lib64Sp原创 2021-05-08 15:19:03 · 4517 阅读 · 6 评论 -
pyspark系列7-Spark streaming介绍
文章目录一.Spark streaming介绍1.1 Spark streaming简介1.2 Spark 与storm区别1.3 一个简单的例子二.Spark Streaming的组件介绍2.1 Streaming Context2.2 Dstream(离散流)2.1 Receiver2.2 数据源2.3 可靠性2.4 Dstream的操作2.5 缓存2.6 Checkpoint三.一个简单的测试用例3.1 linux服务器安装nc服务3.2 pyspark代码参考:一.Spark streaming介原创 2021-05-07 13:48:11 · 5244 阅读 · 0 评论 -
pyspark系列6-Spark SQL编程实战
一.Spark DataFrame概述从上一篇博客,我们可以知道因为Python是弱类型,所以PySpark SQL的数据抽象就只有DataFrame,这里我们再来复习一下DataFrame。在Spark语义中,DtatFrame是一个分布式的行集合,可以想象为一个关系型数据库的表,或一个带有列头的Excel表格。它和RDD一样,有这样一些特点:Immuatable: 一旦RDD、DataFrame被创建,就不能更改,只能通过tranformation生成新的RDD、DataFrameLazy原创 2021-05-06 13:57:05 · 5699 阅读 · 9 评论 -
pyspark系列5-Spark SQL介绍
文章目录一.Spark SQL的概述1.1 Spark SQL 来源1.2 从代码看Spark SQL的特点1.3 从代码运行速度看来看Spark SQL二.Spark SQL数据抽象2.1 DataFrame2.2 Dataset三.Spark SQL 操作数据库3.1 Spark SQL操作Hive数据库3.1.1 Spark1版本使用方法3.1.2 Spark2版本使用方法3.2 Spark SQL操作MySQL数据库3.2.1 Spark1的写法3.2.2 Spark2的写法参考:一.Spark原创 2021-04-29 14:06:13 · 5087 阅读 · 3 评论 -
pyspark系列4-spark内核概述
文章目录一.Spark核心组件1.1 Cluster Manager(Master,ResourceManager)1.2 Worker(worker,NodeManager)1.3 Driver1.4 Executor1.5 Application二.Spark on Yarn3.1 Yarn的基本架构3.2 Spark on Yarn3.2.1 YARN-Cluster模式3.2.2 YARN-Client模式3.3 Spark Job参考:一.Spark核心组件SparkContext将资原创 2021-04-28 14:14:12 · 4497 阅读 · 4 评论 -
pyspark系列3-spark核心之RDD介绍
文章目录一.RDD概念1.1 RDD的特点1.2 RDD的核心属性二.操作RDD2.1 PySpark介绍2.2 PySpark环境配置2.3 PySpark使用2.3.1 初始化Spark2.3.2 初始化RDD2.3.3 RDD操作2.3.3.1 RDD的map操作2.3.3.1 RDD使用函数参考:一.RDD概念RDD(resilient distributed dataset ,弹性分布式数据集),是 Spark 中最基础的抽象。它表示了一个可以并行操作的、不可变得、被分区了的元素集合。用户不需原创 2021-04-27 15:11:03 · 5262 阅读 · 0 评论 -
pyspark系列2-linux安装pyspark
文章目录一.安装Java和Scale1.1 安装java1.2 安装Scala1.2.1 安装1.2.2 配置1.2.3 启动二.安装Apache Spark三.pyspark案例参考:一.安装Java和Scale1.1 安装java因为我这个环境是CDH 6.3.1版本,已经安装了JDK,此次略过。[root@hp1 ~]# javac -versionjavac 1.8.0_1811.2 安装Scala1.2.1 安装代码:官网地址:https://www.scala-lang.or原创 2021-04-26 16:24:05 · 5025 阅读 · 2 评论 -
pyspark系列1-spark概述
文章目录一.大数据技术栈二.Spark概述2.1 MapReduce框架局限性2.2 Hadoop生态圈中的各种框架2.3 Spark2.3.1 Spark的优势2.3.2 Spark特点2.3.3 SPRAK 2 新特性一.大数据技术栈如下图,当前的一个大数据技术栈:如上所示:数据采集,一般通过Sqoop或Flume将关系型数据库数据同步到hadoop平台。底层存储,采集到的数据存储在hdfs上,分布式进行存储。资源调度,hadoop的资源调度就是yarn,用来协调各个集群节点的资源。底原创 2021-04-25 13:53:29 · 4888 阅读 · 2 评论