
Spark
文章平均质量分 86
Spark技术
BGoodHabit
这个作者很懒,什么都没留下…
展开
-
一行命令获取Hadoop 文件系统 (HDFS) 的主节点地址
我们就会得到类似:hdfs://namenode_host HDFS 主节点地址,方便后续脚本操作中使用。原创 2024-11-30 16:27:07 · 157 阅读 · 0 评论 -
如何在Spark中使用gbdt模型分布式预测
spark中使用gbdt原创 2024-11-29 19:09:01 · 1875 阅读 · 0 评论 -
如何在spark中使用scikit-learn和tensorflow等第三方python包
这个参数的目的是告诉Spark应用程序在YARN的主节点上使用特定的Python解释器,即./python37/python37/bin/python3.7。这个参数的目的是将名为python37.zip的压缩文件解压到YARN集群节点,并将其路径设置为python37,以供Spark应用程序使用。-n python37: -n参数后跟着你想要创建的环境的名称,这里是python37。python=3.7: 这是要在环境中安装的Python版本的规范。-q: 这个选项用于减少命令的输出,即以静默模式运行。原创 2023-10-27 16:08:43 · 1561 阅读 · 0 评论 -
基于MLlib的机器学习
目录原创 2022-02-13 17:51:51 · 1516 阅读 · 0 评论 -
Spark Streaming
目录1 简介2 实例3 架构与抽象4 转化操作5 输出操作6 输入源7 24/7不间断运行1 简介许多应用需要即时处理收到的数据,例如用来实时追踪页面访问统计的应用、训练机器学习模型的应用,还有自动检测异常的应用。Spark Streaming 是Spark为这些应用而设计的模型。Spark Streaming使用离散化流作为抽象表示,叫做DStream。DStream可以从各种输入源创建,比如Flume、Kafka或者HDFS。创建出来的DStream支持两种操作,一种是转化操作(transforma原创 2022-01-21 11:48:26 · 1677 阅读 · 0 评论 -
Spark SQL
1 简介本章介绍 Spark 用来操作结构化和半结构化数据的接口——Spark SQL。结构化数据是指任 何有结构信息的数据。Spark SQL 提供了以下三大功能:Spark SQL 可以从各种结构化数据源(例如 JSON、Hive、Parquet 等)中读取数据Spark SQL 不仅支持在 Spark 程序内使用 SQL 语句进行数据查询,也支持从类似商业 智能软件 Tableau 这样的外部工具中通过标准数据库连接器(JDBC/ODBC)连接 Spark SQL 进行查询。当在 Spark原创 2022-01-17 10:08:29 · 2561 阅读 · 0 评论 -
Spark调优与调试
目录1 使用SparkConf配置Spark2 Spark执行的组成部分:作业、任务和步骤1 使用SparkConf配置Spark对Spark 进行性能调优,通常就是修改 Spark 应用的运行时配置选项。Spark 中最主要的配 置机制是通过 SparkConf 类对 Spark 进行配置。当创建出一个 SparkContext 时,就需要创 建出一个 SparkConf 的实例,如下是使用python创建一个应用:conf = SparkConf()conf.set("spark.app.nam原创 2022-01-13 10:06:23 · 1430 阅读 · 0 评论 -
在集群上运行Spark
目录1 Spark运行时架构1.1 驱动器节点1.2 执行器节点1.3 集群管理器1.4 启动一个程序1.5 小结2 使用spark-submit部署应用1 Spark运行时架构在分布式环境下,Spark集群采用的是主/从结构,有一个节点负责中央协调,调度各个分布式工作节点。这个中央协调节点被称为驱动器(Driver)节点,与之对应的工作节点被称为执行器(executor)节点。驱动器节点可以和大量的执行器节 点进行通信,它们也都作为独立的 Java 进程运行。驱动器节点和所有的执行器节点一起被 称为一原创 2022-01-04 10:49:31 · 828 阅读 · 0 评论 -
Spark编程进阶
目录1 简介1 简介介绍两种类型的共享变量: 累加器(accumulator)与广播变量(broadcast variable)。累加器用来对信息进行聚合,而 广播变量用来高效分发较大的对象。原创 2021-12-13 11:32:31 · 1689 阅读 · 0 评论 -
数据读取与保存
1 动机Spark支持很多种输入输出源,以下三类常见的数据源如下:文件格式与文件系统:对于存储在本地文件系统或分布式文件系统(比如NFS, HDFS, Amazon S3等)中的数据,spark可以访问很多种不同的文件格式,包括文本文件、JSON、SequenceFile、以及protocol buffer。Spark SQL中的结构化数据源:spark提供了一套简洁高效的API,处理JSON和Apache Hive在内的结构化数据源。数据库与键值存储:spark自带的库和一些第三方库,可以用来连原创 2021-11-30 19:59:33 · 491 阅读 · 0 评论 -
键值对操作
目录1 Pair RDD2 创建Pair RDD3 Pair RDD的转化操作1 Pair RDD键值对RDD是Spark中许多操作所需要的常见数据类型。spark为包含键值对类型的RDD提供了一些专有的操作,这些RDD被称为pair RDD。比如,pair RDD提供reduceByKey()方法,可以分别归约每个键对应的数据。在spark中有很多种创建pair RDD的方式,比如很多存储键值对的数据格式会在读取时直接返回由其健值对数据组成的pair RDD。此外,当需要把一个普通的RDD转为pai原创 2021-11-22 10:42:01 · 1814 阅读 · 0 评论 -
RDD编程
目录1 RDD基础2 创建RDD3 RDD操作3.1 转化操作3.2 行动操作1 RDD基础Spark对数据的核心抽象——弹性分布式数据集(Resilient Distributed Dataset,简称RDD),RDD其实就是分布式的元素集合。RDD是一个不可变的分布式对象集合,所以,所有的transformation算子都是从一个RDD转换生成一个新的RDD。每个RDD都被分为多个分区,这些分区运行在集群中的不同节点上。RDD支持两种类型的操作:转化操作(transformation) 和行动操作原创 2021-10-16 14:49:51 · 432 阅读 · 0 评论 -
Spark下载与入门
目录1 下载Spark2 Spark中的Python shell3 Spark核心概念4 独立应用5 总结1 下载Spark下载和解压缩,首选下载预编译版本的Spark,访问:Spark download,选择包类型为:“Pre-built for Apache Hadoop 3.2 and later",然后直接下载Spark包:spark-3.1.2-bin-hadoop3.2.tgz。下载好后,对包进行解压缩,并且进入到spark目录中:cd ~tar -xf spark-3.1.2-bin-原创 2021-10-09 14:21:28 · 3466 阅读 · 0 评论 -
Spark数据分析导论
目录1 Spark是什么2 核心组件2.1 Spark Core2.2 Spark SQL2.3 Spark Streaming2.4 MLib2.5 GraphX2.6 集群管理器3 Spark简史1 Spark是什么Spark是一个用来实现快速而通用的集群计算的平台。Spark扩展了广泛使用的MapReduce计算模型,并且能够在内存中进行计算,因而速度更快。Spark所提供的接口非常丰富提供基于python, java, scala和SQL的简单易用的API以及内建的丰富的程序库。Spark的核原创 2021-10-08 14:57:10 · 211 阅读 · 0 评论 -
PySpark概要
目录1 PySpark 概要2 Spark SQL and DataFrame3 Streaming4 MLlibSpark Core1 PySpark 概要PySpark是Apache Spark提供的一个python交互的接口,我们不仅可以用python API来写spark应用程序,而且它还提供了PySpark shell可以进行交互式数据分析。PySpark支持Spark的大多数功能,比如Spark SQL, DataFrame, Streaming, MLlib (Machine Learni原创 2021-09-13 21:01:02 · 1113 阅读 · 0 评论