我爱夜来香A
不患人之不己知,患其不能也
展开
-
spark基于standalone模式集群部署--centos7环境
一、前期准备1、三台虚拟机2、spark安装包,我的版本spark-3.1.2-bin-hadoop3.23、scala环境,我的版本scala-2.11.84、jdk,我的版本jdk-8u181二、操作系统准备1、先配置一台机器,后续可通过虚拟机克隆来进行操作2、安装相关命令yum -y install vimyum -y install net-toolsyum -y install tar3、设置静态ipvim /etc/sysconfig/network-scripts/i原创 2021-10-06 14:38:03 · 354 阅读 · 0 评论 -
spark学习:如何判断是否有Shuffle?
【代码】spark学习:如何判断是否有Shuffle?原创 2023-05-23 17:23:22 · 299 阅读 · 0 评论 -
spark学习:spark如何创建udf函数
【代码】spark学习:spark如何创建udf函数。原创 2023-05-12 14:29:26 · 495 阅读 · 0 评论 -
spark学习:如何用spark sql改造存储过程(以PostgreSql为例)
存储过程中的变量和参数需要转换为Spark SQL中的变量和参数。在Spark SQL中,可以使用表达式和函数来表示变量和参数,例如:lit()函数表示字面量,col()函数表示列名,lit()函数可以用来创建常量列,可以用在DataFrame中的操作和计算中。如果用spark或用jdbc调用存储过程,存储过程还是在数据库执行,执行时间和资源消耗取决于数据库的性能,压力也给到数据库这边,可以利用spark sql改造存储过程。2、若存储过程存在DML(update/insert/delete)等。原创 2023-05-04 11:17:48 · 1178 阅读 · 0 评论 -
spark学习:spark如何进行update
spark sql进行update操作原创 2023-04-27 15:56:59 · 1463 阅读 · 0 评论 -
Spark学习:spark读写postgreSql
spark读写postgreSql原创 2023-04-20 17:16:09 · 1399 阅读 · 0 评论 -
spark性能调优(四):网络
spark性能调优原创 2023-03-03 16:26:12 · 536 阅读 · 0 评论 -
spark性能调优(三):磁盘
spark性能调优原创 2023-03-03 16:03:29 · 217 阅读 · 0 评论 -
spark性能调优(二):内存
spark性能调优原创 2023-03-03 15:14:45 · 1607 阅读 · 0 评论 -
spark性能调优(一):Shuffle
spark优化原创 2023-02-27 20:40:15 · 484 阅读 · 0 评论 -
Spark学习:spark相似算子解析
spark原创 2023-02-27 20:23:25 · 386 阅读 · 0 评论 -
Spark学习:从WordCount开始
spark API原创 2022-10-15 14:26:50 · 585 阅读 · 0 评论 -
Spark学习:为Spark Sql添加自定义优化规则
sspark原创 2022-07-31 10:30:32 · 732 阅读 · 0 评论 -
Spark学习:用spark实现ETL
spark原创 2022-07-30 11:42:38 · 1783 阅读 · 0 评论 -
Spark学习:编译Spark项目时遇到的报错
spark原创 2022-07-30 10:34:51 · 1349 阅读 · 0 评论 -
Spark学习:实现Compact table command
要求:添加添加 compact table 命令,用于合并小文件一、修改SqlBase.g4#statement下添加| COMPACT TABLE target=tableIdentifier partitionSpec?(INTO fileNum=INTEGER_VALUE FILES)? #compactTable#ansiNonReserved下添加| FILES#nonReserved下添加| FILES--keywords list原创 2022-05-21 21:37:30 · 241 阅读 · 0 评论 -
Spark学习:为Sparksql添加自定义命令
编译Spark源码一、修改SqlBase4添加语法规则二、 Maven编译antlr三、修改SqlParsqlParser.scala中四、运行一、修改SqlBase4添加语法规则#修改四处statement| SHOW VERSION #showVersionansiNonReserved| VERSIONnonReserved| VERSION//--SPARK-KEYWOR原创 2022-05-08 19:37:01 · 774 阅读 · 0 评论 -
Spark学习:构建Sql满足指定的优化规则
构建Sql满足指定的优化规则一、连接本地oracle数据库二、规则三三、规则五一、连接本地oracle数据库import org.apache.spark.sql.DataFrameval dfOracle:DataFrame = spark.read.format("jdbc").option("driver", "oracle.jdbc.driver.OracleDriver").option("url", "jdbc:oracle:thin:@192.168.0.101:1521:orcl")原创 2022-05-08 16:48:34 · 468 阅读 · 0 评论 -
Spark学习:Win10中编译Spark源码
编译Spark源码一、环境准备二、编译三、IDE导入执行SparkPi.scala一、环境准备1、JDK1.82、scala 2.12.153、maven 3.8.53、Spark3.2.1spark官网下载最新的sourcecode二、编译1、打开源码父pom.xml修改scala/maven/java对应版本2、在cmd/powershell移动到源码目录中父pom.xml所在目录mvn -DskipTests clean package//使用mvn跳过单元测试编译原创 2022-05-08 09:37:55 · 1273 阅读 · 0 评论 -
Spark学习:Distcp的spark实现
一、pom.xml<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.原创 2022-04-16 12:17:46 · 1626 阅读 · 0 评论 -
Spark学习:使用RDD API实现倒排索引
使用RDD API实现倒排索引#一、本地IDE运行1、pom.xml<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">原创 2022-04-16 11:56:23 · 3048 阅读 · 2 评论 -
Spark学习:分布式环境上的关联形式?
在大数据的应用场景中,数据的处理往往是在分布式环境上进行的,在这种情况下,数据关联的计算往往还要考虑网络分发这个环节原创 2022-02-11 19:52:31 · 809 阅读 · 0 评论 -
Spark学习:不同的关联形式和关联机制该怎么选?
Spark Sql中join的种类丰富,这里把它划分为关联形式和时间机制一、数据准备eg:import spark.implicits._import org.apache.spark.sql.DataFrame//创建员工表val seq = Seq((1,"li",20,"Male"),(2,"shi",22,"Female"),(3,"ming",24,"Female"))val employees:DataFrame = seq.toDF("id","name","age","gend原创 2022-02-10 20:26:25 · 1189 阅读 · 0 评论 -
Spark学习:如何在DataFrame上做数据处理?
对于在DataFrame上的数据处理,SparkSql支持两种:一类是Sql;另一类是DataFrame开发算子一、Sql语句对于任意的DataFrame,都可以使用createTempView(生命周期仅限于SparkSession)或createGlobalTempView(可以跨SparkSession)创建临时表,之后在临时表上用sql语句进行灵活地增删改查eg:import org.apache.spark.sql.DataFrameval seq:Seq[(String,Int)] =原创 2022-02-09 20:59:10 · 1494 阅读 · 0 评论 -
Spark学习:如何创建DataFrame?
一、从RBDMS(关系型数据库)创建DataFrame1、spark安装目录没有提供与数据库连接相关的Jar包,因此,对于想访问的数据库,需要把相关的Jar包拷贝到SPARK_HOME的Jars文件夹,在此贴上我的配置spark:3.1.2oracle:Personal Oracle Database 11g Release 11.2.0.1.0 - 64bit Productionjar:ojdbc6.jar2、使用spark的read API读取数据库,通过参数指定数据库驱动、数据库地址、用户原创 2022-01-22 16:59:31 · 3815 阅读 · 2 评论 -
Spark相关配置项
一、spark-shell本地模式与集群模式的不同1、启动方式:本地模式:spark-shell后面不用写任何参数集群模式:a、spark-shell --master spark://master:7077b、{SPARK_HOME}/conf目录下spark-defaults.conf,若没有,cp spark-defaults.conf.templete spark-defaults.conf添加spark.master spark://master:7077,之后在命令行输入spark-原创 2022-01-22 15:58:59 · 1836 阅读 · 0 评论