
Spark程序
芹菜学长
一个p大点事儿都能发文章的人
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark Join的中where的筛选与join的on 条件筛选探究
问题背景因为最近在利用spark SQL 进行数据的处理,在做两表进行join操作的时候。在join过程中,想探究数据的筛选方式是否会对执行速度有一定的影响。探究过程数据准备create table stu( id int , --唯一id name string, -- 姓名 subject string, -- 学科 score int --分数)插入数据,数据如下stu 表:+---+----+-------+-----+| id|name原创 2021-02-28 22:47:52 · 2363 阅读 · 0 评论 -
spark sql在当前的时间戳下增加8个小时
spark sql在当前的时间戳下增加8个小时话不多说,如图示: spark.sql("select date_format(current_timestamp(),'yyyy-MM-dd HH:mm:ss') as time1,date_format(current_timestamp()+interval 8 hours,'yyyy-MM-dd HH:mm:ss') as time2").show()总结言简意赅。。剩下的工地活多,记录一下,溜了。...原创 2020-12-07 11:35:31 · 5170 阅读 · 0 评论 -
Spark 读取csv文件操作,option参数解释
Spark读取CSV文件详解如题,有一个spark读取csv的需求,这会涉及到很多参数。通过对源码(spark version 2.4.5(DataFrameReader.scala:535 line))的阅读,现在我总结在这里:spark读取csv的代码如下 val dataFrame: DataFrame = spark.read.format("csv") .option("header", "true") .option("encoding", "gbk231原创 2020-05-14 19:57:06 · 22241 阅读 · 6 评论 -
spark:清空程序运行时的所有(cache)缓存块
spark:清空程序运行时的所有(cache)缓存块为啥要用到缓存 在我们编写spark程序的时候,经常会用到action算子,当程序执行到action操作的代码时,开始真正地执行计算,这个时候耗时比较长。然而,当我们程序里面的action算子计算出来的需要被多次使用的时候,为了不在让程序重复再次计算。将这个action算子计算的结果进行persist或者cache(缓存)的操作,可以节省程...原创 2020-03-03 17:26:44 · 6803 阅读 · 4 评论 -
spark 两个dataFrame之间join 空值操作
spark Join空值操作开门见山准备数据: val struct1: StructType = StructType(Seq( StructField("id", IntegerType, true), StructField("name", StringType, true), StructField("age", StringType, ...原创 2020-01-06 22:42:15 · 3201 阅读 · 0 评论 -
spark 将一列的值赋值给另外一列
Spark将一列的值赋值给另外一列如果有如下数据:我要使col1 =col2,得到如下的结果:在sparkR里面只需要 df$col1 = df$col2就可以实现了,那么在scala里面没有这样的方式,我要如何去实现呢。我搜索了很多次,问了很多群,没有啥简易的操作,于是我最后写下了这样的实现:实现代码:关键的函数 def col1SetValueToCol2(spark:S......原创 2020-01-06 15:49:13 · 3242 阅读 · 2 评论