
Spark
羲凡丞相
get busy living ,or get busy dying
展开
-
Spark将DataFrame数据sftp到指定机器(scala)
@羲凡——只为了更好的活着Spark将数据sftp到指定机器(scala)将处理完的数据sftp到指定的机器上,供下一个服务调用。博主使用spark2.3.2和hadoop2.7.3。直接先上代码package sparktestimport org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}object SparkSft...原创 2019-01-29 18:22:12 · 2244 阅读 · 10 评论 -
Scala 封装API接口并实现客户端查询(干货)
@羲凡——只为了更好的活着Scala 封装Api接口并实现客户端查询像把大象装冰箱一样,一共有三步写好查询语句写好server并启动写好client查询结果1.Mysql的增改查代码import java.sql.{Connection, DriverManager, ResultSet}import java.util.Propertiesimport scala.coll...原创 2019-07-30 14:33:08 · 1280 阅读 · 2 评论 -
Spark RDD与DataFrame相互转换
@羲凡——只为了更好的活着Spark RDD与DataFrame相互转换Q:Spark中RDD转成DataFrame用什么算子A:.rddQ:Spark中DataFrame转成RDD用什么算子A:.toDF1.直接上代码import org.apache.spark.rdd.RDDimport org.apache.spark.sql.types.{IntegerType, Str...原创 2019-05-22 14:16:07 · 780 阅读 · 0 评论 -
Spark2.0 HA安装(spark on yarn 模式)完整版——Spark2.3.2
@羲凡——只为了更好的活着Spark2.3.2 HA安装(spark on yarn 模式)spark主要有四种运行模式local(本地运行)、standalone(Spark自带的资源管理框架)、yarn(将spark应用类似mr一样,提交到yarn上运行)、mesos(类似yarn的一种资源管理框架),其对应的安装方法各不相同,本文主要介绍spark on yarn的安装。前提是默认你已经...原创 2019-01-11 18:10:17 · 2196 阅读 · 6 评论 -
Scala 重命名hdfs文件
@羲凡——只为了更好的活着Scala 重命名hdfs文件楼主使用scala2.11.12版本不啰嗦直接上代码import java.net.URIimport org.apache.hadoop.conf.Configurationimport org.apache.hadoop.fs.{FileStatus, FileSystem, FileUtil, Path}object ...原创 2019-04-10 08:41:50 · 1520 阅读 · 1 评论 -
Scala HttpPost请求
@羲凡——只为了更好的活着Scala HttpPost请求特别强调楼主使用scala2.11.12版本1.准备工作在pom.xml文件中要添加<dependency> <groupId>org.scalaj</groupId> <artifactId>scalaj-http_2.11</artifactId> <ve...原创 2019-04-08 09:24:55 · 3153 阅读 · 1 评论 -
Spark 多文件输出
@羲凡——只为了更好的活着Spark多文件输出Q:业务中有要求输出的每个文件数量的条数不超过n条A:第一步:写一个MultipleTextOutputFormat类import org.apache.hadoop.mapred.lib.MultipleTextOutputFormatclass RDDMultipleTextOutputFormat extends MultipleTe...原创 2019-02-26 15:39:47 · 893 阅读 · 1 评论 -
Spark RDD去掉前n行数据
@羲凡——只为了更好的活着Spark RDD去掉前n行Q:在处理一些数据的时候会遇到不想要的前n行,该怎么处理?A:使用 rdd 的 zipWithIndex 算子rdd.zipWithIndex().filter(_._2&gt;=n).keys // n换成对应的第几列即可======================================================...原创 2019-02-26 14:50:39 · 7213 阅读 · 2 评论 -
Spark 如何生成一个空的DataFrame
@羲凡——只为了更好的活着Spark如何生成一个空的DataFrameQ:Spark如何生成一个空的DataFrameA:有两种情况,一种是没有列的DataFrame,一种是有列的DataFrame,情况2最实用情况1.生成一个无列的空DataFrameval df = spark.emptyDataFrame情况2.生成一个有列的空DataFrame// 生成一个空的三列Data...转载 2019-03-01 17:50:30 · 2629 阅读 · 2 评论 -
Scala发邮件(带附件,无论是本地文件和hdfs文件或df或rdd)
@羲凡——只为了更好的活着Scala发邮件在有些spark任务执行完后需要通知我们该任务已经执行结束,发邮件到某个邮箱是最直接的方式。那如何用scala发邮件呢,我在网上没有找到一个案例,我研究了一天终于被我解决了。下面字节上代码:import com.typesafe.config.ConfigFactoryimport play.api.libs.mailer.{Email, SMTP...原创 2019-02-19 18:39:15 · 4019 阅读 · 22 评论 -
SparkStreaming 算子updateStateByKey的应用
@羲凡——只为了更好的活着SparkStreaming 算子updateStateByKey的应用updateStateByKey功能是按照key进行分组,将该批次的value数据和上一个批次该key的value进行一个状态值的更新。1.源码说明:def updateStateByKey[S: ClassTag]( updateFunc: (Seq[V], Option[S])...原创 2019-02-28 16:16:36 · 420 阅读 · 1 评论 -
SparkStreaming 实现入门WordCount
@羲凡——只为了更好的活着SparkStreaming 实现入门WordCount这是SparkStreaming的基本入门,官网:http://spark.apache.org/docs/2.3.2/streaming-programming-guide.html#a-quick-example代码如下,在执行前在 deptest22上输入命令 nc -lk 9999。import or...原创 2019-02-28 13:07:17 · 396 阅读 · 1 评论 -
Scala将文件转成MD5(本地和hdfs)
@羲凡——只为了更好的活着Scala将文件转成MD5(本地和hdfs)在最近的一个业务中需要将处理好的文件生成MD5,供下一个服务做唯一性校验。在网上找到了篇博客非常有用,我稍微简化了一下,拿走不谢。如果查看原博主文章点这里 https://blog.youkuaiyun.com/cjuexuan/article/details/50901244 尊重并感谢原博主。下面字节上代码:package cs...转载 2019-01-30 11:24:50 · 810 阅读 · 1 评论 -
Scala列出hdfs目录下的文件
@羲凡——只为了更好的活着Spark列出hdfs目录下的文件(scala)在最近的一个业务中需要列出hdfs上某个目录下的所有文件,再过滤出自己需要的文件,进行spark循环,在网上找到了篇博客非常有用,我稍微简化了一下,拿走不谢。如果喜欢原博主文章点这里 https://blog.youkuaiyun.com/dkl12/article/details/84312307 尊重原博主。字节上代码:pac...原创 2019-01-30 11:00:12 · 4136 阅读 · 1 评论 -
Spark 布隆过滤器(BloomFilter)的应用
@羲凡——只为了更好的活着Spark 布隆过滤器(BloomFilter)的应用object BloomFilterDemo { case class General(name:String,age:Int) def main(args: Array[String]): Unit = { val spark = SparkSession.builder() .app...原创 2019-08-16 15:47:09 · 2447 阅读 · 0 评论