- 博客(20)
- 收藏
- 关注

原创 Hdoop集群开启步骤(虚拟机)
仅适用于本作者的集群配置同步时间./ssh_root.sh ntpdate time1.aliyun.com启动zookeeper[hadoop@nn1 zk_base_op]$ ./zk_ssh_all.sh usr/local/zookeeper/bin/zkServer.sh start开启集群start-all.shnn2上启动YARN的HA[hadoop@nn2 ~...
2019-08-20 20:47:33
177
原创 collectAsMap的作用
scala> val data = sc.parallelize(List((1, "www"), (1, "iteblog"), (1, "com"), (2, "bbs"), (2, "iteblog"), (2, "com"), (3, "good")))data: org.apache.spark.rdd.RDD[(Int, String)] = ParallelCollectio...
2019-10-23 11:17:59
1634
原创 Spark Streaming 在监控端口时,对数据进行标记
import org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Durations, StreamingCont...
2019-10-18 20:52:42
236
1
原创 scala泛型上界 和 下界
object UpperBoundsDemo01 { def main(args: Array[String]): Unit = { val compareInt = new CompareInt(10,40) println(compareInt.greater) // 40 //第一个用法 val commonCompare1 = new Common...
2019-10-07 16:34:56
192
原创 学习:Spark Master Worker 进程通讯项目
项目的意义深入理解 Spark 的 Master 和 Worker 的通讯机制加深对主从服务 心跳检测机制(HeartBeat)的理解,方便以后 spark 源码二次开发。项目需求分析worker 注册到 Master, Master 完成注册,并回复 worker 注册成功worker 定时发送心跳,并在 Master 接收到Master 接收到 worker 心跳后,要更新...
2019-10-05 21:00:39
209
原创 Scala并发编程模型 Akka
Akka 介绍Akka 是 JAVA 虚拟机 JVM 平台上构建高并发、分布式和容错应用的工具包和运行时,你可以理解成 Akka 是编写并发程序的框架。Akka 用 Scala 语言写成,同时提供了 Scala 和 JAVA 的开发接口。Akka 主要解决的问题是:可以轻松的写出高效稳定的并发程序,程序员不再过多的考虑线程、锁和资源竞争等细节。Actor 模型用于解决什么问题处理...
2019-10-04 16:47:42
207
原创 Scala中缀表达式
case语句的中缀(置)表达式基本介绍什么是中缀表达式?中缀表达式是一个通用的算术或逻辑公式表示方法, 操作符是以中缀形式处于操作数的中间(例:3 + 4),中缀表达式是人们常用的算术表示方法。如果unapply方法产出一个元组,你可以在case语句中使用中缀表示法。比如可以匹配一个List序列应用实例object MidCase { def main(args: Array[Str...
2019-10-03 20:11:33
502
原创 Scala样例类
基本说明样例类仍然是类样例类用 case 关键字进行声明。样例类是为模式匹配而优化的类构造器中的每一个参数都成为 val——除非它被显式地声明为 var(不建议这样做)在样例类对应的伴生对象中提供 apply 方法让你不用 new 关键字就能构造出相应的对象提供 unapply 方法让模式匹配可以工作将自动生成 toString 、equals 、hashCode 和 和 copy...
2019-10-03 19:53:31
293
原创 递归(Scala)
递归简单示例: def test1(n:Int){ if(n>2){ test1(n-1) } println("n="+n) }调用结果:底层机制:如图所示:在栈中开辟一个函数栈test(4)运行到test(3)时,在栈中开辟一个新的函数栈test(3),运行到test(2)时,在栈中开辟一个新的函数栈test(2),当n=2时...
2019-10-02 21:26:50
382
原创 Scala的模式匹配
Scala 中的模式匹配类似于 Java 中的 switch 语法,但是更加强大。基本语法模式匹配语法中,采用 match 关键字声明,每个分支采用 case 关键字进行声明,当需要匹配时,会从第一个 case 分支开始,如果匹配成功,那么执行对应的逻辑代码,如果匹配不成功,继续执行下一个分支进行判断。如果所有 case 都不匹配,那么会执行 case _ 分支,类似于 Java 中 defa...
2019-10-02 15:41:37
126
原创 Scala构造器介绍
和Java一样,scala构造对象也需要调用构造方法,并且scala中的构造器也支持重载。scala类的构造器包括:主构造器和辅构造器scala构造器的基本语法class 类名(形参列表) { // 主构造器// 类体def this(形参列表) { // 辅助构造器}def this(形参列表) { //辅助构造器可以有多个...}}案例:package com.hnxy...
2019-09-30 15:21:45
815
原创 Spark 累加器
import java.utilimport org.apache.spark.rdd.RDDimport org.apache.spark.util.{AccumulatorV2, LongAccumulator}import org.apache.spark.{SparkConf, SparkContext}object SparkAccumulator { def mai...
2019-09-29 23:56:41
98
原创 Spark 自定义分区器
自定义分区器,按照key将数据保存到指定分区import org.apache.spark.{Partitioner, SparkConf, SparkContext}import org.apache.spark.rdd.RDDobject SparkPartitionBy_Opter1 { def main(args: Array[String]): Unit = { v...
2019-09-28 14:45:58
144
原创 Hive分区表的创建、删除分区
当数据量非常大的时候,我们会考虑将hive表进行分区,从而加快查询效率。以内部分区表为例:原始数据如下,我们用性别字段来进行分区id age sex1 12 boy2 11 boy3 10 boy4 10 boy5 12 girl6 12 ...
2019-08-11 20:51:41
789
原创 Hive修改字段分割符类型
修改字段分隔符类型 alter table inner_person_t set serdeproperties('field.delim'='\t')inner_person_t 为表名
2019-08-11 11:29:05
5511
原创 HDFS文件操作
持续更新中…1.将本地的wc_info文件上传至集群hadoop fs -put wc_info /hive/warehouse/xiangyongqiao15.db/inner_test1 2.上传至集群时会覆盖同名文件hadoop fs -put -f wc_info /hive/warehouse/xiangyongqiao15.db/inner_test1...
2019-08-09 20:21:51
245
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人