XYQ2022-优快云博客

原创 Hdoop集群开启步骤（虚拟机）

仅适用于本作者的集群配置同步时间./ssh_root.sh ntpdate time1.aliyun.com启动zookeeper[hadoop@nn1 zk_base_op]$ ./zk_ssh_all.sh usr/local/zookeeper/bin/zkServer.sh start开启集群start-all.shnn2上启动YARN的HA[hadoop@nn2 ~...

2019-08-20 20:47:33 199

原创 collectAsMap的作用

scala> val data = sc.parallelize(List((1, "www"), (1, "iteblog"), (1, "com"), (2, "bbs"), (2, "iteblog"), (2, "com"), (3, "good")))data: org.apache.spark.rdd.RDD[(Int, String)] = ParallelCollectio...

2019-10-23 11:17:59 1672

原创 Linux 修改软链接的用户组

chown -h hadoop:hadoop filename

2019-10-18 21:42:46 4340 1

原创 Spark Streaming 在监控端口时，对数据进行标记

import org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Durations, StreamingCont...

2019-10-18 20:52:42 265 1

原创 scala泛型上界和下界

object UpperBoundsDemo01 { def main(args: Array[String]): Unit = { val compareInt = new CompareInt(10,40) println(compareInt.greater) // 40 //第一个用法 val commonCompare1 = new Common...

2019-10-07 16:34:56 216

原创学习：Spark Master Worker 进程通讯项目

项目的意义深入理解 Spark 的 Master 和 Worker 的通讯机制加深对主从服务心跳检测机制(HeartBeat)的理解，方便以后 spark 源码二次开发。项目需求分析worker 注册到 Master, Master 完成注册，并回复 worker 注册成功worker 定时发送心跳，并在 Master 接收到Master 接收到 worker 心跳后，要更新...

2019-10-05 21:00:39 235

原创 Scala并发编程模型 Akka

Akka 介绍Akka 是 JAVA 虚拟机 JVM 平台上构建高并发、分布式和容错应用的工具包和运行时，你可以理解成 Akka 是编写并发程序的框架。Akka 用 Scala 语言写成，同时提供了 Scala 和 JAVA 的开发接口。Akka 主要解决的问题是：可以轻松的写出高效稳定的并发程序，程序员不再过多的考虑线程、锁和资源竞争等细节。Actor 模型用于解决什么问题处理...

2019-10-04 16:47:42 232

原创 Scala中缀表达式

case语句的中缀(置)表达式基本介绍什么是中缀表达式？中缀表达式是一个通用的算术或逻辑公式表示方法，操作符是以中缀形式处于操作数的中间（例：3 + 4），中缀表达式是人们常用的算术表示方法。如果unapply方法产出一个元组，你可以在case语句中使用中缀表示法。比如可以匹配一个List序列应用实例object MidCase { def main(args: Array[Str...

2019-10-03 20:11:33 538

原创 Scala样例类

基本说明样例类仍然是类样例类用 case 关键字进行声明。样例类是为模式匹配而优化的类构造器中的每一个参数都成为 val——除非它被显式地声明为 var（不建议这样做）在样例类对应的伴生对象中提供 apply 方法让你不用 new 关键字就能构造出相应的对象提供 unapply 方法让模式匹配可以工作将自动生成 toString 、equals 、hashCode 和和 copy...

2019-10-03 19:53:31 319

原创递归（Scala）

递归简单示例： def test1(n:Int){ if(n>2){ test1(n-1) } println("n="+n) }调用结果：底层机制：如图所示：在栈中开辟一个函数栈test(4)运行到test(3)时，在栈中开辟一个新的函数栈test(3)，运行到test(2)时，在栈中开辟一个新的函数栈test(2)，当n=2时...

2019-10-02 21:26:50 410

Scala 中的模式匹配类似于 Java 中的 switch 语法，但是更加强大。基本语法模式匹配语法中，采用 match 关键字声明，每个分支采用 case 关键字进行声明，当需要匹配时，会从第一个 case 分支开始，如果匹配成功，那么执行对应的逻辑代码，如果匹配不成功，继续执行下一个分支进行判断。如果所有 case 都不匹配，那么会执行 case _ 分支，类似于 Java 中 defa...

2019-10-02 15:41:37 151

原创 Scala构造器介绍

和Java一样，scala构造对象也需要调用构造方法，并且scala中的构造器也支持重载。scala类的构造器包括：主构造器和辅构造器scala构造器的基本语法class 类名(形参列表) { // 主构造器// 类体def this(形参列表) { // 辅助构造器}def this(形参列表) { //辅助构造器可以有多个...}}案例：package com.hnxy...

2019-09-30 15:21:45 861

原创 Spark 累加器

import java.utilimport org.apache.spark.rdd.RDDimport org.apache.spark.util.{AccumulatorV2, LongAccumulator}import org.apache.spark.{SparkConf, SparkContext}object SparkAccumulator { def mai...

2019-09-29 23:56:41 116

原创 Spark 自定义分区器

自定义分区器，按照key将数据保存到指定分区import org.apache.spark.{Partitioner, SparkConf, SparkContext}import org.apache.spark.rdd.RDDobject SparkPartitionBy_Opter1 { def main(args: Array[String]): Unit = { v...

2019-09-28 14:45:58 172

原创 AVRO表的创建

AVRO官方介绍AVRO表新添加字段时，一定要给这个新字段设置默认值

2019-08-11 23:04:43 898

原创 Hive分区表的创建、删除分区

当数据量非常大的时候，我们会考虑将hive表进行分区，从而加快查询效率。以内部分区表为例：原始数据如下，我们用性别字段来进行分区id age sex1 12 boy2 11 boy3 10 boy4 10 boy5 12 girl6 12 ...

2019-08-11 20:51:41 851

原创 Hive修改字段分割符类型

修改字段分隔符类型 alter table inner_person_t set serdeproperties('field.delim'='\t')inner_person_t 为表名

2019-08-11 11:29:05 5543

原创 HDFS文件操作

持续更新中…1.将本地的wc_info文件上传至集群hadoop fs -put wc_info /hive/warehouse/xiangyongqiao15.db/inner_test1 2.上传至集群时会覆盖同名文件hadoop fs -put -f wc_info /hive/warehouse/xiangyongqiao15.db/inner_test1...

2019-08-09 20:21:51 276

原创 namenode状态均为standby问题的解决方法

两台namenode均为standby的解决方法如图

2019-08-07 17:26:24 745

weixin_44007155的博客