erainm
java ->大数据
展开
-
Scala(11) -- 模式匹配、Option类型、偏函数、正则表达式、异常处理、提取器(Extractor)
1. 模式匹配2. Option类型3. 偏函数4. 正则表达式5. 异常处理6. 提取器(Extractor)7. 案例原创 2020-09-21 11:55:06 · 398 阅读 · 0 评论 -
Scala(13) -- scala高阶函数(作为值的函数、匿名函数、柯里化、闭包、控制抽象)
1. 高阶函数介绍Scala 混合了面向对象和函数式的特性,在函数式编程语言中,函数是“头等公民”,它和Int、String、Class等其他类型处于同等的地位,可以像其他类型的变量一样被传递和操作。也就是说, 如果一个函数的参数列表可以接收函数对象 , 那么这个函数就被称之为 高阶函数 (High-Order Function) .像我们之前学习过的map方法,它就可以接收一个函数,完成List的转换。常用的高阶函数有以下几类:作为值的函数匿名函数闭包柯里化等等2. 作为值的函数在S原创 2020-09-21 12:47:14 · 312 阅读 · 0 评论 -
Scala(4) -- scala流程控制结构
1. 流程控制结构2. 顺序结构3. 选择结构4. 循环结构5. 案例原创 2020-09-19 15:48:14 · 603 阅读 · 0 评论 -
Scala(10) -- scala的数组、元组、列表、集、映射、迭代器、函数式编程
1. 数组2. 元组3. 列表4. 集5. 映射6. 迭代器(iterator)7. 函数式编程8. 案例原创 2020-09-21 11:22:37 · 595 阅读 · 0 评论 -
Scala(19) -- scala的Actor
1. Actor介绍Scala中的Actor并发编程模型可以用来开发比Java线程效率更高的并发程序。我们学习Scala Actor的目的主要是为后续学习Akka做准备。1.1 Java并发编程的问题在Java并发编程中,每个对象都有一个逻辑监视器(monitor),可以用来控制对象的多线程访问。我们添加sychronized关键字来标记,需要进行同步加锁访问。这样,通过加锁的机制来确保同一时间只有一个线程访问共享数据。但这种方式存在资源争夺、以及死锁问题,程序越大问题越麻烦。线程死锁1.2原创 2020-09-22 10:52:49 · 240 阅读 · 0 评论 -
Scala(14) -- scala隐式转换和隐式参数
1. 隐式转换和隐式参数介绍2. 隐式转换3. 隐式参数4. 案例原创 2020-09-21 12:56:29 · 356 阅读 · 0 评论 -
Scala(7) - scala中的继承、抽象和匿名内部内
1. 继承2. 类型判断3. 抽象类4. 匿名内部内5. 案例原创 2020-09-21 08:58:34 · 221 阅读 · 0 评论 -
Scala(6) -- scala类(成员变量、成员方法、修饰符)和对象
1. 类和对象2. 定义和访问成员变量3. 下划线初始化成员变量4. 定义和访问成员变量5. 访问权限修饰符6. 类的构造器7. 单例对象8. main方法9. 伴生对象10. 案例原创 2020-09-19 17:31:25 · 1965 阅读 · 2 评论 -
Scala(5) -- scala方法、函数
1. scala方法2. scala函数3. 案例原创 2020-09-19 16:07:16 · 320 阅读 · 0 评论 -
Scala(18) -- scala的集合(Iterable、Seq、Stack、Queue、Set、Map)
1. Iterable2. Seq3. Stack4. Queue5. Set6.Map7. 案例原创 2020-09-22 10:52:28 · 870 阅读 · 1 评论 -
Scala(3) -- scala运算符
1. 算术运算符2. 赋值运算符3. 关系运算符4. 逻辑运算符5. 位运算符6. 案例1.3 算术运算符算术运算符指的就是 用来进行算术操作原创 2020-09-19 15:17:55 · 531 阅读 · 0 评论 -
Scala(1) -- Scala下载安装及idea环境配置
开始scala之途啦 ~~~开始之前我们还是要先知道,scala之父 – Martin·odersky(马丁·奥德斯基)哈哈哈 ~ 我很膜拜的一个大牛scala程序运行需要依赖于Java类库,那么必须要有Java运行环境,scala才能正确执行. 所以要编译运行scala程序,需要:JDK(JDK包含JVM)Scala编译器(Scala SDK)接下来,需要依次安装以下内容:安装JDK(这步骤就省略了)安装Scala SDK在IDEA中安装Scala插件1. 下载SKD安装并配原创 2020-09-19 11:31:59 · 314 阅读 · 0 评论 -
Scala(17) --scala的集合、Traversable集合
1. 集合2. Traversable3. 案例原创 2020-09-22 10:51:44 · 507 阅读 · 0 评论 -
Scala(16) - scala泛型、上下界、斜变、逆变、非变
1. 泛型2. 上下界3. 协变、逆变、非变4. 案例原创 2020-09-21 14:36:18 · 279 阅读 · 0 评论 -
Scala(12) -- scala读写数据
1. 读取数据(按行、字符读取、读取单词和数字、从URL和其他数据源读取、读取二进制文件)2. 写入数据(往文件写数据、序列化和反序列化)3. 案例原创 2020-09-21 12:13:35 · 1363 阅读 · 0 评论 -
Scala(2) -- scala入门、基础
1. 语言特点2. 输出语句3. scala常量4. scala变量5. 字符串6. 标识符7. 数据类型8. 类型转换9. 键盘录入10. 案例原创 2020-09-19 14:47:04 · 543 阅读 · 0 评论 -
Scala(9) -- scala的包、样例类、样例对象
1. 包2. 样例类3. 样例对象4. 案例原创 2020-09-21 10:02:59 · 526 阅读 · 0 评论 -
Scala(8) -- scala的特质(trait)
1. 特质入门2. 对象混入trait3. 使用trait实现适配器模式4. 使用trait实现模板方法模式5. 使用trait实现职责链模式6. trait的构造机制7. trait继承class8. 案例原创 2020-09-21 09:28:15 · 294 阅读 · 0 评论 -
Scala(20) -- Scala的Akka(并发编程框架)
1. Akka并发编程框架简介1.1 Akka概述Akka是一个用于构建高并发、分布式和可扩展的基于事件驱动的应用工具包。Akka是使用scala开发的库,同时可以使用scala和Java语言来开发基于Akka的应用程序。1.2 Akka特性提供基于异步非阻塞、高性能的事件驱动编程模型内置容错机制,允许 Actor在出错时进行恢复或者重置操作超级轻量级的事件处理(每 GB堆内存几百万Actor)使用 Akka可以在单机上构建高并发程序,也可以在网络中构建分布式程序。1.3 Akka通信原创 2020-09-22 10:53:09 · 865 阅读 · 0 评论 -
Scala(15) -- scala递归
1. 递归2. 阶乘案例3. 斐波那契数列4. 打印目录文件原创 2020-09-21 14:21:46 · 714 阅读 · 0 评论 -
Kafka入门(2) -- kafka集群搭建
1. 搭建Kafka集群注: 搭建kafka之前,要有zookeeper集群支持将Kafka的安装包上传到虚拟机,并解压tar -zxvf kafka_2.12-2.4.1.tgz -C ../servers/cd kafka_2.12-2.4.1修改/export/servers/kafka_2.12-2.4.1/config目录下 server.properties# 指定broker的idbroker.id=0# 指定Kafka数据的位置log.dirs=/export/s原创 2020-09-15 22:25:47 · 217 阅读 · 0 评论 -
Kafka高级(1) -- kafka分区与副本机制
1. 生产者分区写入策略 轮询分区策略、 随机分区策略、按key分区分配策略、自定义分区策略2. 消费者组Rebalance机制 Rebalance再均衡、Rebalance的不良影响3. 消费者分区分配策略 Range范围分配策略、 RoundRobin轮询策略、 Stricky粘性分配策略4. 副本机制 producer的ACKs参数、acks配置为0、acks配置为1、acks配置为-1或all原创 2020-09-16 18:54:42 · 1335 阅读 · 0 评论 -
Kafka高级(3) -- Kafka监控工具Kafka-eagle
1. Kafka-Eagle简介2. 安装Kafka-Eagle3. Kafka度量指标原创 2020-09-18 08:39:30 · 738 阅读 · 0 评论 -
ElasticSearch(2) -- windows本地安装
1. 安装ES1.1 下载ES这里我使用的是6.8.0版本,建议使用JDK1.8及以上,将下载文件放在C:/opt下1.2 解压 启动1.3 测试访问地址如下: http://localhost:9200/能够看到如下界面,说明ElasticSearch安装启动成功2 安装head插件安装ElasticSearch的head插件,完成图形化界面的效果,完成索引数据的查看。采用本地安装方式进行head插件的安装。elasticsearch-5-*以上版本安装head需要安装node和g原创 2020-09-03 09:28:18 · 463 阅读 · 0 评论 -
HBase(13) -- HBase之Phoenix使用
1. 快速入门1.1 创建表语法在Phoenix中,我们可以使用类似于MySQL DDL的方式快速创建表。例如:CREATE TABLE IF NOT EXISTS 表名 ( ROWKEY名称 数据类型 PRIMARY KEY 列族名.列名1 数据类型 NOT NULL, 列族名.列名2 数据类型 NOT NULL, 列族名.列名3 数据类型);通过HBase的Web UI,我们可以看到Phoenix帮助我们自动在HBase中创建了一张名为 ORDER_DTL 的表格,可以看到里面添加原创 2020-09-11 11:20:35 · 299 阅读 · 0 评论 -
spark(2) -- spark运行模式及Spark local模式安装与Spark Standalone集群
Spark 框架编写的应用程序可以运行在本地模式(Local Mode)、集群模式(Cluster Mode) 和云服务(Cloud),方便开发测试和生产部署。概述本地模式:Local Mode将Spark 应用程序中任务Task运行在一个本地JVM Process进程中,通常开发测试使用。本地模式LocalMode运行:启动一个JVM进程,里面运行Task任务,Task任务并行运行数目依据分 配CPU Core核数,在Spark应用中,一个Task任务运行,需要1Core CPU。1)原创 2020-10-01 10:27:55 · 1049 阅读 · 1 评论 -
Spark(54) -- StructuredStreaming -- Streaming Deduplication(流去重)
Structured Streaming可以使用deduplication对有无Watermark的流式数据进行去重操作对网站用户日志数据,按照userId和eventType去重统计原创 2020-10-16 15:10:19 · 354 阅读 · 0 评论 -
Spark(48) -- Structured Streaming
Structured Streaming、1. Structured Streaming不足2. Structured Streaming 概述3. 入门案例:WordCount原创 2020-10-14 19:27:21 · 411 阅读 · 0 评论 -
Spark(51) -- StructuredStreaming集成 Kafka
1. Kafka 数据消费2. Kafka 数据源3. Kafka 接收器 3.1 配置说明 3.2 实时数据ETL架构 3.3 模拟基站日志数据 3.4 实时增量ETL4. Kafka 特定配置原创 2020-10-16 12:59:07 · 304 阅读 · 0 评论 -
Spark(20) -- Spark SQL数据抽象
在sparkSQL当中,spark为我们提供了两个操作sparkSQL的抽象,分别是DataFrame和DataSet。也就是说我们操作sparkSQL一般都是使用DataFrame或者DataSet来实现的,就类似于我们SparkCore模块当中,我们的抽象是RDD,我们使用SparkContext来实现操作RDD一样。 对于在版本上面,spark也有一些历史变动 RDD(Spark1.0) ==> DataFrame(1.3) ==> DataSet(1.6) 如果同样的.原创 2020-10-06 17:31:18 · 541 阅读 · 0 评论 -
Spark(18) -- SparkCore总结
1. RDD依赖2. DAG与Stage3. Spark Shuffle4. Job调度流程5. 基本概念6. 并行度7. 算子背后的逻辑8. wholetextFiles测试9. 附录:Maven依赖原创 2020-10-06 10:44:14 · 259 阅读 · 0 评论 -
Spark(35) -- SparkStreaming -- 概述
1. Streaming 应用场景2. Lambda 架构3. Streaming 计算模式4. SparkStreaming 计算思想5. 什么是Spark Streaming6. 为什么要学习Spark Streaming7. SparkStreaming与Storm的对比原创 2020-10-07 19:24:25 · 642 阅读 · 0 评论 -
spark(61) -- SparkMllib -- 基于SparkMllib的数据清洗项目实践
1. 获取数据2. 用户数据的EDA分析实践3. 业务数据的EDA分析实践4. 评分数据的EDA分析实践5. 数据的处理及转换分析实践6. 数值型和类别型数据的处理方案及实践7. 派生特征数据的处理方法及实践8. 文本特征处理方法及实践9. 正则化特征处理方法及实践10. TF-IDF和Word2Vec提取特征实践11. 总结原创 2020-10-17 11:36:39 · 672 阅读 · 0 评论 -
spark(60) -- SparkMllib -- 基于SparkMllib数据特征工程构建过程
1. SparkMllib特征工程构建过程2. SparkMllib特征提取操作实践3. SparkMllib特征转换操作详解及实践4. SparkMllib特征选择操作及实践5. 项目案例-业务数据统计分析实践6. 项目案例-Iris鸢尾花数据分析案例实践7. 项目案例Homeprise数据分析实践原创 2020-10-17 10:34:15 · 705 阅读 · 0 评论 -
Spark(52) -- StructuredStreaming -- 模拟物联网设备数据分析
1. 设备监控数据2. 基于DataFrame分析3. 基于SQL分析原创 2020-10-16 14:45:34 · 267 阅读 · 0 评论 -
Spark(12) -- SparkCore(3) -- RDD的依赖关系、缓存以及容错机制-CheckPoint
1. RDD的依赖1.1. 窄依赖1.2. 宽依赖1.3. 为什么要设计宽窄依赖1.4. Lineage(血统)2. RDD的缓存2.1 RDD的缓存方式2.2 Spark RDD Cache2.3 RDD Cache的使用2.4 cache和persist的区别3. RDD的CheckPoint原创 2020-10-04 16:10:41 · 280 阅读 · 0 评论 -
Spark(13) -- DAG的生成以及Shuffle的过程
1. 什么是DAG2. DAG划分stage3. Shuffle过程4. SortShuffleManager基本介绍5. Shuffle的配置选项原创 2020-10-04 20:51:57 · 493 阅读 · 0 评论 -
Spark(3) -- Spark local模式下IDEA集成应用开发(scala版)
1. 构建Maven Project创建Maven Project工程【bigdata-spark_2.11】,设置GAV三要素的值如下:创建Maven Module模块【spark-chapter01_2.11】添加依赖至POM文件中,内容如下:<!-- 指定仓库位置,依次为aliyun、cloudera和jboss仓库 --> <repositories><repository><id>aliyun</id><url>原创 2020-10-01 11:50:04 · 804 阅读 · 0 评论 -
Spark(6) -- java代码实现spark的WordCount
1. java实现/** * java代码实现spark的WordCount */public class WordCountJava { public static void main(String[] args) { //todo:1、构建sparkconf,设置配置信息 SparkConf sparkConf = new SparkConf().setAppName("WordCount_Java").setMaster("local[2]");原创 2020-10-01 15:49:14 · 203 阅读 · 0 评论 -
Spark(5) -- spark Application部署模式DeployMode
Spark Application提交运行时部署模式Deploy Mode,==表示的是Driver Program运行的地 方,要么是提交应用的Client:client,要么是集群中从节点(Standalone:Worker,YARN: NodeManager):cluster。--deploy-mode DEPLOY_MODEWhether to launch the driver program locally ("client") or on one of the worker machine原创 2020-10-01 15:30:43 · 655 阅读 · 0 评论