
scala
文章平均质量分 84
静远小和尚
这个作者很懒,什么都没留下…
展开
-
Flink流处理API——State API (状态管理、状态编程)
原文链接;https://www.toutiao.com/i6860816918333358595/本文主要从以下几个方面介绍Flink流处理API——State API (状态管理)一、 状态管理 Flink中的状态 A. 算子状态: B. 键控状态(Keyed State)-- 更常用 C. 状态后端(State Backends) -- 状态管理(存储、访问、维护和检查点) 二、 状态编程版本:scala:2.11.12Kafka:0.8.2.2原创 2020-08-14 20:40:51 · 1489 阅读 · 1 评论 -
Flink流处理API——ProcessFunction API (底层API)
原文链接:https://www.toutiao.com/i6860721527952769539/本文主要从以下几个方面介绍Flink流处理API——ProcessFunction API (底层API)一、产生背景二、KeyeProcesFunction三、TimerService和定时器(Timers)四、侧输出流(SideOutPut)五、CoProcessFunction版本:scala:2.11.12Kafka:0.8.2.2Flink:1.7.2.原创 2020-08-14 20:39:20 · 723 阅读 · 0 评论 -
Flink流处理API——window(窗口) API详解
原文链接:https://www.toutiao.com/i6859649771255104012/本文主要从以下几个方面介绍Flink流处理API——window(窗口) API一、window概念二、window类型三、windowAPI 的Demo四、时间语义五、设置事件创建时间(Event Time)六、水位线(Watermark)七、watermark的API版本:scala:2.11.12Kafka:0.8.2.2Flink:1.7.2pom.原创 2020-08-11 17:17:07 · 964 阅读 · 0 评论 -
Flink流处理API——Transform(转换算子)
原文链接:https://www.toutiao.com/i6859612664646238724/本文主要从以下几个方面介绍Flink的流处理API——Transform一、map二、flatmap三、Filter四、KeyBy五、滚动聚合算子(Rolling Aggregation)六、Reduce七、Split和Select八、Connect和CoMap九、Union数据处理的过程基本可以分为三个阶段分别是,数据从来哪里,做什么业务逻辑,落地到哪里去。这原创 2020-08-11 14:49:57 · 756 阅读 · 1 评论 -
Flink从Kafka0.8中读取数据报Failed to instantiate SLF4J LoggerFactory Reported exception 错误
Flink从KAFKA中读取数据报以下错误:Failed to instantiate SLF4J LoggerFactoryReported exception:java.lang.NoClassDefFoundError: org/apache/log4j/LevelFlink版本:1.7.2KAFKA版本:0.8.2.2代码:package xxximport java.util.Propertiesimport org.apache.flink.api.com.原创 2020-08-09 15:27:53 · 640 阅读 · 0 评论 -
Redis简介
原文链接:https://www.toutiao.com/i6854892323239625227/本文主要从以下几个方面介绍Redis:一、什么是Redis二、Redis支持的五种数据类型三、Redis应用场景四、Redis特性五、Redis的持久化六、Redis的Demo一、什么是Redis它是一种 NoSQL(not-only sql,泛指非关系型数据库)的数据库!!!!(三个月前面试某团时居然回答不出NoSQL数据库有哪些。。。。。。。)Redis(Remot原创 2020-07-29 21:27:41 · 171 阅读 · 0 评论 -
SparkStreaming 详解
原文链接:https://www.toutiao.com/i6854493461903901197/本文主要从以下几个方面介绍SparkStreaming:一、SparkStreaming是什么二、SparkStreaming支持的业务场景三、SparkStreaming的相关概念四、DStream介绍五、SparkStreaming的机制六、SparkStreaming的Demo一、SparkStreaming是什么在讲sparkStreaming是什么之前首先讲一下为原创 2020-07-28 19:42:14 · 1908 阅读 · 0 评论 -
Kafka(分布式发布订阅消息系统) 简介
原文链接:https://mp.toutiao.com/profile_v3/graphic/preview?pgc_id=6854137793556251147本文主要从以下几个方面介绍分布式发布订阅消息系统一、什么是Kafka二、kafka的特性三、kafka的使用场景四、kafka中相关术语介绍五、kafka相关机制六、kafka的Demo一、什么是kafkaKafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(rep原创 2020-07-27 20:49:09 · 910 阅读 · 0 评论 -
Spark——DataFrame 读写和保存数据
原文链接:https://mp.toutiao.com/profile_v3/graphic/preview?pgc_id=6849695183043297804本文主要从以下几个方面介绍Spark中的DataFrame读写和保存第一,DataFrame的介绍第二,Spark所支持的读写文件格式及示例第一,DataFrame的介绍DataFrame的前身是SchemaRDD,从Spark 1.3.0开始SchemaRDD更名为DataFrame。与SchemaRDD的主要区别是:Data原创 2020-07-15 21:26:58 · 6059 阅读 · 0 评论 -
SparkSQL——自定义UDF函数
原文链接:https://www.toutiao.com/i6849246325343683083/从Spark2.0以上的版本开始,spark是使用全新的SparkSession接口代替Spark1.6中的SQLcontext和HiveContext来实现对数据的加载、转换、处理等工作,并且实现了SQLcontext和HiveContext的所有功能。我们在新版本中并不需要之前那么繁琐的创建很多对象,只需要创建一个SparkSession对象即可。SparkSession支持从不同的数据源原创 2020-07-14 16:29:07 · 2214 阅读 · 0 评论 -
SparkSQL——DataFrame的创建与使用
原文地址:https://www.toutiao.com/i6848607197815898628/本文主要从以下几个方面介绍SparkSQL中的DataFrame:第一,SparkSQL的作用第二,什么是DataFrame第三,DataFrame与RDD的区别第四,DataFrame的创建与使用 (Spark1.x与Spark2.x两种不同版本)第一,SparkSQL的作用SparkSQL是spark处理结构化数据的一个模块,它的前身是shark,与基础的spark RDD不同原创 2020-07-12 23:02:59 · 1399 阅读 · 0 评论 -
Spark-实现自定义排序的六种方法(Scala版本)
原文链接:https://www.toutiao.com/i6845585556722680328/在实际开发中经常需要对数据进行排序统计,Spark的sortBy以及SortByKEy算子并不能完全适用开发场景,需要我们自定义排序规则,例如如下数据:Array("张三 16 98.3", "李四 14 98.3", "王五 34 100.0", "赵六 26 98.2", "田七 18 98.2")包含三个字段的学生数据,(姓名,年龄,成绩),我们需要按照成绩进行降序排序,成绩相同的按照年龄原创 2020-07-04 19:46:02 · 2083 阅读 · 0 评论 -
Spark 实现分组topn排序 (scala版本)
四种方法实现分组排序数据集格式:http://bigdata.edu360.cn/laoduanhttp://bigdata.edu360.cn/laoduanhttp://javaee.edu360.cn/xiaoxuhttp://javaee.edu360.cn/xiaoxuhttp://javaee.edu360.cn/laoyanghttp://javaee.edu360.cn/laoyanghttp://javaee.edu360.cn/laoyang按照每个学科求老师访原创 2020-06-30 19:10:14 · 1223 阅读 · 0 评论