
大数据
静远小和尚
这个作者很懒,什么都没留下…
展开
-
Flink流处理API——State API (状态管理、状态编程)
原文链接;https://www.toutiao.com/i6860816918333358595/本文主要从以下几个方面介绍Flink流处理API——State API (状态管理)一、 状态管理 Flink中的状态 A. 算子状态: B. 键控状态(Keyed State)-- 更常用 C. 状态后端(State Backends) -- 状态管理(存储、访问、维护和检查点) 二、 状态编程版本:scala:2.11.12Kafka:0.8.2.2原创 2020-08-14 20:40:51 · 1489 阅读 · 1 评论 -
Flink流处理API——ProcessFunction API (底层API)
原文链接:https://www.toutiao.com/i6860721527952769539/本文主要从以下几个方面介绍Flink流处理API——ProcessFunction API (底层API)一、产生背景二、KeyeProcesFunction三、TimerService和定时器(Timers)四、侧输出流(SideOutPut)五、CoProcessFunction版本:scala:2.11.12Kafka:0.8.2.2Flink:1.7.2.原创 2020-08-14 20:39:20 · 723 阅读 · 0 评论 -
Flink流处理API——Transform(转换算子)
原文链接:https://www.toutiao.com/i6859612664646238724/本文主要从以下几个方面介绍Flink的流处理API——Transform一、map二、flatmap三、Filter四、KeyBy五、滚动聚合算子(Rolling Aggregation)六、Reduce七、Split和Select八、Connect和CoMap九、Union数据处理的过程基本可以分为三个阶段分别是,数据从来哪里,做什么业务逻辑,落地到哪里去。这原创 2020-08-11 14:49:57 · 756 阅读 · 1 评论 -
Flink流处理API——Source
原文链接:https://www.toutiao.com/i6859232281211437581/本文主要从以下几个方面介绍Flink的流处理API——Source一、从集合中读取数据二、从文件中读取数据三、从Kafka中读取数据四、自定义Source数据处理的过程基本可以分为三个阶段分别是,数据从来哪里,做什么业务逻辑,落地到哪里去。这三部分在Flink中分别被称为Source、Transform和Sink版本:scala:2.11.12Kafka:0.8.2.2原创 2020-08-10 14:26:01 · 499 阅读 · 1 评论 -
Spark——DataFrame 读写和保存数据
原文链接:https://mp.toutiao.com/profile_v3/graphic/preview?pgc_id=6849695183043297804本文主要从以下几个方面介绍Spark中的DataFrame读写和保存第一,DataFrame的介绍第二,Spark所支持的读写文件格式及示例第一,DataFrame的介绍DataFrame的前身是SchemaRDD,从Spark 1.3.0开始SchemaRDD更名为DataFrame。与SchemaRDD的主要区别是:Data原创 2020-07-15 21:26:58 · 6058 阅读 · 0 评论 -
SparkSQL——自定义UDF函数
原文链接:https://www.toutiao.com/i6849246325343683083/从Spark2.0以上的版本开始,spark是使用全新的SparkSession接口代替Spark1.6中的SQLcontext和HiveContext来实现对数据的加载、转换、处理等工作,并且实现了SQLcontext和HiveContext的所有功能。我们在新版本中并不需要之前那么繁琐的创建很多对象,只需要创建一个SparkSession对象即可。SparkSession支持从不同的数据源原创 2020-07-14 16:29:07 · 2213 阅读 · 0 评论 -
SparkSQL——DataFrame的创建与使用
原文地址:https://www.toutiao.com/i6848607197815898628/本文主要从以下几个方面介绍SparkSQL中的DataFrame:第一,SparkSQL的作用第二,什么是DataFrame第三,DataFrame与RDD的区别第四,DataFrame的创建与使用 (Spark1.x与Spark2.x两种不同版本)第一,SparkSQL的作用SparkSQL是spark处理结构化数据的一个模块,它的前身是shark,与基础的spark RDD不同原创 2020-07-12 23:02:59 · 1399 阅读 · 0 评论 -
Spark-实现自定义排序的六种方法(Scala版本)
原文链接:https://www.toutiao.com/i6845585556722680328/在实际开发中经常需要对数据进行排序统计,Spark的sortBy以及SortByKEy算子并不能完全适用开发场景,需要我们自定义排序规则,例如如下数据:Array("张三 16 98.3", "李四 14 98.3", "王五 34 100.0", "赵六 26 98.2", "田七 18 98.2")包含三个字段的学生数据,(姓名,年龄,成绩),我们需要按照成绩进行降序排序,成绩相同的按照年龄原创 2020-07-04 19:46:02 · 2083 阅读 · 0 评论 -
yarn启动后自动关闭,JPS查看有resourcemanager,无resourcemanager
yarn-site.xml配置文件如下:<?xml version="1.0"?><!-- Licensed under the Apache License, Version 2.0 (the "License"); you may not use this file except in compliance with the License. You ma...原创 2019-05-06 16:43:33 · 7855 阅读 · 0 评论