
大数据
文章平均质量分 55
小哪吒的BD
这个作者很懒,什么都没留下…
展开
-
在Flink如此火热的时期,这些Flink必备面试题,来看看你掌握了多少(一)
随着近几年大数据的飞速发展,不仅对数据量的存储和计算有着非常高的要求,在实时性方面,也是有着很高的要求。说到实时性,就不得不说到Flink了。在Flink发展的如火如荼的今天,也相信有许多公司在使用。这个小编在今年面试的时候深有体会,虽然也被问得一头雾水~~哈哈。接下来小编就分享一篇关于Flink的必备面试题。希望在复习的同时也能帮助到大家。由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!小编博客主页:https://blog.youkuaiyun.com/Mr_Yang888尽管当前水平可.原创 2021-04-11 20:02:04 · 841 阅读 · 0 评论 -
带你分分钟完成 Flink-HA集群搭建(standalone&&Yarn)
前言大家好。我是那个那个人见人爱的DJ丶小哪吒。今天我要为大家分享的是Flink集群的搭建。小编写这篇文章目的是为了以后方便自己搭建Flink集群,也方便正在初学flink的同学搭建集群。方便自己也方便大家。希望路过的朋友能给小编一些支持。小编也会继续更新自己的博客。为大家分享更多的知识。码字不易,先赞再看,养成习惯~~~1、Flink 集群搭建Flink 支持多种安装模式。local( 本地) ——单机模式, 一般不使用standalone ——独立模式, Flink 自带集群,开发测.原创 2020-07-09 17:40:10 · 753 阅读 · 0 评论 -
一篇文章让你学会解决企业中缓慢变化维的问题
前言大家好,我是DJ丶小哪吒,我又来跟你们分享知识了。对软件开发有着浓厚的兴趣。喜欢与人分享知识。做博客的目的就是为了能与 他 人知识共享。由于水平有限。博客中难免会有一些错误。如有 纰 漏之处,欢迎大家在留言区指正。小编也会及时改正。今天小编要和大家浅谈一下在做项目过程中。我们经常会遇到的缓慢变化维的维问题。码字不易,先赞再看,养成习惯~~~一、缓慢变化维1.1、什么是缓慢变化维(SCD)1.1.1、缓慢变化维简介缓慢变化维,简称SCD(Slowly Changing Dimensi.原创 2020-06-03 21:12:03 · 491 阅读 · 1 评论 -
大数据基础--大数据深入了解
目录第一部分 《大数据概述》传统数据如何处理?什么是大数据?传统数据与大数据的对比大数据的特点?大数据前/后服务器系统安装部署区别是什么?。大数据生态系统以及技术组件介绍大数据技术为什么快?什么是分布式存储?分布式计算?Hadoop生态系统的组件传统与大数据的对比2. 第二部分《Hadoop详解》Hadoop的介绍以及发展历史Hadoop的历史版本介绍Hadoop...原创 2019-11-01 17:03:18 · 18318 阅读 · 0 评论 -
大数据基础--学好大数据必看的文章
大数据的项目流程数据生产数据采集数据存储需求分析数据预处理数据计算数据存储8.结果展现大数据基础知识目录什么是服务器?什么是RAID?什么是集群?什么是网络?什么是交换机、局域网?什么是网络拓扑、机架?网卡介绍高铁为什么快?什么是服务器?目标:掌握什么是服务器。服务器: 也称伺服器,是一种高性能计算机,提供计算服务的设备。服务器的构成包括处理器、...原创 2019-10-25 20:40:51 · 18198 阅读 · 0 评论 -
大数据入门--带你快速了解大数据
什么是大数据?字面的意思理解:大量的数据,海量的数据数据集的大小已经远远超过了现有普通数据库软件和工具的处理能力的数据大数据的特点海量化数据量大多样化结构化数据,半结构化数据,和非结构化数据快速化数据的增长速度快高价值海量数据价值高大数据能做什么?1.海量数据的快速查询2.海量数据的存储(存储的数据量大,和存储单个大文件)3.海量数据的快速计算(与传统的数据相比,计...原创 2019-10-23 11:42:00 · 18019 阅读 · 0 评论 -
Hadoop-HA高可用集群的概述
前言大家好,我是DJ丶小哪吒,我又来跟你们分享知识了。小编是一名软件工程系大数据应用开发专业大二的学生,对软件开发有着浓厚的兴趣。喜欢与人分享知识。做博客的目的就是为了能与 他 人知识共享。最近在学习Hadoop-HA高可用集群的时候,对课堂上的内容做了一些总结。来与大家分享。由于水平有限。博客中难免会有一些错误。如有 纰 漏之处,欢迎大家在留言区指正。小编也会及时改正。本篇文章是姗姗来迟的一篇文章,小编很早就学了Hadoop-HA的搭建。但一直没有写进博客。今天,他来了。码字不易,先赞再看,养.原创 2020-05-26 16:01:12 · 670 阅读 · 1 评论 -
StructuredStreaming整合kafka&Mysql
前言大家好,我是DJ丶小哪吒,我又来跟你们分享知识了。小编是一名软件工程系大数据应用开发专业大二的学生,对软件开发有着浓厚的兴趣。喜欢与人分享知识。做博客的目的就是为了能与 他 人知识共享。最近小编也在学习spark,对课堂上的内容做了一些总结。来与大家分享。由于水平有限。博客中难免会有一些错误。如有 纰 漏之处,欢迎大家在留言区指正。小编也会及时改正。DJ丶小哪吒续更了。上回简单带领大家简单了解了一下StructuredStreaming,那么这一回,我们就来使用StructuredStream.原创 2020-05-23 20:26:59 · 671 阅读 · 2 评论 -
看了这篇文章,再也不用担心面试官问我Structured Streaming了
前言大家好,我是DJ丶小哪吒,我又来跟你们分享知识了。小编是一名软件工程系大数据应用开发专业大二的学生,对软件开发有着浓厚的兴趣。喜欢与人分享知识。做博客的目的就是为了能与 他 人知识共享。最近小编也在学习spark,对课堂上的内容做了一些总结。来与大家分享。由于水平有限。博客中难免会有一些错误。如有 纰 漏之处,欢迎大家在留言区指正。小编也会及时改正。很高兴与大家又见面了。小编要分享的是Structured Streaming,我需要大家竖起耳朵认真听。发现谁开小差,那么这节课站着听。还有把哪位.原创 2020-05-23 19:51:03 · 740 阅读 · 1 评论 -
一篇文章教会你SparkStreaming整合kafka
前言大家好,我是DJ丶小哪吒,我又来跟你们分享知识了。小编是一名软件工程系大数据应用开发专业大二的学生,对软件开发有着浓厚的兴趣。喜欢与人分享知识。做博客的目的就是为了能与 他 人知识共享。最近小编也在学习spark,对课堂上的内容做了一些总结。来与大家分享。由于水平有限。博客中难免会有一些错误。如有 纰 漏之处,欢迎大家在留言区指正。小编也会及时改正。今天你们的小哪吒又来与你们分享知识了,小编也是在百忙之中抽出时间更新博客呀。最近还是在一直准备面试需要准备的材料。也是非常想念大家啊。下面我们来进.原创 2020-05-22 15:31:37 · 646 阅读 · 0 评论 -
看完了这篇文章,让你对SparkStreaming再也不迷茫了
前言大家好,我是DJ丶小哪吒,我又来跟你们分享知识了。小编是一名软件工程系大数据应用开发专业大二的学生,对软件开发有着浓厚的兴趣。喜欢与人分享知识。做博客的目的就是为了能与 他 人知识共享。最近小编也在学习spark,对课堂上的内容做了一些总结。来与大家分享。由于水平有限。博客中难免会有一些错误。如有 纰 漏之处,欢迎大家在留言区指正。小编也会及时改正。你们阔耐,阳光,积极向上的DJ丶小哪吒又回来了,好像回顾之前,小编已经两个星期没有更新博客了呢。也是最近比较忙,由于跟进老师讲的项目并吃透。每天都.原创 2020-05-20 19:39:49 · 847 阅读 · 0 评论 -
kettle调优总结
前言大家好,我是DJ丶小哪吒,我又来跟你们分享知识了。小编是一名软件工程系大数据应用开发专业大二的学生,对软件开发有着浓厚的兴趣。喜欢与人分享知识。做博客的目的就是为了能与 他 人知识共享。最近小编也在学习kettle,小编平时会对课堂上的知识做一些总结来发表博客。来与大家分享。也会偶尔把分享一些我们的课后练习。由于水平有限。博客中难免会有一些错误。如有 纰 漏之处,欢迎大家在留言区指正。小...原创 2020-05-03 21:36:26 · 1186 阅读 · 0 评论 -
千锤百炼方成刚,想要加薪必看此文章。(Kettle工具之Javascript脚本组件课后练习)
前言大家好,我是DJ丶小哪吒,我又来跟你们分享知识了。小编是一名软件工程系大数据应用开发专业大二的学生,对软件开发有着浓厚的兴趣。喜欢与人分享知识。做博客的目的就是为了能与 他 人知识共享。最近小编也在学习kettle,小编平时会对课堂上的知识做一些总结来发表博客。来与大家分享。也会偶尔把分享一些我们的课后练习。由于水平有限。博客中难免会有一些错误。如有 纰 漏之处,欢迎大家在留言区指正。小...原创 2020-04-30 22:31:36 · 675 阅读 · 0 评论 -
看了本篇文章,才知道Spark-On-Hive原来如此简单
前言大家好,我是DJ丶小哪吒,我又来跟你们分享知识了。小编是一名软件工程系大数据应用开发专业大二的学生,对软件开发有着浓厚的兴趣。喜欢与人分享知识。做博客的目的就是为了能与 他 人知识共享。最近小编也在学习spark,对课堂上的内容做了一些总结。来与大家分享。由于水平有限。博客中难免会有一些错误。如有 纰 漏之处,欢迎大家在留言区指正。小编也会及时改正。DJ丶小哪吒又来与各位分享知识了。...原创 2020-04-29 21:55:53 · 311 阅读 · 0 评论 -
一篇文章教会你如何自定义SparkSQL函数和开窗函数
前言大家好,我是DJ丶小哪吒,我又来跟你们分享知识了。小编是一名软件工程系大数据应用开发专业大二的学生,对软件开发有着浓厚的兴趣。喜欢与人分享知识。做博客的目的就是为了能与 他 人知识共享。最近小编也在学习spark,对课堂上的内容做了一些总结。来与大家分享。由于水平有限。博客中难免会有一些错误。如有 纰 漏之处,欢迎大家在留言区指正。小编也会及时改正。DJ丶小哪吒又来与各位分享知识了。...原创 2020-04-29 21:40:50 · 709 阅读 · 0 评论 -
震惊!!!原来Spark SQL多数据源交互如此easy
前言大家好,我是DJ丶小哪吒,我又来跟你们分享知识了。小编是一名软件工程系大数据应用开发专业大二的学生,对软件开发有着浓厚的兴趣。喜欢与人分享知识。做博客的目的就是为了能与 他 人知识共享。最近小编也在学习spark,对课堂上的内容做了一些总结。来与大家分享。由于水平有限。博客中难免会有一些错误。如有 纰 漏之处,欢迎大家在留言区指正。小编也会及时改正。DJ丶小哪吒又来与各位分享知识了。...原创 2020-04-28 21:08:22 · 563 阅读 · 2 评论 -
一篇文章教你如何使用IDEA开发Spark SQL---小编给你安排的明明白白的
前言大家好,我是DJ丶小哪吒,我又来跟你们分享知识了。小编是一名软件工程系大数据应用开发专业大二的学生,对软件开发有着浓厚的兴趣。喜欢与人分享知识。做博客的目的就是为了能与 他 人知识共享。最近小编也在学习spark,对课堂上的内容做了一些总结。来与大家分享。由于水平有限。博客中难免会有一些错误。如有 纰漏 之处,欢迎大家在留言区指正。小编也会及时改正。DJ丶小哪吒又来与各位分享知识了。...原创 2020-04-28 18:30:00 · 1173 阅读 · 1 评论 -
看了这篇文章,你还敢说你不了解sparkSQL???
前言大家好,我是DJ丶小哪吒,我又来跟你们分享知识了。小编是一名软件工程系大数据应用开发专业大二的学生,对软件开发有着浓厚的兴趣。喜欢与人分享知识。做博客的目的就是为了能与 他 人知识共享。最近小编也在学习spark,对课堂上的内容做了一些总结。来与大家分享。由于水平有限。博客中难免会有一些错误。如有 纰 漏之处,欢迎大家在留言区指正。小编也会及时改正。DJ丶小哪吒又来与各位分享知识了。...原创 2020-04-28 16:49:16 · 418 阅读 · 2 评论 -
使用Spark操作JDBC-API实现将数据存入到MySQL并读取出来
前言大家好,我是DJ丶小哪吒,我又来跟你们分享知识了。小编是一名软件工程系大数据应用开发专业大二的学生,对软件开发有着浓厚的兴趣。喜欢与人分享知识。做博客的目的就是为了能与 他 人知识共享。最近小编也在学习spark,对课堂上的内容做了一些总结。来与大家分享。由于水平有限。博客中难免会有一些错误。如有 纰 漏之处,欢迎大家在留言区指正。小编也会及时改正。使用Spark操作JDBC-API...原创 2020-04-27 21:41:39 · 269 阅读 · 0 评论 -
一篇文章让你深刻了解累加器和广播变量
前言大家好,我是DJ丶小哪吒,我又来跟你们分享知识了。小编是一名软件工程系大数据应用开发专业大二的学生,对软件开发有着浓厚的兴趣。喜欢与人分享知识。做博客的目的就是为了能与 他 人知识共享。最近小编也在学习spark,对课堂上的内容做了一些总结。来与大家分享。由于水平有限。博客中难免会有一些错误。如有 纰 漏之处,欢迎大家在留言区指正。小编也会及时改正。DJ丶小哪吒又来与你们分享知识了,...原创 2020-04-27 21:25:20 · 392 阅读 · 0 评论 -
看了这篇文章,妈妈再也不用担心我的学习了---spark原理
前言大家好,我是DJ丶小哪吒,我又来跟你们分享知识了。小编是一名软件工程系大数据应用开发专业大二的学生,对软件开发有着浓厚的兴趣。喜欢与人分享知识。做博客的目的就是为了能与 他 人知识共享。最近小编也在学习spark,对课堂上的内容做了一些总结。来与大家分享。由于水平有限。博客中难免会有一些错误。如有 纰 漏之处,欢迎大家在留言区指正。小编也会及时改正。上了我DJ丶小哪吒的车,那就坐稳了...原创 2020-04-24 21:53:07 · 379 阅读 · 0 评论 -
SparkCore篇章---带你你轻松了解DAG
前言大家好,我是DJ丶小哪吒,我又来跟你们分享知识了。小编是一名软件工程系大数据应用开发专业大二的学生,对软件开发有着浓厚的兴趣。喜欢与人分享知识。做博客的目的就是为了能与 他 人知识共享。最近小编也在学习spark,对课堂上的内容做了一些总结。来与大家分享。由于水平有限。博客中难免会有一些错误。如有 纰 漏之处,欢迎大家在留言区指正。小编也会及时改正。上了我DJ丶小哪吒的车,那就坐稳了...原创 2020-04-23 21:45:57 · 337 阅读 · 0 评论 -
SparkCore之企业级常用的算子---内涵彩蛋哦
前言小编是一名软件工程系大数据应用开发专业大二的学生,对软件开发有着浓厚的兴趣。喜欢与人分享知识。做博客的目的就是为了能与 他 人知识共享。最近小编也在学习spark,对课堂上的内容做了一些总结。来与大家分享。由于水平有限。博客中难免会有一些错误。如有 纰 漏之处,欢迎大家在留言区指正。小编也会及时改正。文章目录一、准备工作二、企业中常用算子2.1、WordCount案例2.2、 创建R...原创 2020-04-22 10:00:55 · 305 阅读 · 0 评论 -
想了解RDD,看这一篇文章就够了---SparkCore之RDD详解(史上最易懂)
前言小编是一名软件工程系大数据应用开发专业大二的学生,对软件开发有着浓厚的兴趣。喜欢与人分享知识。做博客的目的就是为了能与他人知识共享。最近小编也在学习spark,对课堂上的内容做了一些总结。来与大家分享。由于水平有限。博客中难免会有一些错误。如有纰漏之处,欢迎大家在留言区指正。小编也会及时改正。1、 什么是RDD- 为什么要有RDD?在许多迭代式算法(比如机器学习、图算法等)和交互式数据...原创 2020-04-21 10:01:32 · 839 阅读 · 0 评论 -
一篇文章带你了解大数据生态圈---大数据组件图谱
小编一篇文章带你了解大数据生态圈—大数据组件图谱文章目录小编一篇文章带你了解大数据生态圈---大数据组件图谱文件系统数据存储内存技术数据搜集消息系统数据处理查询引擎分析和报告工具调度与管理服务机器学习开发平台转载地址:http://blog.youkuaiyun.com/u010039929/article/details/70157376准备好没有,发车了哦~~~~进入正题 阶段 ↓↓↓↓文...转载 2020-04-20 15:51:33 · 2660 阅读 · 2 评论 -
Spark介绍与安装(包含IDEA编写spark程序)
一、Spark概述1.1、Spark官方介绍Spark是什么Apache Spark是用于大规模数据处理的统一分析引擎Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量硬件之上,形成集群。●官网http://spark.apache.orghttp://spark.apachecn.org...原创 2020-04-20 11:23:47 · 1576 阅读 · 0 评论 -
Structured Streaming解析异常(二)
Exception in thread “main” org.apache.spark.sql.AnalysisException: checkpointLocation must be specified either through option(“checkpointLocation”, …) or SparkSession.conf.set(“spark.sql.streaming.che...原创 2020-04-18 15:10:50 · 1022 阅读 · 2 评论 -
Structured Streamin解析异常
Exception in thread “main” org.apache.spark.sql.AnalysisException: Data source json does not support1、1、使用Structured Streaming读取Socket数据,把单词和单词的反转组成 json 格式写入到当前目录中的file文件夹中,小编写这个题的时候,遇到如下异常:原因:数据源...原创 2020-04-18 15:03:51 · 299 阅读 · 0 评论 -
scala快速入门--Option类型、偏函数、正则表达式、异常处理、提取器、泛型的使用方法
scala快速入门–Option类型、偏函数、正则表达式、异常处理、提取器的使用方法文章目录scala快速入门--Option类型、偏函数、正则表达式、异常处理、提取器的使用方法1、Option类型2、偏函数3、正则表达式4、异常处理4.1、捕获异常4.2、抛出异常5、提取器(Extractor)5.1、定义提取器6、泛型6.1、定义一个泛型方法6.2、泛型类6.3、泛型的上下界6.3.1、上...原创 2020-04-13 09:41:05 · 396 阅读 · 1 评论 -
快速入门Scala--模式匹配
快速入门Scala–模式匹配哈喽,各位小主,大家好。今天我们来继续讲scala中的模式匹配。scala中的模式匹配就类似于java中的switch。但是scala的模式匹配要更灵活哦。下面来正式看看吧scala中有一个非常强大的模式匹配机制,可以应用在很多场景:switch语句类型查询使用模式匹配快速获取数据1、简单模式匹配语法格式变量 match { case "常量...原创 2020-04-09 17:53:07 · 247 阅读 · 0 评论 -
使用SparkAPI向Hbase中查询和插入数据
使用SparkSql向Hbase中查询和插入数据create ‘student’, ‘message’scan ‘student’, {COLUMNS => ‘message’}给出以下数据,请使用spark将数据写入到hbase中的student表中,并进行查询出来数据如下:依次是:姓名 班级 性别 省份,对应表中的字段依次是:name,class,sex,province飞...原创 2020-04-08 11:17:07 · 487 阅读 · 0 评论 -
使用SparkAPI向Mysql写入和查询数据
使用SparkSql向Mysql数据库中写入和查询数据CREATE TABLE user (id int(11) NOT NULL AUTO_INCREMENT,username varchar(32) NOT NULL COMMENT ‘用户名称’,birthday date DEFAULT NULL COMMENT ‘生日’,sex char(1) DEFAULT NULL COM...原创 2020-04-08 11:02:59 · 760 阅读 · 0 评论 -
Spark课后练习来了
Spark课后练习来了想要筑建高楼,必先打好地基。学好基础才是走向大牛的关键。废话不多说,各位,请接题。不好意思,拿错了。下边的才是 ↓ ↓ ↓1、创建一个1-10数组的RDD,将所有元素*2形成新的RDDval rdd: RDD[Int] = sc.makeRDD(1 to 10)val resultOne: RDD[Int] = rdd.map(_ * 2)println...原创 2020-04-08 10:07:08 · 1775 阅读 · 2 评论 -
快速入门scala---scala(类与对象)
快速入门scala—scala(类与对象)上期我们讲到scala的函数式编程,今天我们就来了解一下scala的类和对象吧。不多bb,废话只会耽误你们学习的时间。下面我们进入正题吧1、类和对象成员的定义1.1、创建类和对象用法使用class来定义一个类使用new来创建对象示例创建一个Person类,并创建它的对象步骤创建一个scala项目,并创建一个Object添加mai...原创 2020-04-05 20:02:13 · 1859 阅读 · 1 评论 -
scala快速入门(函数式编程)
Scala–函数式编程前面我们学完了scala基础,接下来我们可以更深入研究研究scala了。scala比java代码看起来简洁就是因为scala是基于函数式编程的基础之上。接下来,我们就来看看scala的常用的几种函数式编程吧。1、扁平化映射 | flatMap可以把flatMap,理解为先map,然后再flattenmap是将列表中的元素转换为一个Listflatten再将整个列...原创 2020-03-31 09:31:15 · 281 阅读 · 0 评论 -
Scala基础--(下篇)
Scala基础–(下篇)scala基础上篇连接文章目录Scala基础--(下篇)1.数组1.1、定长数组1.2、变长数组1.2.1、添加/修改/删除元素1.3、遍历数组1.4、数组常用操作1.4.1、求和1.4.2、最大值1.4.3、最小值1.4.4、排序2、元组2.1、定义元组2.2、访问元组3、列表3.1、不可变列表3.1.1、定义3.2、可变列表3.2.1、定义3.2.2、可变列表操作...原创 2020-03-30 12:54:17 · 200 阅读 · 0 评论 -
Scala基础--(上篇)
Scala基础想学好scala,就必须先打好基础。正所谓 “ 倘想达到最高处,就要从低处开始”。没有人是生来就是某个领域的专家。所谓的专家,不过是把基础反复的加固,花在那个领域的时间比平常人下的功夫比别人多一些而已。李小龙说过:“我不怕练了一万种招式的人,却怕把一招练了一万遍的人”。所以说,想学好某件事,就要从打牢基础做起。好了,废话不多说,开始进入正题。文章目录Scala基础1、变量1.1...原创 2020-03-29 21:41:58 · 891 阅读 · 0 评论 -
Scala简介与安装部署
Scala简介与安装部署1、scala简介scala是运行在JVM上的多范式(多种编程方法)编程语言,同时支持面向对象和面向函数编程早期,scala刚出现的时候,并没有怎么引起重视,随着Spark和Kafka这样基于scala的大数据框架的兴起,scala逐步进入大数据开发者的眼帘。2、为什么要使用Scala开发大数据应用程序(Spark程序、Flink程序)表达能力强,一行代码抵得...原创 2020-03-25 21:13:22 · 495 阅读 · 0 评论 -
Kafka必备知识点(简单总结)
Kafka必备知识点(简单总结)文章目录Kafka必备知识点(简单总结)1.kafka从生产到消费的流程2、什么是kafka3、kafka的使用场景4、kafka优缺点5、Kafka架构(流程)6、Kafka架构(API)7、Topic内部有哪些组成?8、分区和消费组内的消费者之间的关系有哪些情况?9、分区数、消费者与读取效率之间的关系10、副本数与broker之间的关系11、什么是主/从副本...原创 2020-03-24 11:57:44 · 1507 阅读 · 0 评论 -
Hbase的预分区与Hbase的rowKey的设计原则
Hbase的预分区与Hbase的rowKey的设计原则文章目录Hbase的预分区与Hbase的rowKey的设计原则1、HBase的预分区1.1、为何要预分区?1.2、如何预分区?1.3、如何设定预分区?1.3.1、手动指定预分区1.3.2、使用16进制算法生成预分区1.3.3、分区规则创建于文件中1.3.4、使用JavaAPI创建预分区2、HBase的rowKey设计技巧2.1 rowkey...原创 2020-03-23 20:50:55 · 17945 阅读 · 0 评论