
大数据
这里介绍日常大数据相关知识
dCHENz
[大数据技术分享者]加油!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Structured Streaming总结
文章目录写在前面关于介绍API主要学习读取Socket数据读取目录下文本数据整合Kafka整合环境准备代码实现整合MySQL代码实现写在前面晚上好我是啊晨 ,一个大数据分享者今天说一下Spark的Structured Streaming,工作中据我了解不是很多,但也有使用。毕竟是微批处理的,做标准实时的话,还要看flink。如有需要flink文章请阅读我的其它大数据文章,谢谢中间有什么问题请留言,请珍惜现在的时间:关于介绍这个建议大家看官网,写的非常详细,毕竟官网学习还是很有效率的。官原创 2020-07-23 22:58:25 · 905 阅读 · 0 评论 -
如何使用Spark计算共同好友?
文章目录写在前面描述计算MapReduce计算共同好友job1的mapper类job1的Reducer类job1的客户端job2的Mapper类job2的Reducer类job2的客户端写在前面你们好我是啊晨 ,一个大数据分享者兼一个努力成为大垃圾的小垃圾本章介绍,使用spark计算共同好友,相信看这篇文章之前都有了解做过MapReduce的共同好友,文章后会有MapReduce的方法,大家自行比较一下哈。如有其它需要请阅读我的其它大数据文章,谢谢中间有什么问题请留言,请珍惜现在的时间:描原创 2020-07-18 11:07:13 · 897 阅读 · 0 评论 -
一定要学习的Hive SQL的50道练习题
文章目录写在前面建表准备建表生成数据导入数据到hive需求1.查询课程编号为“01”的课程比“02”的课程成绩高的所有学生的学号(重点):2、查询"01"课程比"02"课程成绩低的学生的信息及课程分数(重点):3、查询平均成绩大于等于60分的同学的学生编号和学生姓名和平均成绩(重点):4、查询平均成绩小于60分的同学的学生编号和学生姓名和平均成绩:(包括有成绩的和无成绩的)5、查询所有同学的学生编号、学生姓名、选课总数、所有课程的总成绩:6、查询"李"姓老师的数量:7、查询学过"张三"老师授课的同学的信息(原创 2020-07-05 19:58:06 · 10839 阅读 · 21 评论 -
大数据技术之flink(7)end
文章目录前言第十一章Flink CEP 简介❤ღ( ´・ᴗ・` )比心前言你们好我是啊晨今儿更新spark 技术Spark Streaming。废话不多说,内容很多选择阅读,详细。请:第十一章Flink CEP 简介11.1 什么是复杂事件处理 CEP一个或多个由简单事件构成的事件流通过一定的规则匹配,然后输出用户想得到的数据,满足规则的复杂事件。特征:目标:从有序的简单事件流中发现一些高阶特征输入:一个或多个由简单事件构成的事件流处理:识别简单事件之间的内在联系,多个符合一定规则原创 2020-06-12 22:29:56 · 486 阅读 · 0 评论 -
大数据技术之flink(6)
文章目录前言❤ღ( ´・ᴗ・` )比心前言你们好我是啊晨今儿更新spark 技术Spark Streaming。废话不多说,内容很多选择阅读,详细。请:第十章Table API 与 SQLTable API 是流处理和批处理通用的关系型 API,Table API 可以基于流输入或者批输入来运行而不需要进行任何修改。Table API 是 SQL 语言的超集并专门为 Apache F...原创 2020-06-12 18:58:26 · 333 阅读 · 0 评论 -
大数据技术之flink(5)
文章目录前言❤ღ( ´・ᴗ・` )比心前言你们好我是啊晨今儿更新spark 技术Spark Streaming。废话不多说,内容很多选择阅读,详细。请:第九章 状态编程和容错机制流式计算分为无状态和有状态两种情况。无状态的计算观察每个独立事件,并根据最后一个事件输出结果。例如,流处理应用程序从传感器接收温度读数,并在温度超过 90 度时发出警告。有状态的计算则会基于多个事件输出结果。以下是一些例子。 所有类型的窗口。例如,计算过去一小时的平均温度,就是有状态的计算。 所有用于复杂事件处原创 2020-06-12 18:40:09 · 499 阅读 · 0 评论 -
大数据技术之flink(4)
文章目录前言❤ღ( ´・ᴗ・` )比心前言你们好我是啊晨今儿更新spark 技术Spark Streaming。废话不多说,内容很多选择阅读,详细。请:第八章 ProcessFunction API(底层 API)我们之前学习的转换算子是无法访问事件的时间戳信息和水位线信息的。而这在一些应用场景下,极为重要。例如 MapFunction 这样的 map 转换算子就无法访问时间戳或者当...原创 2020-06-12 17:27:02 · 443 阅读 · 0 评论 -
大数据技术之flink(3)
文章目录前言❤ღ( ´・ᴗ・` )比心前言你们好我是啊晨今儿更新spark 技术Spark Streaming。废话不多说,内容很多选择阅读,详细。请:第六章Flink 中的 Window6.1 Window6.1.1 Window 概述streaming 流式计算是一种被设计用于处理无限数据集的数据处理引擎,而无限数据集是指一种不断增长的本质上无限的数据集,而 window 是...原创 2020-06-11 20:09:37 · 418 阅读 · 2 评论 -
大数据技术之flink(2)
文章目录前言❤ღ( ´・ᴗ・` )比心前言你们好我是啊晨今儿更新spark 技术Spark Streaming。废话不多说,内容很多选择阅读,详细。请:第四章 Flink 运行架构4.1 Flink 运行时的组件Flink 运行时架构主要包括四个不同的组件,它们会在运行流处理应用程序时协同工作:作业管理器(JobManager)、资源管理器(ResourceManager)、任务...原创 2020-06-11 18:08:45 · 396 阅读 · 0 评论 -
大数据技术之flink(1)
文章目录前言存储JobManager的元数据到HDFS❤ღ( ´・ᴗ・` )比心前言你们好我是啊晨今儿更新spark 技术Spark Streaming。废话不多说,内容很多选择阅读,详细。请:第一章 flink简介1.1大数据4代计算引擎第1代——Hadoop MapReduce批处理Mapper、Reducer流处理Strom第2代——DAG框架(Tez) + Map...原创 2020-06-09 09:41:50 · 675 阅读 · 1 评论 -
Hive调优及Hive综合案例(3)
文章目录前言❤ღ( ´・ᴗ・` )比心前言你们好我是啊晨今儿更新hive技术废话不多说,内容很多选择阅读,详细。请:一、Hive调优1.1 Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到...原创 2020-06-06 16:28:09 · 1028 阅读 · 2 评论 -
Hive:HQL之DQL(2)
文章目录前言❤ღ( ´・ᴗ・` )比心前言你们好我是啊晨今儿更新hive技术废话不多说,内容很多选择阅读,详细。请:一、HQL语句之DQL使用DQL查询语句语法:SELECT [ALL | DISTINCT] select_expr, select_expr, … FROM table_reference [WHERE where_c...原创 2020-06-04 22:45:53 · 425 阅读 · 0 评论 -
Hive概述及HQL之DDL、DML(1)
文章目录前言一、数据仓库介绍二、Hive基本概念三、Hive的架构原理四、Hive安装部署五、 Hive数据类型六、 DDL数据定义Partition Informationcol_name data_type comment七、 DML数据操作❤ღ( ´・ᴗ・` )比心前言你们好我是啊晨今儿更新hive技术废话不多说,内容很多选择阅读...原创 2020-06-03 21:27:57 · 912 阅读 · 5 评论 -
DAL、DAO、ORM、Active Record讲解
目录模型(Model)持久层(Persistence)DAL(Data Access Layer,数据访问层)DAO(Data Access Object,数据访问对象)ORM(Object/Relational Mapping,对象-关系映射)NHibernateActive Record模型(Model)模型是MVC中的概念,指的是读取数据和改变数据的操作(业务逻辑)。一开始我们直接把和数据库相关的代码放在模型里(sql直接写在代码中),这样就会导致以后的维护相当麻烦。业务逻辑的修改都需要开发者重新原创 2020-06-03 11:46:20 · 1267 阅读 · 0 评论 -
Spark Streaming详细文本教学02
文章目录前言四、Spark Streaming解析4、DStreams转换启动统计程序:[bigdata@master01 ~]$ ./hadoop/spark-2.1.1-bin-hadoop2.7/bin/spark-submit --class com.bigdata.streaming.WorldCount ./statefulwordcount-jar-with-dependencie...原创 2020-03-16 00:29:38 · 375 阅读 · 0 评论 -
Spark Streaming详细文本教学01
文章目录前言TERMINAL 1:Running Netcat未完の前言你们好我是啊晨今儿更新spark 技术Spark Streaming。废话不多说,内容很多选择阅读,详细。请:一、Spark Streaming概述1、什么是Spark StreamingSpark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Strea...原创 2020-03-16 00:06:51 · 744 阅读 · 0 评论 -
Spark Sql详细文本教学01
文章目录前言一、Spark SQL概述1、什么是Spark SQL2、 RDD vs DataFrames vs DataSet(1)RDD(2)Dataframe(3)Dataset(4)三者的共性(5)三者的区别二、执行SparkSQL查询1、命令行查询流程2、IDEA创建SparkSQL程序三、SparkSQL解析1、新的起始点SparkSession2、创建DataFrames3、Data...原创 2020-03-02 22:53:36 · 626 阅读 · 0 评论 -
Spark Core详细文本教学02-2
文章目录前言二、 RDD编程1、编程模型2、RDD创建(1)由一个已经存在的Scala集合创建,集合并行化。(2)读取文件生成(3)其他方式3、TransFormation(1)map(func)(2)mapPartitions(func)(3) flatMap(func)(4)filter(func)(5) mapPartitionsWithIndex(func)(6) distinct([nu...原创 2020-03-01 23:27:22 · 294 阅读 · 0 评论 -
Spark Core详细文本教学02-3
文章目录前言三、键值对RDD1、键值对RDD的转化操作(1)转化操作列表(2)聚合操作(3)数据分组(4)连接(5)数据排序2、键值对RDD的行动操作3、键值对RDD的数据分区(1)获取RDD分区的方式(2)Hash分区方式(3)Ranger分区方式(4)自定义分区方式(5)分区shuffle优化(6)基于分区进行操作(7)从分区中获益的操作四、数据读取与保存五、RDD编程进阶1、广播变量(1)广...原创 2020-03-02 22:04:44 · 433 阅读 · 0 评论 -
Spark Core详细文本教学02-1
文章目录前言一、RDD概念 弹性分布式数据集1、RDD为什么会产生2、RDD概述(1)什么是RDD(2) RDD的属性(3) RDD的弹性3、RDD特点(1)分区(2)只读(3)依赖(4)缓存(5)CheckPoint未完前言你们好我是啊晨现在更新spark core,上篇讲了spark的介绍,下面将具体,这篇是spark核心。废话不多说,内容很多选择阅读就好,很详细。请:一、RDD...原创 2020-03-01 22:45:38 · 338 阅读 · 0 评论 -
Spark详细文本教学01
文章目录前言一、Spark概述1、什么是Spark2、Spark特点3、Spark的用户和用途二、Spark角色介绍及运行模式1、集群角色2、运行模式3、Spark的常用术语三、Spark集群安装1、Spark安装地址2、Standalone模式安装3、配置Job History Server【Standalone】4、HA配置5、Yarn模式安装四、IDEA环境应用1、在IDEA中编写WordC...原创 2020-02-23 22:08:48 · 1048 阅读 · 0 评论 -
Scala详细文本教学04
前言你们好我是啊晨,前些天偷懒了下首先呢还是那句话,内容很多,分为几篇,选择阅读就好,很详细。下面请:一、Scala 方法Scala 有方法与函数,二者在语义上的区别很小。Scala 方法是类的一部分,而函数是一个对象可以赋值给一个变量。Scala 中的方法跟 Java 的类似,方法是组成类的一部分。Scala 中使用 val 语句可以定义函数,def 语句定义方法。class T...原创 2020-02-23 21:16:47 · 318 阅读 · 0 评论 -
Scala详细文本教学03
文章目录前言一、类1、类的定义2、Getter Setter方法3、Bean属性4、构造器二、对象1、单例对象2、伴生对象3、apply方法4、应用程序对象三、继承1、继承类2、重写方法3、类型检查和转换4、超类的构造5、重名字段6、抽象类7、特质1)不允许多重集成2)当做接口使用的特质3)带有具体实现的特质四、模式匹配和样例类1、匹配字符串2、匹配类型3、匹配数组、列表、元组4、样例类5、Opt...原创 2020-02-17 12:36:11 · 319 阅读 · 0 评论 -
Scala详细文本教学02
文章目录前言一、数组1、定长数组和变长数组2、遍历数组3、数组转换4、数组常用算法二、元组1、创建元组2、获取元组中的值3、元组的遍历4、将对偶的集合转换成映射5、拉链操作三、集合1、序列2、Set3、Map4、队列 Queue四、映射1、构建映射2、获取和修改映射中的值五、常用函数1、map flatmap:2、化简、折叠3、扫描4、迭代器未完。。前言你们好我是啊晨首先呢,内容很多,分为几...原创 2020-02-11 22:58:35 · 565 阅读 · 0 评论 -
Scala详细文本教学01
文章目录前言一、Scala概述1、什么是Scala2、为什么要学Scala二、Scala编译器安装1、安装JDK2、安装Scala(1)Windows安装Scala编译器(2)Linux安装Scala编译器(3)Scala开发工具安装三、Scala基础1、声明变量2、常用类型3、常用类型结构图4、算数操作符重载5、条件表达式6、块表达式7、循环(1)while表达式(2)for表达式8、调用方法和...原创 2020-02-10 22:53:00 · 508 阅读 · 0 评论 -
关于HBase 02
文章目录前言一、HBase原理之读流程二、HBase原理之写流程三、HBase原理之数据Flush流程四、HBase原理之数据合并流程五、Java API操作HBase5.1 环境准备5.2 HBase API5.2.1 获取Configuration对象5.2.2 判断表是否存在5.2.3 创建表5.2.4 删除表5.2.5 向表中插入数据5.2.6 删除一行&多行数据5.2.7 获取所...原创 2020-02-23 22:32:52 · 262 阅读 · 0 评论 -
你还不知道HBase?01
文章目录一、HBase概述1.1 HBase的定义1.2 HBase的特点1.3HBase机制原理图1.4 HBase中的角色1.4.3 其他组件二、HBase安装2.1 部署Zookeeper2.2 部署Hadoop2.3 安装部署HBase三、HBase Shell操作四、HBase数据结构4.1 HBase RowKey设计4.2 Column Family4.3 Time Stamp4.4...原创 2020-01-10 14:35:09 · 327 阅读 · 0 评论 -
你要的Hadoop HA详解
文章目录一、HDFS HA1、HA概述2、HDFS-HA工作机制1)HDFS-HA工作要点2)HDFS-HA自动故障转移工作机制3、HDFS-HA集群配置1)环境准备2)规划集群3)配置Zookeeper集群(4)集群操作二、YARN-HA1、YARN-HA工作机制2、配置YARN-HA集群1)环境准备2)规划集群3)具体配置4)启动hdfs一、HDFS HA1、HA概述(1)所谓HA(hi...原创 2020-01-03 21:22:01 · 542 阅读 · 0 评论 -
zookeeper感知服务器节点动态上下线案例
大家好,我是AC,下面是关于zookeeper的一个案例,供练习关于zookeeper,请看上一篇文章文章目录(1)服务器端代码(2)客户端代码1)需求:某分布式系统中,主节点可以有多台,可以动态上下线,任意一台客户端都能实时感知到主节点服务器的上下线2)需求分析3)具体实现:(0)先在集群上创建/servers节点[zk: localhost:2181(CONNECTED) 10...原创 2020-01-03 20:57:43 · 577 阅读 · 0 评论 -
ZooKeeper分布式协调服务组件
大家好今天介绍zookeeper,废话不多说,进入正题文章目录Zookeeper概述1.1 概述1.2 特点1.3 数据结构1.4 应用场景1.5 下载地址Zookeeper安装2.1 分布式安装部署Zookeeper内部原理3.1 选举机制3.2 节点类型3.3 stat结构体3.4 监听器原理3.5 写数据流程(client向zookeeper写入数据)第4章 Zookeeper实战4.1 ...原创 2020-01-03 20:51:35 · 459 阅读 · 0 评论 -
Hadoop案例:网页评价PageRank
首先不说别的,各位新年好昂,都给我暴富!下面还有最后一个hadoop案例,需要更,内容如下:文章目录网页评价PageRank案例1、PageRank是什么2、PR计算逻辑1)算法原理(1)2)算法原理(2)3)算法原理(3)3、使用MR(MapReduce)实现网页评价PageRank案例1、PageRank是什么PageRank是Google提出的算法,用于衡量特定网页相对于搜索引擎索引...原创 2020-01-01 22:11:08 · 534 阅读 · 0 评论 -
Hadoop案例,附代码
文章目录一、气温指数分析案例1、需求2、数据准备3、思路4、代码实现二、好友推荐案例1、需求2、数据准备3、思路4、代码实现一、气温指数分析案例1、需求找出每个月气温最高的2天2、数据准备tianqi.txt1949-10-01 14:21:02 34c1949-10-01 19:21:02 38c1949-10-02 14:01:02 36c1950-01-01 11:21:0...原创 2019-12-30 22:52:30 · 4273 阅读 · 2 评论 -
Hadoop企业优化,你了解吗?
文章目录Hadoop企业优化1、MapReduce跑的慢的原因2、MapReduce优化方法1)数据输入2)Map阶段3)Reduce阶段4)数据倾斜问题常见错误及解决方案Hadoop企业优化1、MapReduce跑的慢的原因MapReduce 程序效率的瓶颈在于两点:计算机性能CPU、内存、磁盘健康、网络I/O 操作优化(1)数据倾斜(2)map和reduce数设置不合理 com...原创 2019-12-30 22:44:36 · 265 阅读 · 0 评论 -
Hadoop-yarn你知道多少?
文章目录Yarn1、Yarn概述2、Yarn基本架构3、Yarn工作机制4、资源调度器Yarn1、Yarn概述Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。2、Yarn基本架构YARN主要由ResourceManager、NodeManager、ApplicationMas...原创 2019-12-30 22:38:15 · 193 阅读 · 0 评论 -
Hadoop-MapReduce(Join关联)
文章目录MapReduce Join关联1、Reduce join(合并)2、Reduce join案例实操3、Map join(合并)4、Map join案例实操MapReduce Join关联1、Reduce join(合并)原理Map端的主要工作:为来自不同表(文件)的key/value对打标签以区别不同来源的记录。然后用连接字段作为key,其余部分和新加的标志作为value,最后进...原创 2019-12-30 22:12:39 · 344 阅读 · 0 评论 -
Hadoop-MapReduce(找博客共同好友实战)
这里是个练习文章目录(1)需求:(2)需求分析:第一次输出结果:第二次输出结果:(3)代码实现:一、第一次Mapper二、第一次Reducer三、第一次Driver四、第二次Mapper五、第二次Reducer六、第二次Driver(1)需求:以下是博客的好友列表数据,冒号前是一个用户,冒号后是该用户的所有好友(数据中的好友关系是单向的)。friends.txtA:B,C,D,F,E,O...原创 2019-12-30 21:50:49 · 342 阅读 · 0 评论 -
Hadoop-MapReduce(数据清洗)
文章目录数据清洗1)简单解析版2)复杂解析版数据清洗在运行核心业务Mapreduce程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清理的过程往往只需要运行mapper程序,不需要运行reduce程序。1)简单解析版(1)需求:去除日志中字段长度小于等于11的日志。(2)输入数据这里简单列举一些,实际工作要比这多很多194.237.142.21 - - [18/Sep...原创 2019-12-30 21:42:27 · 4910 阅读 · 0 评论 -
Hadoop-MR(数据压缩)
文章目录MapReduce数据压缩1)概述2)MR支持的压缩编码3)采用压缩的位置4、压缩/解压缩1)对数据流的压缩和解压缩2)在Map输出端采用压缩MapReduce数据压缩1)概述压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在Hadoop下,尤其是数据规模很大和工作负载密集的情况下,使用数据压缩显得非常重要。在这种情况下,I/O操作和网络数...原创 2019-12-30 21:34:23 · 437 阅读 · 0 评论 -
Hadoop-MapReduce(ReduceTask工作机制)
文章目录ReduceTask工作机制(1)设置ReduceTask并行度(个数)(2)注意(3)实验:测试reducetask多少合适。(4)ReduceTask工作机制ReduceTask工作机制(1)设置ReduceTask并行度(个数)reducetask的并行度同样影响整个job的执行并发度和执行效率,但与maptask的并发数由切片数决定不同,Reducetask数量的决定是可以...原创 2019-12-30 21:16:11 · 289 阅读 · 0 评论 -
Hadoop-MapReduce(Shuffle机制)
内容较多分开来写,这样吸收起来也好些,附有练习可学习,下面Shuffle补充文章目录1、Shuffle机制1)Combiner合并 1、Shuffle机制1)Combiner合并 <b,1> <b,1>==<b,2>(1)combiner是MR程序中Mapper和Reducer之外的一种组件。(2)combiner组件的父类就是Reducer。(3)c...原创 2019-12-30 21:09:12 · 362 阅读 · 0 评论