
大数据
大数据相关技术
RyeWhiskey_50°
只有上帝知道谁在努力,谁值得回报。上帝不会总是睡着的
展开
-
MapReduce学习笔记和总结(六)— 分组组件
目录MapReduce中的分组1 默认分组2 自定义分组3 可能存在的问题4 总结MapReduce中的分组分组组件是Map端至Reduce端过程中的一部分,即:Map -----> 分组组件 ------> Reduce;1 默认分组默认情况下:Reduce端接收到的数据是按照map输出的key进行分组;分组时,Key相同的为一组;Key中的对...原创 2020-02-13 15:16:25 · 469 阅读 · 0 评论 -
MapReduce学习笔记和总结(五)— 排序
MapReduce中的排序1 默认排序在mapTask到reduceTask之间,框架默认的添加了排序功能。默认的排序规则是:按照map端输出的key的字典序排序(升序)。比如:想将WordCount中词频出现的次数,按由低到高进行排序;就可以将词频字段放在map输出的key的位置上,就可以实现按词频排序。2 按自定义的类实现排序MapReduce也支持按照自定义的类实现排...原创 2020-02-13 12:00:10 · 426 阅读 · 0 评论 -
MapReduce学习笔记和总结(四)— Combiner组件
目录MapReduce中的Combiner组件1 Combiner组件的作用2 定义Combiner组件3 什么时候可以使用Combiner组件?MapReduce中的Combiner组件由于map的并行度与split(切片)相关,与数据有关。数据越大,mapTask的并行度就越大,而且map的实质就是将一行数据拆分,然后打个标记。这就导致所有数据的计算任务,都在reduc...原创 2020-02-12 21:31:24 · 825 阅读 · 0 评论 -
MapReduce学习笔记和总结(三)— mapTask & reduceTask
目录MapReduce运行时的mapTask和reduceTask1 mapTask任务1.1 mapTask & mapTask并行度1.2 如何修改mapTask并行度2 reduceTask任务2.1 reduceTask & reduceTask并行度2.2 如何设置reduceTask的并行度2.3 数据倾斜问题MapReduce运行时...原创 2020-02-12 18:30:17 · 1667 阅读 · 0 评论 -
MapReduce学习笔记和总结(二)— MapReduce代码的运行
MapReduce代码的运行1.1 MR代码运行的方式一般常用的有两种方式:(1)将代码打成Jar包,提交到Hadoop集群中运行;该方法适用于真实生产环境,但不便于代码的调试和修改。Jar包通过Hadoop jar 指令运行,具体指令为:Hadoop jarJar包名称 驱动类的全路径名 代码运行时需要的参数(读取文件和输出文件的路径)(2)通过IDE连接HDFS,并在...原创 2020-02-12 12:53:56 · 518 阅读 · 0 评论 -
MapReduce学习笔记和总结(一)
目录第一章 MapReduce1.1 用Java写一个WordCount(单词统计)程序1.1.1 统计一个文件中,每个单词出现的次数1.1.2 统计多个文件中,每个单词出现的总次数1.2 用MapReduce框架编写WordCount1.2.1 继承Mapper类(Map)1.2.2 继承Reducer类(Reduce端)1.2.3 驱动类(代码提交类)1.3...原创 2020-02-08 15:26:40 · 770 阅读 · 0 评论 -
Hadoop学习笔记和总结(八)
目录第八章 HDFS中元数据的管理8.1 元数据8.1.1 什么是元数据?8.1.2 元数据存储在哪里?8.2 元数据的写入机制8.3 合并(CheckPoint)8.3.1 元数据合并前8.3.2 元数据合并(CheckPoint)8.4 总结集群中各节点的作用8.4.1 NameNode的作用8.4.2SecondaryNameNode的作用8...原创 2020-01-27 14:41:40 · 1128 阅读 · 1 评论 -
Hadoop学习笔记和总结(七)
目录第七章HDFS的四个机制与两个核心功能7.1 HDFS 机制7.1.1 心跳机制7.1.2 安全模式7.1.3 机架策略7.1.4 负载均衡7.2 HDFS文件上传流程7.3HDFS文件下载流程第七章HDFS的四个机制与两个核心功能HDFS提供的是高容错性的分布式数据存储方案,其包括四个主要的机制:(1)心跳机制(2)安全模式(3)机架策略(...原创 2020-01-20 20:04:55 · 380 阅读 · 0 评论 -
Hadoop学习笔记和总结(六)
目录第六章 HDFS的命令操作6.1 HDFS命令方式6.1.1 HDFS常用指令6.1.2 其他命令6.2 Java API的方式(HDFS的API)6.2.1 导入Jar包6.2.2 使用Java API6.2.3 HDFS中常用的API6.2.4 I/O流操作HDFS第六章 HDFS的命令操作HDFS实质就是一个文件系统,有两种操作方式:HDFS命...原创 2020-01-15 23:11:46 · 579 阅读 · 0 评论 -
Hadoop学习笔记和总结(五)
目录第五章 Hadoop的设计思想5.1 HDFS和HDFS设计思想5.1.1 分而治之5.1.2 备份机制5.2HDFS的整体架构5.2.1 主节点(NameNode)5.2.2 从节点(DataNode)5.2.3 冷备份节点(SecondaryNameNode)5.3HDFS的优缺点第五章 Hadoop的设计思想上一章提到过,Hadoop由Co...原创 2020-01-01 20:20:21 · 556 阅读 · 0 评论 -
Hadoop学习笔记和总结(四)
目录第四章 Hadoop的四种模式4.1 伪分布式4.2 完全分布式4.3 高可用集群4.4 联邦机制第四章 Hadoop的四种模式无论是哪种模式,都需要先搭建Hadoop环境。推荐一个搭建教程,本人也是通过该方法搭建成功的。链接:4.1 伪分布式该模式通常用于个人的学习,非生产环境。不多叙述,了解即可。。。4.2 完全分布式架构:一个主节点多个从节...原创 2020-01-01 14:31:56 · 476 阅读 · 0 评论 -
Hadoop学习笔记和总结(三)
第三章Hadoop模块介绍3.1 什么是Hadoop?Hadoop是一个分布式开源框架,支持成千上万个节点,每个节点依靠本地计算和存储。并且允许硬件出现一些问题,即容错(俗称:将硬件产生的相关错误视为常态)。Hadoop包括4个模块:(1)Common:为其他三个模块提供工具类,以及一个RPC通讯框架(2)HDFS:分布式文件系统,负责海量数据的存储。 分布...原创 2020-01-01 10:50:12 · 279 阅读 · 0 评论 -
Hadoop学习笔记和总结(二)
第二章 Hadoop与Hadoop相关的常用概念2.1 常用概念(1)集群多个机器共同协作完成同一个任务,其中每一个机器叫做节点,多个机器共同组成的群体叫做集群。(2)分布式其核心思想是“分而治之”,即:一个任务被分成多个子任务或模块,每个子任务运行在不同的节点上。常见的分布式的系统:分布式文件系统、分布式数据库、分布式计算系统。(3)负载均衡每个节点分配到的任务基...原创 2020-01-01 09:55:06 · 237 阅读 · 0 评论 -
Hadoop学习笔记和总结(一)
第一章 什么是大数据1.1 数据与大数据百度百科中对数据的定义是:数据就是数值,也就是我们通过观察、实验或计算得出的结果。数据有很多种,最简单的就是数字。数据也可以是文字、图像、声音等。数据可以用于科学研究、设计、查证等。大数据:即海量数据,数据量特别大的数据。大数据的特点:(1) 数据量大:能达到TB、PB级别。(1TB = 1024GB,1PB = 1024TB)(2)...原创 2020-01-01 09:18:55 · 417 阅读 · 0 评论