大数据前篇
文章平均质量分 84
大数据前篇
Radiation_x
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
mapreduce之shuffle详解
FileInputFormat阶段切分的3数据片(也可根据需求生成多个MapTask来处理数据片,能够提高速度)map方法按行读取生成KV对MapTask阶段的Shuffle过程(所有MapTask是并行的)(1) Map方法执行的数据进入环形缓冲区,当数据达到80%时,溢写(2) 溢写到磁盘前对数据进行分区和区内排序 ,调用分区器进行分区(默认是Hash),对key进行排序,默认按字典顺序,采用的手段是快排,就是Collect收集阶段,(3) 溢写到了磁盘(这时只是临时文件,并没有真正落盘,因.原创 2021-01-16 17:47:18 · 427 阅读 · 1 评论 -
大数据前篇04_HDFS详解
HDFSHDFS定义HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的使用场景:适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。HDFS 优缺点优点(1) 高容错性 (a) 数据自动保存多个副本。它通过增加副本的形式,提高容错性 (b) 某一个副本丢失以后,它可以自动恢复(2原创 2021-01-12 21:50:36 · 313 阅读 · 0 评论 -
大数据前篇03_Hadoop入门_环境的搭建_运行模式
Hadoop入门Hadoop的优势: (1)高可靠性 (2)高扩展性 (3)高效性 (4)高容错性Hadoop的组成部分HDFS (数据存储)NameNode 管理真实数据块的元数据的,管理多个DataNode(大哥)DataNode 对真实数据块进行存储管理(小弟)SecondaryNameNode 是NameNode的助手,帮助NameNode完成一些事情MapReduce (数据的计算)Map阶段 就是把一个job分成多个task来并行计算执行Reduce阶段原创 2021-01-12 21:44:34 · 241 阅读 · 0 评论 -
大数据前篇02_shell编程
shell编程bash和sh的关系:sh是通过 指向bash(解释器),bash负责解释shell命令给linux内核shell脚本入门脚本格式 脚本以#!/bin/bash开头(指定解释器)脚本的常用执行方式 (1)采用bash或sh +脚本的相对路径或者结对路径(不用赋予脚本+X权限)sh+脚本的相对路径:[atguigu@hadoop101 datas]$ sh helloworld.sh 输出:Helloworldsh+脚本的绝对路径[atguigu@hadoop10原创 2021-01-12 21:41:20 · 202 阅读 · 0 评论 -
大数据前篇01_linux常见命令
linux常见命令常用指令. ls 显示文件或目录 -l 列出文件详细信息l(list) -a 列出当前目录下所有文件及目录,包括隐藏的a(all). mkdir 创建目录 -p 创建目录,若无父目录,则创建p(parent). cd 切换目录. touch 创建空文件. echo 创建带有内容的文件。. cat 查看文件内容. cp 拷贝.原创 2021-01-12 21:40:36 · 360 阅读 · 0 评论
分享