
hadoop读书笔记
有逼格d伊凡
我是伊凡,今天是2015年12月2号,我开通的优快云博客,我的博客主要围绕JAVA技术,并拓展其运用的工具相关技术,未来的时间请大家一起见证我的成长
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
第一章 初识hadoop
容量的单位 顺序:从小到大 1024 MB->GB->TB->PB->EB->ZB->YB 名言:大数据胜于好算法 大数据真实需求案例:邮件公司日志,每月运行一个mapreduce,任务帮助公司决定在哪些Rackspace数据中心需要添加新的服务器 硬盘操作的延迟主要受两方面影响: 1、寻址时间:将磁头移动到特定的硬盘位置进行读写操作的过程 2、传输速率原创 2017-07-14 15:28:01 · 397 阅读 · 0 评论 -
第二章 关于MapReduce
Unix传统处理按行存储数据工具是awk MapReduce任务分为两个处理阶段:Map阶段和Reduce阶段。每个阶段都以键值对作为输入和输出,其类型有程序员来选择。程序员还需要些两个函数:map函数和reduce函数 map阶段为数据的准备阶段,此处我们比较合适去除去已损记录的地方,比如筛选缺失,可疑,错误的数据 防止覆盖的一个思路: reduce写入目录。在运行作业前该目录是如果存在原创 2017-07-14 16:10:47 · 428 阅读 · 0 评论 -
第三章 Hadoop分布式文件系统
Hadoop是一个综合性的文件系统抽象,可以集成不同的文件系统(如本地文件系统和Amazon S3系统) HDFS的设计 HDFS以流式数据访问模式来存储超大文件,运行于商用的硬件集群上 1、超大文件。目前已有PB级数据的Hadoop集群了 2、流式数据访问。一次写入,多次读写。长时间在数据集上各种分析每次分析都将涉及数据集的大部分或者全部。强调读取整个数据集的时间 3、商用硬件原创 2017-07-17 09:39:09 · 374 阅读 · 0 评论