
Hadoop
文章平均质量分 51
键盘上的轻舞
点滴积累,汇聚成海!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop伪分布式系统搭建、运行和遇到的问题
之前学习Hadoop都是运行的本地模式,现在到了搭建伪分布式系统阶段。理论和实践必须结合进行,看书能看懂是一回事,亲自上手实践又是另一回事,会遇到各种问题。而有些是自身理解和操作错误可能很是棘手。下面一步步来吧! 1.安装Java 要想能够搭建伪分布式系统前提是安装Java(按照自己的电脑是32位还是64对应下载),然后配置环境变量JAVA_HO...原创 2018-12-29 17:10:54 · 1306 阅读 · 0 评论 -
WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform解决方法
测试Hadoop本地模式时出现了这么一个警告!18/12/09 22:07:09 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable no native hadoop libra...原创 2018-12-09 22:39:30 · 5570 阅读 · 2 评论 -
构建Hadoop集群
集群规范 Hadopp运行在商业硬件上。用户可以选择普通硬件供应商生产的标准化的、广泛有效的硬件来构建集群。Hadoop一般使用多核CPU和多磁盘,以充分利用硬件的强大功能。(建议采用ECC内存,因为非ECC内存会产生校验和错误。) 注:为何不使用RAID?尽管建议采用RAID作为namenode的存储器以保护元数据,但是若将RAID作为datanode的存...原创 2018-12-03 21:20:41 · 304 阅读 · 0 评论 -
本地模式测试编写的MapReduce作业程序
MapReduce作业任务过程分为两个处理阶段:map阶段和reduce阶段,每个阶段都以键-值对的形式作为输入和输出。下面分别列出map函数和reduce函数。(reduce的输入必须匹配map的输出。)本例,map阶段采集的是气象数据,依据年份作为key,进行排序,温度值作为value。然后reduce对输入的map数据,从中挑选年份中的最高气温值。(本例使用的是hadoop-2.8.5)...原创 2018-12-12 22:37:38 · 626 阅读 · 0 评论 -
pom.xml详解
什么是POM?POM是项目对象模型(Project Object Model)的简称,它是Maven项目中的文件,使用XML表示,名称叫做pom.xml。作用类似ant的build.xml文件,功能更强大。该文件用于管理:源代码、配置文件、开发者的信息和角色、问题追踪系统、组织信息、项目授权、项目的url、项目的依赖关系等等。事实上,在Maven世界中,project可以什么都没有,甚至没有代...转载 2018-11-28 16:49:06 · 288 阅读 · 0 评论 -
零基础学习hadoop到上手工作线路指导(转载)
网上看到的一篇讲述Hadoop从刚开始学习到上手工作的过程,感觉不错。特此copy下来学习。问题导读:1.hadoop编程需要哪些基础?2.hadoop编程需要注意哪些问题?3.如何创建mapreduce程序及其包含几部分?4.如何远程连接eclipse,可能会遇到什么问题?5.如何编译hadoop源码?阅读此篇文章,需要些基础下面两篇文章零基础学习hadoop到上手工作线路指导(初级篇)...转载 2018-11-28 13:11:10 · 189 阅读 · 0 评论 -
Configuration类的使用(扩充中)
Hadoop中的组件是通过Hadoop自己的配置API来配置的。一个Configuration类的实例代表配置属性及其取值的一个集合。Configuration类可以在org.apache.hadoop.conf包中找到。 每个属性由一个String来命名,而值的类型可以是多种类型之一,包括Java基本类型(如boolean、int、long和float)、其他...原创 2018-11-29 23:16:32 · 986 阅读 · 0 评论 -
Hadoop学习笔记(四)
第五章 Hadoop的I/O操作数据完整性 检测数据是否损坏的常见措施是在数据第一次引入系统时计算检验和并在数据通过一个不可靠的通道进行传输时,再次计算检验和,这样就能发现数据是否损坏。 ⓵HDFS的数据完整性 HDFS会对写入的所有数据计算检验和,并在读取数据时验证检验和。HDFS存储着每个数据块的复本,因此它可以通过数据复本来修复损坏...原创 2018-11-25 23:24:45 · 299 阅读 · 0 评论 -
Hadoop学习笔记(三)
第四章 关于YARNApache YARN(Yet Another Resource Negotiator)是Hadoop的集群资源管理系统。 剖析YARN应用运行机制 YARN通过两类长期运行的守护进程提供自己的核心服务:管理集群上资源使用的资源管理器(resource manager),运行在集群中所有节点上且能够启动和监控容器(container)的节点管理器(n...原创 2018-11-25 22:46:50 · 161 阅读 · 0 评论 -
Hadoop学习笔记(一)
第一章 初识Hadoop 数据!数据! ”大数据胜于好算法。“意思是说对于某些应用,不论算法有多牛,基于小数据的推荐效果往往都不如基于大量可用数据的一般算法的推荐效果。 不仅仅是批处理 名词”Hadoop“有时被用于指代一个更大的、多个项目组成的生态系统,而不仅仅是HDFS和MapReduce。这些项目都属于分布式计算和大规模数据处理范畴。这些项目就包括了:1.第一个...原创 2018-11-19 22:24:55 · 181 阅读 · 0 评论 -
关于SequenceFile.Writer.createWriter()被抛弃的重载方法和替代方法
今天在学习Hadoop的I/O操作时,对于基于文件的数据结构SequenceFile这个类的使用时遇到了一个问题,我是基于Hadoop-2.8.5。其中在调用SequenceFile的createWriter(FileSystem fs,Configuration conf,Path path,Writable key,Writable value)方法和SequenceFile...原创 2018-12-24 23:36:11 · 1709 阅读 · 0 评论