
hadoop
吴冬冬
此处省略300字
展开
-
intellij IDEA下远程调试hadoop
转载请注明出处,来源地址:http://blog.youkuaiyun.com/lastsweetop/article/details/89645201.前言Google I/O 2013开发者大会上被android studio震撼,没想到intellij IDEA变的如此强大,我一直是eclipse的忠实粉丝,但已经为intellij IDEA折服,果断下载安装调试,确实很给力,但居然没有hadoop插件原创 2013-05-23 12:30:22 · 28346 阅读 · 12 评论 -
hadoop深入研究:(十)——序列化与Writable接口
序列化和反序列化就是结构化对象和字节流之间的转换,主要用在内部进程的通讯和持久化存储方面。hadoop自身的序列化存储格式就是实现了Writable接口的类,他只实现了前面两点,压缩和快速。但是不容易扩展,也不跨语言。原创 2013-07-05 01:41:44 · 16246 阅读 · 2 评论 -
hadoop深入研究:(十一)——序列化与Writable实现
转载请写明来源地址:所有源码在github上,https://github.com/lastsweetop/styhadoop简介在hadoop中,Writable的实现类是个庞大的家族,我们在这里简单的介绍一下常用来做序列化的一部分。java原生类型除char类型以外,所有的原生类型都有对应的Writable类,并且通过get和set方法可以他们的值。IntWritable和LongWritab原创 2013-07-17 12:03:30 · 17929 阅读 · 2 评论 -
hadoop深入研究:(十二)——自定义Writable
hadoop虽然已经实现了一些非常有用的Writable,而且你可以使用他们的组合做很多事情,但是如果你想构造一些更加复杂的结果,你可以自定义Writable来达到你的目的,我们以注释的方式对自定义Writable进行讲解(不许说我只帖代码占篇幅哦,姿势写在注释里了)原创 2013-07-18 19:19:32 · 18069 阅读 · 12 评论 -
hadoop深入研究:(十三)——序列化框架
转载请写明来源地址:http://blog.youkuaiyun.com/lastsweetop/article/details/9360075所有源码在github上,https://github.com/lastsweetop/styhadoop框架简介MapReduce仅仅可以支持Writable做key,value吗?答案是否定的。事实上,一切类型都是支持的,只需满足一个小小的条件:每个类型是以二进制原创 2013-07-22 21:36:44 · 9066 阅读 · 1 评论 -
hadoop深入研究:(十四)——Avro简介
转载请写明来源地址:所有源码在github上,https://github.com/lastsweetop/styhadoop原创 2013-07-30 11:58:33 · 10044 阅读 · 0 评论 -
hadoop深入研究:(十五)——Avro Schemas
转载请写明来源地址:http://blog.youkuaiyun.com/lastsweetop/article/details/9448961所有源码在github上,https://github.com/lastsweetop/styhadoop原创 2013-08-05 19:39:39 · 8681 阅读 · 0 评论 -
hadoop深入研究:(十六)——Avro序列化与反序列化
转载请写明来源地址:http://blog.youkuaiyun.com/lastsweetop/article/details/9664233所有源码在github上,https://github.com/lastsweetop/styhadoop原创 2013-08-06 15:33:31 · 23042 阅读 · 1 评论 -
hadoop深入研究:(十七)——Avro Datafile
转载请写明来源地址:http://blog.youkuaiyun.com/lastsweetop/article/details/9773233所有源码在github上,https://github.com/lastsweetop/styhadoop原创 2013-08-09 16:48:18 · 9317 阅读 · 1 评论 -
hadoop深入研究:(九)——mapreduce中的压缩
转载请注明出处:http://blog.youkuaiyun.com/lastsweetop/article/details/9187721作为输入 当压缩文件做为mapreduce的输入时,mapreduce将自动通过扩展名找到相应的codec对其解压。作为输出 当mapreduce的输出文件需要压缩时,可以更改mapred.output.compress为true,mapped.output.compre原创 2013-06-28 09:20:46 · 16192 阅读 · 2 评论 -
hadoop深入研究:(八)——codec
转载请注明出处:http://blog.youkuaiyun.com/lastsweetop/article/details/9173061所有源码在github上,https://github.com/lastsweetop/styhadoop简介codec其实就是coder和decoder两个单词的词头组成的缩略词。CompressionCodec定义了压缩和解压接口,我们这里讲的codec就是实现了Co原创 2013-06-27 12:09:23 · 12340 阅读 · 1 评论 -
hadoop深入研究:(七)——压缩
转载请标明出处:hadoop深入研究:(七)——压缩文件压缩主要有两个好处,一是减少了存储文件所占空间,另一个就是为数据传输提速。在hadoop大数据的背景下,这两点尤为重要,那么我现在就先来了解下hadoop中的文件压缩。hadoop里支持很多种压缩格式,我们看一个表格:DEFLATE是同时使用了LZ77算法与哈夫曼编码(Huffman Coding)的一个无损数据压缩算法,源代码可以在zlib原创 2013-06-24 16:27:32 · 12760 阅读 · 1 评论 -
win7下hadoop安装配置注意事项
在win7下安装hadoop和其他windows平台有很多不同,通用的步骤就不重复了,把遇到的问题总结一下给大家参考,以免走弯路。 说起来很简单只需要注意几步,千万不要按教程来。1.chown SYSTEM.None empty 2.*** Query: Should privilege separation be used? (yes/no) yes这个一定要选yes,各种教程上都说no。原创 2012-11-05 12:29:44 · 12917 阅读 · 3 评论 -
hadoop深入研究:(一)——hdfs介绍
转载请注明出处:http://blog.youkuaiyun.com/lastsweetop/article/details/8992505hdfs设计原则1.非常大的文件:这里的非常大是指几百MB,GB,TB.雅虎的hadoop集群已经可以存储PB级别的数据2.流式数据访问:基于一次写,多次读。3.商用硬件: hdfs的高可用是用软件来解决,因此不需要昂贵的硬件来保障高可用性,各个生产商售卖的p原创 2013-05-31 15:31:20 · 14667 阅读 · 9 评论 -
hadoop深入研究:(二)——java访问hdfs
转载请注明出处,http://blog.youkuaiyun.com/lastsweetop/article/details/9001467所有源码在github上,https://github.com/lastsweetop/styhadoop读数据使用hadoop url读取比较简单的读取hdfs数据的方法就是通过java.net.URL打开一个流,不过在这之前先要预先调用它的setURLStreamHa原创 2013-06-03 21:28:09 · 19132 阅读 · 4 评论 -
hadoop深入研究:(三)——hdfs数据流
以下几个小节并补独立,都是相辅相成的,要结合来看,你就会发现很多有趣的地方。转载请注明来源地址:http://blog.youkuaiyun.com/lastsweetop/article/details/90656671.拓扑距离这里简单讲下hadoop的网络拓扑距离的计算在大数量的情景中,带宽是稀缺资源,如何充分利用带宽,完美的计算代价开销以及限制因素都太多。hadoop给出了这样的解决方案:计算两个节点原创 2013-06-12 17:38:20 · 14479 阅读 · 11 评论 -
hadoop深入研究:(四)——distcp
转载请注明出处:http://blog.youkuaiyun.com/lastsweetop/article/details/9086695 我们前几篇文章讲的都是单线程的操作,如果要并行拷贝很多文件,hadoop提供了一个小工具distcp,最常见的用法就是在两个hadoop集群间拷贝文件,帮助文档很详尽,这里就不一一解释了,开发环境没有两个集群,用同一集群演示:hadoop distcp hdfs://n原创 2013-06-18 17:46:13 · 15321 阅读 · 2 评论 -
hadoop深入研究:(五)——Archives
转载请注明来源地址:http://blog.youkuaiyun.com/lastsweetop/article/details/9123155简介我们在hadoop深入研究:(一)——hdfs介绍里已讲过,hdfs并不擅长存储小文件,因为每个文件最少一个block,每个block的元数据都会在namenode节点占用内存,如果存在这样大量的小文件,它们会吃掉namenode节点的大量内存。hadoop Ar原创 2013-06-21 17:16:32 · 12783 阅读 · 6 评论 -
hadoop深入研究:(六)——HDFS数据完整性
转载请注明出处:hadoop深入研究:(六)——HDFS数据完整性数据完整性 IO操作过程中难免会出现数据丢失或脏数据,数据传输得量越大出错得几率越高。校验错误最常用得办法就是传输前计算一个校验和,传输后计算一个校验和,两个校验和如果不相同就说明数据存在错误,比较常用得错误校验码是CRC32.hdfs数据完整性 hdfs写入的时候计算出校验和,然后每次读的时候再计算校验和。要注意的一点是,hdfs原创 2013-06-24 11:52:03 · 13568 阅读 · 3 评论 -
hadoop深入研究:(十八)——Avro schema兼容
转载请写明来源地址:http://blog.youkuaiyun.com/lastsweetop/article/details/9817999所有源码在github上,https://github.com/lastsweetop/styhadoop原创 2013-08-23 15:19:38 · 10933 阅读 · 0 评论