
hadoop
文章平均质量分 80
NM_IT
it爱好者
展开
-
Hadoop RPC详细分析
1. 总体结构HadoopRPC逻辑上分成三部分,如上图所示。1.1. RPC InterfaceRPC对外接口。1.2. RPC ServerRPC服务端的实现。1.3. RPC ClientRPC客户端的实现。1.4. RPC InterfaceRPC是对外的接口类,主要提供两个方法:getProxy和getSer原创 2014-06-19 09:27:59 · 727 阅读 · 0 评论 -
hadoop 巧用MapReduce+HDFS,海量数据去重的五大策略
摘要:随着收集到数据体积的激增,去重无疑成为众多大数据玩家面对的问题之一。重复数据删除在减少存储、降低网络带宽方面有着显著的优势,并对扩展性有所帮助。在存储架构中,删除重复数据的常用方法包括哈希、二进制比较和增量差分;而本文专注的是使用MapReduce和HDFS对数据进行去重。随着存储数据信息量的飞速增长,越来越多的人开始关注存储数据的缩减方法。数据压缩、单实例存储和重复数据删除等都转载 2014-06-18 18:44:19 · 959 阅读 · 0 评论 -
Windows下安装Hadoop
公司项目计划用Hadoop,现在需要用Eclipse在Windows下开发,在网上找文章,终于在单机安装成功。台式机i5-2400 3.1G,2G内存,操作系统Win7,JDK1.6.31,推荐学习这篇文章。1.下载Cygwin,运行Setup.exe,记得安装Sed、Openssh、Openssl,安装目录为d:\cygwin。2.安装JDK,设置Windows环境变量,添加JAVA原创 2014-06-19 15:26:25 · 529 阅读 · 0 评论 -
Hadoop集群安装设置
公司一个项目涉及到云计算,通过学习了解计划采用Hadoop,在网上找文章学习,开始做Hadoop集群安装。安装3个虚拟机,安装Ubuntu Linux 11.10版本,设置为单CPU,512M内存,20GB硬盘,ip:分别为192.168.1.16、17、22,16做NameNode和JobTracker,17、22做DataNode。1.建立pc01用户,密码为6个1。2.恢复roo原创 2014-06-19 15:27:20 · 576 阅读 · 0 评论