
hadoop
文章平均质量分 54
learningcoder
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hadoop 伪分布式安装
在一台主机模拟多主机,Hadoop启动NameNode、DataNode、JobTracker、TaskTracker这些守护进程都在同一台机器上运行,是相互独立的Java进程。这种模式常用来开发测试Hadoop程序的执行是否正确 2.1 修改配置文件 core-site.xml hdfs-site.xml mapred-site.xml yarn-site.xm...原创 2018-09-11 22:29:13 · 372 阅读 · 0 评论 -
Hadoop数据压缩
文件压缩有两个好处 1.减少存储文件的所需的磁盘空间 2.加少数据在网络和磁盘上的传输 在hadoop中文件压缩方式有很多种,各有千秋 压缩要权衡空间和时间两个维度,虽然减少了空间,但增加了cpu的使用率 gzip是个通用的压缩工具,在空间和时间性能上居中,后面有案例测试。 Codec是压缩-解压缩算法的一种实现 举例测试 将指定文件调用hadoop压缩方...原创 2018-09-21 00:16:34 · 713 阅读 · 0 评论 -
MapReduce二次排序
默认情况下,Map输出的结果会对Key进行默认的排序,但个别需求要求对Key排序的同时还需要对Value进行排序 这时候就要用到二次排序了。 本章以hadoop权威指南中计算每年最大气温值为例,原始数据杂乱无章 2008 33 2008 23 2008 43 2008 24 2008 25 2008 33 2008 13 2008 22 2008 33 2008 33 2009 23 2009...原创 2018-09-29 00:43:55 · 165 阅读 · 0 评论 -
HBASE 1.2.7 完全分布式安装
0.前提 安装jdk 安装hadoop 1.下载HBASE 1.2.7 http://mirror.bit.edu.cn/apache/hbase/ 2.解压 $>tar -zxvf hbase-2.1.0-bin.tar.gz apps/ 创建软连接 $>ln -s hbase-1.2.7 hbase 3.配置环境变量 $>sudo vi /etc/pro...原创 2018-10-19 00:07:14 · 516 阅读 · 0 评论