
大数据学习
文章平均质量分 78
acm160920007
这个作者很懒,什么都没留下…
展开
-
大数据学习(一):hadoop伪分布搭建
现在大二结束,大二下学期选修了一门大数据课程,本来是为素拓学分而选的(哈哈),不过数据就留在了大数据实验室开始了大数据学习,好好加油。 我使用的是Ubuntu 18.04环境下搭建Hadoop 2.9.1 ,之前在书上找到了一个网站(厦门大学大数据研究院运营的),网站是: http://dblab.xmu.edu.cn , 其中有一个是讲在ubuntu 14.04 上搭建Hadoop 2.7...转载 2018-07-16 13:47:20 · 284 阅读 · 0 评论 -
大数据学习(四):HDFS 的I/O操作
压缩文件Hadoop 压缩文件有很多方法 通常各个工具提供权衡空间/时间 从 -1 优化压缩速度 ~9 优化压缩空间如通过最快压缩方法 gzip -1 file 最小占用空间 gzip -9 filecodec补充: 在考虑如何将由MapReduce处理的数据时,理解这些压缩格式是否支持切分(splitting) 是非常重要的。不支持切分的压缩格式在用MapReduce...原创 2018-07-23 19:19:32 · 324 阅读 · 0 评论 -
大数据学习(五):在MapReduce中使用压缩
要想压缩MapReduec作业的输出,应在作业配置过程中将mapreduce.output.fileOutputformat.compress属性设置为true,将,apre-duce.output.fileoutputformat.compress.codec属性设置为打算压缩的压缩coec的类名。另一种方案是在FileOutputFormat中使用更便捷的方法设置这些属性。packag...原创 2018-07-23 20:17:15 · 734 阅读 · 0 评论 -
大数据学习(六):序列化
package cn.weida.hadoop.Writable;import java.io.ByteArrayInputStream;import java.io.ByteArrayOutputStream;import java.io.DataInputStream;import java.io.DataOutputStream;import java.io.IOExceptio...原创 2018-07-24 20:20:27 · 781 阅读 · 0 评论 -
大数据学习(二): MapReduce 初步
实现map类有两种方法一 :继承MapReduceBase 实现Mapper接口package cn.weida.hadoop.read;import java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.ap...原创 2018-07-21 10:44:17 · 395 阅读 · 0 评论 -
大数据学习(三) :Java对Hadoop文件操作 初步
通过URL访问hadoop是可行的,如:package cn.weida.hadoop.read;import java.io.IOException;import java.io.InputStream;import java.net.URL;import java.net.URLStreamHandlerFactory;import org.apache.hadoop.fs....原创 2018-07-21 11:50:33 · 738 阅读 · 0 评论 -
MapReduce运行过程略解
1,input --------> 2.map (map包括后面的sort,和combine)------------>3.sort------------------------------------>4.combine ------------------- split ...原创 2018-08-08 11:22:45 · 155 阅读 · 0 评论