大数据学习
文章平均质量分 78
acm160920007
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据学习(一):hadoop伪分布搭建
现在大二结束,大二下学期选修了一门大数据课程,本来是为素拓学分而选的(哈哈),不过数据就留在了大数据实验室开始了大数据学习,好好加油。 我使用的是Ubuntu 18.04环境下搭建Hadoop 2.9.1 ,之前在书上找到了一个网站(厦门大学大数据研究院运营的),网站是: http://dblab.xmu.edu.cn , 其中有一个是讲在ubuntu 14.04 上搭建Hadoop 2.7...转载 2018-07-16 13:47:20 · 307 阅读 · 0 评论 -
大数据学习(四):HDFS 的I/O操作
压缩文件 Hadoop 压缩文件有很多方法 通常各个工具提供权衡空间/时间 从 -1 优化压缩速度 ~9 优化压缩空间 如通过最快压缩方法 gzip -1 file 最小占用空间 gzip -9 file codec 补充: 在考虑如何将由MapReduce处理的数据时,理解这些压缩格式是否支持切分(splitting) 是非常重要的。 不支持切分的压缩格式在用MapReduce...原创 2018-07-23 19:19:32 · 346 阅读 · 0 评论 -
大数据学习(五):在MapReduce中使用压缩
要想压缩MapReduec作业的输出,应在作业配置过程中将mapreduce.output.fileOutputformat.compress属性设置为true,将,apre-duce.output.fileoutputformat.compress.codec属性设置为打算压缩的压缩coec的类名。 另一种方案是在FileOutputFormat中使用更便捷的方法设置这些属性。 packag...原创 2018-07-23 20:17:15 · 765 阅读 · 0 评论 -
大数据学习(六):序列化
package cn.weida.hadoop.Writable; import java.io.ByteArrayInputStream; import java.io.ByteArrayOutputStream; import java.io.DataInputStream; import java.io.DataOutputStream; import java.io.IOExceptio...原创 2018-07-24 20:20:27 · 804 阅读 · 0 评论 -
大数据学习(二): MapReduce 初步
实现map类有两种方法 一 :继承MapReduceBase 实现Mapper接口 package cn.weida.hadoop.read; import java.io.IOException; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.ap...原创 2018-07-21 10:44:17 · 422 阅读 · 0 评论 -
大数据学习(三) :Java对Hadoop文件操作 初步
通过URL访问hadoop是可行的,如: package cn.weida.hadoop.read; import java.io.IOException; import java.io.InputStream; import java.net.URL; import java.net.URLStreamHandlerFactory; import org.apache.hadoop.fs....原创 2018-07-21 11:50:33 · 775 阅读 · 0 评论 -
MapReduce运行过程略解
1,input --------> 2.map (map包括后面的sort,和combine)------------>3.sort------------------------------------>4.combine ------------------- split ...原创 2018-08-08 11:22:45 · 181 阅读 · 0 评论
分享