
大数据开发技术
假装很坏的谦谦君
计算机专业在读
展开
-
MappeReduce简介和使用MapReduce进行WordCount操作方法介绍
1 MapReduce概述 官方网站上的定义:Hadoop MapReduce是一个软件框架(分布式计算框架),目的是为了在廉价机器组成的大集群(几千个节点)上以可靠,容错的方式,比较容易的编写处理海量数据(TB量级数据集)的并行程序。 源自于谷歌的MapReduce论文,发表于2004年12月 Hadoop MapReduce 是Google MapReduce的克隆版 MapReduce的优点:(1)海量数据的离线处理(2)容易开发(3)容易运行。 MapReduce的缺点:实时流式计算 2 Map原创 2020-10-24 22:10:40 · 946 阅读 · 0 评论 -
Hadoop HDFS API 编程开发(使用Java)
本篇博客介绍使用Java API操作HDFS的方法。为本人的学习笔记。 学习参考视频教程:https://coding.imooc.com/class/301.html 方法 我们想要使用Java 来操作HDFS,就要先连接到HDFS文件系统,好在Hadoop 已经有了官方的jar包可以直接使用里面的类和方法。使用下面的定义的方法要首先创建一个maven项目,导入hadoop的依赖和junit的依赖。在pom.xml文件中的<dependencies>标签下增加下面的内容: <depe.原创 2020-10-19 11:09:06 · 823 阅读 · 0 评论 -
大数据开发 HDFS 入门
Hadoop安装目录详解以及环境配置 下载Hadoop安装包到本地,解压到安装目录,添加Hadoop安装文件路径到系统“HADOOP_HOME”环境变量,然后添加$HADOOP_HOME/bin 到系统环境变量。 Hadoop 软件包常见目录说明: bin目录:Hadoop客户端命令所在的目录 etc目录:很多文件夹,最重要的是hadoop文件夹,里面有所有的hadoop相关配置文件。 sbin目录:一些脚本,这些脚本用于启动hadoop相关进程。 share目录:常用例子 Hadoop环境配置: h原创 2020-10-14 18:21:54 · 531 阅读 · 0 评论