
hadoop
Imflash
分享知识,分享快乐
展开
-
Linux(CentOS)上的分布式Hadoop安装搭建(hadoop2.7.7为例)
Linux(CentOS)上的Hadoop安装注意:执行以下步骤我们都用非root账号,不要问为什么不用root账号,我拒绝回答-。-,非root账号是没有在根目录/下rwx的权限的,那么怎么用他执行我们需要的命令呢,在每条命令前加上sudo;当然友情提示如果你是在装CentOS时,创建的非root账号,勾上管理员权限的小勾就可以使用sudo -f 文件名但是如果你是自己用命令新...原创 2019-08-10 22:27:32 · 308 阅读 · 2 评论 -
倒排索引的MapReduce实现
倒排索引参考链接:https://blog.youkuaiyun.com/Xw_Classmate/article/details/50639848“ 倒排索引”是文档检索系统中最常用的数据结构,被广泛地应用于全文搜索引擎。 它主要是用来存储某个单词(或词组) 在一个文档或一组文档中的存储位置的映射,即提 供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容,而是进 行相反的操作,...转载 2019-09-11 19:32:45 · 5536 阅读 · 0 评论 -
MapReduce自定义输出输入及求TopN
##1. 自定义InputFormat合并小文件1.1 需求无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决方案1.2 分析小文件的优化无非以下几种方式:1、 在数据采集的时候,就将小文件或小批数据合成大文件再上传HDFS2、 在业务处理之前,在HDFS上使用mapreduce程序对小文件进行合并3、 在mapr...原创 2019-09-11 19:28:32 · 216 阅读 · 0 评论 -
MapReduce的运行机制及共同好友
##1 .MapReduce的运行机制详解[外链图片转存失败(img-vbbvIP4V-1567901900314)(assets/1566522660010.png)][外链图片转存失败(img-AflgAVnU-1567901900315)(assets/1566522552617.png)][外链图片转存失败(img-VK61Behh-1567901900315)(assets/156...原创 2019-09-11 19:25:38 · 361 阅读 · 0 评论 -
MapReduce自定义比较器与规约
MapReduce 排序和序列化默认排序(快排和归并排序),如果是字母,按字典排序,默认对k2排序Serialization,比较臃肿,是为了反序列化–将原来的对象恢复回来(即对象唯一不变)序列化 (Serialization) 是指把结构化对象转化为字节流反序列化 (Deserialization) 是序列化的逆过程. 把字节流转为结构化对象. 当要在进程间传递对象或持久...原创 2019-09-11 19:17:28 · 250 阅读 · 0 评论 -
MapReduce自定义k、分区和计数器
1.入门案例-WordCount需求: 在一堆给定的文本文件中统计输出每一个单词出现的总次数1. 数据格式准备创建一个新的文件cd /export/serversvim wordcount.txt向其中放入以下内容并保存hello,world,hadoophive,sqoop,flume,hellokitty,tom,jerry,worldhadoop上传到...原创 2019-09-11 19:14:22 · 371 阅读 · 0 评论 -
Mapreduce介绍及自定义分区与排序
Hadoop-Mapreduce1. MapReduce 介绍MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。Reduce负责“合”,即...原创 2019-09-10 23:23:06 · 513 阅读 · 0 评论 -
HDFS概述(下)
Hadoop 核心-HDFS##1:HDFS 的 API 操作###1.1 配置Windows下Hadoop环境在windows系统需要配置hadoop运行环境,否则直接运行代码会出现以下问题:缺少winutils.exeCould not locate executable null \bin\winutils.exe in the hadoop binaries 缺少hadoop...原创 2019-09-10 23:16:26 · 185 阅读 · 0 评论 -
HDFS概述(上)
Hadoop 核心-HDFS1. HDFS概述1.1 介绍 在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统 。 HDFS(Hadoop Distributed File System)是 Apache Hadoop 项目的一个子项目. Hadoop 非常适于存储大型数据 (比如 TB 和 PB), 其就是使用 H...原创 2019-09-10 23:11:52 · 354 阅读 · 0 评论 -
Hadoop安装之zookeeper命令
Hadoop安装及zookeeper命令一、zookeeper命令及API1.zookeeper的数据模型ZooKeeper 的数据模型,在结构上和标准文件系统的非常相似,拥有一个层次的命名空间,都是采用树形层次结构.[外链图片转存失败(img-LARkYolr-1567901432318)(assets/wps27.png)]ZooKeeper 树中的每个节点被称为—个Znode...原创 2019-09-10 23:02:42 · 599 阅读 · 0 评论 -
Hadoop环境搭建之zookeeper安装
Hadoop环境搭建一、预备知识1.大数据导论1.1 大数据概念大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB...原创 2019-09-08 09:51:29 · 1446 阅读 · 0 评论 -
Hadoop简单集群搭建(适合初学者学习)
一、Linux环境搭建1.注意事项1.1 确认VmWare服务已启动1.2 确认VmWare网关地址1.3 确认宿主机IP地址和DNS2.复制虚拟机2.1 虚拟机拷贝将虚拟机文件夹复制三份,并分别重命名, 并使用VM打开重命名2.2设置三台虚拟机内存需要三台虚拟机, 并且需要同时运行, 所以总体上的占用为: 每台虚拟机内存×3每台虚拟机内存 \times 3...原创 2019-08-16 21:10:04 · 1931 阅读 · 0 评论 -
求共同好友和好友推荐系统
以下是qq的好友列表数据,冒号前是一个用户,冒号后是该用户的所有好友(数据中的好友关系是单向的)A:B,C,D,F,E,OB:A,C,E,KC:A,B,D,E,I D:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J从下图中...原创 2019-08-23 23:27:26 · 1048 阅读 · 0 评论 -
Yarn介绍及调度器
yarn资源调度1.yarn的介绍: yarn是hadoop集群当中的资源管理系统模块,从hadoop2.0开始引入yarn模块,yarn可为各类计算框架提供资源的管理和调度,主要用于管理集群当中的资源(主要是服务器的各种硬件资源,包括CPU,内存,磁盘,网络IO等)以及调度运行在yarn上面的各种任务。yarn核心出发点是为了分离资源管理与作业监控,实现分离的做法是拥有一个全局的资源管理...原创 2019-09-11 19:59:02 · 298 阅读 · 0 评论