Hadoop
李润泽
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Zookeeper(一)Zookeeper是什么?
一、Zookeeper产生背景当今是个分布式、集群、云计算等名词满天飞的时代。造成这种局面的一个重要因素就是,单一机器的处理能力已经不能满足我们的需求,不得不采用由多台机器组成的服务集群。服务集群对外提供服务的过程中,可以分解处理压力,在一定程度上打破性能瓶颈,并提高服务的可用性(不会因为一台机器宕机而造成服务不可用)。上图中有三台机器,每台机器跑同样的一个应用程序。然后我们将这三台机转载 2017-07-28 20:13:08 · 614 阅读 · 0 评论 -
使用Sqoop将Hive结果迁移至Mysql(四)
使用Sqoop将结果进行数据迁移,存放在mysql中。1. 用Sqoop创建link和jobpackage com.yc.elm.utils;import org.apache.sqoop.client.SqoopClient;import org.apache.sqoop.model.MDriverConfig;import org.apache.sqoop.model.MFro原创 2017-09-05 14:56:40 · 813 阅读 · 0 评论 -
Zookeeper(五)集群管理
在一台机器上运营一个Zookeeper实例称之为单机模式(Standalone)。单机模式的缺陷是一旦唯一的实例挂掉了,依赖Zookeeper的应用就都用不了了。在实际应用中,一般都是采用集群模式来部署Zookeeper,集群中的server为奇数(2n+1)。只要集群中的多数(大于n+1台)Server活着,集群就能对外提供服务。在每台机器上部署一个Zookeeper实例,多台机器组成集原创 2017-08-02 09:26:57 · 722 阅读 · 0 评论 -
Hadoop2.7.3 mapreduce(二)类型匹配异常解决方案及源码分析
我们在运行mapreduce时,有时候会出现类型匹配异常。java.lang.Exception: java.io.IOException: Type mismatch in key from map: expected org.apache.hadoop.io.LongWritable, received org.apache.hadoop.io.Text at org.apache.ha原创 2017-07-16 17:04:30 · 1530 阅读 · 0 评论 -
Hadoop2.7.3 mapreduce(三)SequenceFile和MapFile 简介与应用
Hadoop的 hdfs 和 mapreduce 子框架主要是针对大数据文件设计的,在小文件的处理上不但效率低下,而且十分消耗磁盘空间(每一个小文件占用一个Block , hdfs默认block大小为128M)。因此,hadoop提供给我们SequenceFile和MapFile两种容器处理小文件,将这些小文件组织起来统一存储。【SequenceFile】1、SequenceFile概原创 2017-07-19 10:08:30 · 839 阅读 · 0 评论 -
Hadoop2.7.3 mapreduce(一)原理及"hello world"实例
MapReduce编程模型【1】先对输入的信息进行切片处理。【2】每个map函数对所划分的数据并行处理,产生不同的中间结果输出。【3】对map的中间结果数据进行收集整理(aggregate & shuffle)处理,交给reduce。【4】reduce进行计算最终结果。【5】汇总所有reduce的输出结果。【名词解释】ResourceManage原创 2017-07-16 15:33:58 · 2417 阅读 · 0 评论 -
在Linux下搭建Hadoop分布式集群
【设置网络连接】首先我们要设置虚拟机NAT方式(自动分配IP地址)连接外网进行更新源的操作(具体操作见:)【安装Mysql】sudo apt install mysql-server验证是否安装成功mysql -uroot -pashow databases;exit【创建jar包存放目录】mkdir softwarecd ~/software【上传j原创 2017-07-11 20:51:50 · 715 阅读 · 1 评论 -
Zookeeper(四)配置与命令
4.1 配置文件ZooKeeper安装好之后,在安装目录的conf文件夹下可以找到一个名为“zoo_sample.cfg”的文件,是ZooKeeper配置文件的模板。ZooKeeper启动时,会默认加载“conf/zoo.cfg”作为配置文件,所以需要将“zoo_sample.cfg”复制一份,命名为“zoo.cfg”,然后根据需要设定里面的配置项。配置项很简单,说明如下:ti转载 2017-07-29 20:24:19 · 678 阅读 · 0 评论 -
Zookeeper(三)工作原理
3.1 系统架构由上图可知,ZooKeeper集群由多台机器组成,客户端的请求有可能被分配给任何一台机器来处理。考虑下面一个场景:客户端A问机器1,现在几点了,机器1回答下午两点半;与此同时,客户端B问机器2,现在几点了,机器2说,凌晨三点。两个客户端一交流,发现驴唇不对马嘴,整个世界就乱了。可见,ZooKeeper集群时刻需要保持内部统一,无论客户端连接哪台机器,给出的响应应该保转载 2017-07-29 19:49:08 · 545 阅读 · 0 评论 -
Hadoop2.7.3 mapreduce(五)详解
一、为什么使用Mapreduce?MapReduce是为了解决传统HPC框架在面对海量数据时扩展困难而产生的。MapReduce致力于解决大规模数据处理的问题,利用局部性原理将整个问题分而治之。 MapReduce集群由普通PC机构成,为无共享式架构。在处理之前,将数据集分布至各个节点。处理时,每个节点就近读取本地存储的数据处理(Map),将处理后的数据进行合并(Combine)、排序转载 2017-07-27 20:17:37 · 1736 阅读 · 1 评论 -
Hadoop2.7.3 mapreduce(四)倒排索引的实现
一、倒排索引简介倒排索引是文档检索系统中最常用的数据结构,被广泛用于全文搜索引擎。它主要是用来存储某个单词(或词组)在一个文档或一组文档的存储位置映射,即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容,而是进行了相反的操作(根据关键字来查找文档),因而称为倒排索引(Inverted Index)。二、Map过程首先使用默认的TextInputFormat类对原创 2017-07-25 19:53:42 · 1194 阅读 · 0 评论 -
Zookeeper(二)数据模型
Zookeeper 会维护一个具有层次关系的数据结构,它非常类似于一个标准的文件系统: 树形结构的每个节点都被称作 ZnodeZnode通过路径引用,如同Unix中的文件路径。路径必须是绝对路径,因此他们必须由斜杠字符来开头。除此以外,它们必须是唯一的,也就是说每一个路径只有一个表示,因此这些路径不能改变。在ZooKeeper中转载 2017-07-28 20:52:41 · 557 阅读 · 0 评论 -
根据业务需求对饿了么数据进行数据清洗(三)
一、明确业务需求统计商家所有商品的平均评分作为该商店的评分,取出分数最高的前三十商家。(有效数据不包括月售量小于10、评分为0的)二、进行MapReduce清洗package com.yc.elm.utils;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.ap原创 2017-09-05 14:26:26 · 998 阅读 · 0 评论
分享