
hadoop
文章平均质量分 64
kdb_viewer
这个作者很懒,什么都没留下…
展开
-
java操作hadoop
这里使用hadoop权威指南中max_temperature示例,使用java操作hadoop和c++类似,只是语言和api级别的差异,也需要3个组件:一个继承自Mapper的类,一个继承自Reducer的类,和作业处理的主流程。可以写在一个.java文件里面,也可以写在3个里面,这里写在3个java文件中。java和c++在运行作业的时候比较大的一个差异是,c++将可执行文件和input都放在h...原创 2018-09-26 19:16:09 · 1037 阅读 · 0 评论 -
c++ 操作hadoop
hadoop框架原理:流程是,将input转换成mapper使用的context格式,然后经过mapper处理后,转换成reducer使用的context格式,经过reducer处理之后,产生output。c++类库和头文件:hadoop提供的c++api类库和头文件,安装hadoop之后,类库在hadoop/hadoop-2.8.0/lib/native下,头文件在hadoop/...原创 2018-09-25 16:35:40 · 1885 阅读 · 0 评论 -
hadoop集群环境搭建
和单机环境相比,集群环境有一些不同,这里以两个节点为例master:10.1.108.64slave1:10.1.108.63namenode:masterdatanode:master,slave1resourcenode:master1./etc/hosts如下[root@master hadoop-2.8.0]# cat /etc/hosts127.0.0.1...原创 2018-09-18 20:22:36 · 162 阅读 · 0 评论 -
hadoop单机环境搭建
系统如下[root@master ~]# lsb_release -aLSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noarchDistrib...原创 2018-09-18 17:09:34 · 154 阅读 · 0 评论 -
《分布式服务架构》笔记 chapter2 一致性问题
服务拆分有两种方式,水平和垂直。水平拆分:单节点无法满足要求,扩展为多节点,每个节点服务一部分请求量,一个dhcp服务器水平扩展的例子:如图,用户流量上到负载均衡器,应用一致性hash算法负载到每个节点,每个节点就是一对dhcp服务器,包含一个master和一个slave,主备之间灾备通过failover机制。每个节点设置阈值,当可分配的地址池降低到一定比例之下,重新调度地址池资源。...原创 2018-09-07 00:35:23 · 188 阅读 · 0 评论 -
分布式文件系统
合理性:数据集大小超过单台计算机的存储容量,需要分布到不同单独的计算机复杂性:涉及网络编程,存在任何分布式系统都存在的通用性问题,但是比客户、服务器模式简单,不用满足ACID等特性,因为只涉及文件读写而且允许时间很长hadoop的hdfs特点:1.超大文件,大的含义是至少几百MB2.流式数据访问,一次访问多次读取,每次读取可能涉及数据集的大部分,读取全部数据的延迟比读取第一条记录的...原创 2018-10-15 11:59:42 · 425 阅读 · 0 评论 -
hadoop 二次排序和一个java实现
需要二次排序的原因:mapreduce架构自动对映射器生成的键进行排序,即归约器启动之前,所有键是有序的,但是值是随机的,二次排序指的是对值进行排序。归约器输入形如:,即一个key对应多个值,这些值是无序的,排序后得到有序的值,如下:其中,S按照升序或者降序排列归约器对于二次排序的两种解决方案:1.让归约器读取和缓存给定键的所有值,完成归约器中排序,特点是不可伸缩,依赖归约器内...原创 2018-10-19 15:36:17 · 212 阅读 · 0 评论 -
hadoop增加combiner器 java实现
常规的MapReduce模型由mapper和reducer组成,mapper的输出按照键排序,作为reducer的输入。combiner的作用是在mapper和reducer之间增加一个中间层,举一个例子:对于key为1950,有两个mapper,mapper1输出:1950 101950 201950 30mapper2输出:1950 401950 50那么red...原创 2018-10-17 15:38:03 · 192 阅读 · 0 评论 -
hadoop设计模式(二)topN问题
所谓topN问题,一个最简单的例子是在N个数中选出前k小的,使用快速选择算法可以得到一个平均的时间界,但是这个是主存排序,要将全部数据装载到内存,大数据场景下需要使用堆排序的思想,维护一个大小为k的最大堆,将其余N - k个数据插入最大堆中,若新插入的数据比堆顶数据大,就删掉堆顶的元素一个常见的对于网站访问量的数据分析场景是,获取指定一段时间内,访问量前N的网站topN问题形式化描述:...原创 2018-10-30 10:34:44 · 968 阅读 · 0 评论