
大数据
文章平均质量分 82
YUNFLY_
无
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hadoop入门(二)之hdfs环境搭建(单机版)
1.hadoop环境搭建 系统:CentOS6.5 32 位 安装JDK1.7+ (并且已经配置过环境变量JAVA_HOME) 1.安装JDK 略...2配置主机名: [root@CentOS ~]# cat /etc/sysconfig/networkNETWORKING=yesHOSTNAME=CentOS3.配置主机名和IP的映射关系[root@原创 2017-07-31 17:45:26 · 807 阅读 · 0 评论 -
scala用actor并发编程写一个单机版的WorldCount(类似Hadoop的MapReduce思想)
1、准备数据,2个文件words.txt内容:lilei hellozhangsan hellolisi hello苏三 hellowords.log内容:lilei hellozhangsan hellolisi hello2、环境Intellj IDEA scala插件3、代码package p1import原创 2017-12-31 19:58:59 · 378 阅读 · 0 评论 -
MapReduce操作Hbase 进行单词数量统计Demo
1.window环境准备:eclipse中建项目,导入hbase安装环境下的lib中的jar包,或者用maven工具加载jar2.linux环境准备:前提安装Hadoop,hbase,zookeeper并能正常运行。若想在Hadoop上运行hbase相关文件,得把hbase环境下的lib里的依赖jar导入到hadoop环境下,下面给一个简单方法:进入到 Hadoop的hadoop-env.sh原创 2017-11-16 12:06:26 · 1344 阅读 · 2 评论 -
Hadoop入门(四)之hadoop集群搭建(一主二从)
Hadoop版本是hadoop-2.6.0。我们想要的效果是这样的:Master:[root@CentOS hadoop-2.6.0]# jps2150 Jps1837 NodeManager1747 ResourceManager1474 DataNode1587 SecondaryNameNodeslave1:[root@slave1 ~]# jps原创 2017-08-10 22:22:14 · 1377 阅读 · 0 评论 -
Map端join算法实现,解决Reduce端数据倾斜,负载不均(分布式缓存)
1.需求:订单数据表t_order:关系数据库表-iddatepidamount100120150710P00012100220150710P00013原创 2017-10-12 18:56:27 · 806 阅读 · 0 评论 -
Mapreduce端join算法实现(订单和产品文件数据关联操作)
1、需求:订单数据表t_order:iddatepidamount1001,20150710,P0001,21002,20150710,P0001,31003,20150710,P0002,31002,20150710,P0003,31002,20150710,P0002,4原创 2017-10-12 13:54:04 · 660 阅读 · 0 评论 -
hadoop入门(九)Mapreduce中的简单排序(手机流量排序)
需求:对日志数据中的上下行流量信息汇总,并输出按照总流量倒序排序的结果数据如下:电话号-上行流量-下行流量(下面是模拟的数据)13823434356 203015844021203 304018688788797 405015844939284 506017646566767 907018688988989 1020113857685原创 2017-09-23 18:12:52 · 2376 阅读 · 0 评论 -
Hadoop入门(八)自定义类型实例-统计手机流量数据Demo
业务需求:跟运营商后台数据,统计手机流量数据下面是部分数据的截图:我们把上面每一行数据抽象出来安“\t” 隔开出11个字段:我们要统计相同手机号的,6789字段的手机流量汇总,实际中其实数据非常庞大,Demo中我们就以上面4条为例,进行试验。分析:K我们可以确定就是手机号,类型Text,V包括4个字段(6,7,8,9),那我们把V自定义成一个新类型。我们自定义一原创 2017-08-27 18:55:55 · 628 阅读 · 0 评论 -
Hadoop入门(七)之java对应的Hadoop数据类型及自定义类型序列化
首先,我们都知道,Hadoop的读写都是通过流来实现的。在java中想把一个对象通过流进行读写,我们时要把它序列化和反序列化(Serialization、Deserialization)的。那么,Hadoop的对象读写操作也需要序列化-----格式:Writable 。序列化在分布式环境的两大作用:进程间通信,永久存储。下面,我们说一下Hadoop的数据类型:Hadoop数据类型,原创 2017-08-27 14:57:38 · 1666 阅读 · 0 评论 -
hadoop入门(六)JavaAPI+Mapreduce实例wordCount单词计数详解
刚刚研究了一下haoop官网单词计数的例子,把详细步骤解析贴在下面:准备工作:1、haoop集群环境搭建完成2、新建一个文件hello,并写入2行单词,如下:[root@CentOS hadoop-2.6.0]# vi hellohello youhello me3、把文件传到hdfs根目录下:[root@CentOS hadoop-2.6.0]# bi原创 2017-08-13 22:40:37 · 5733 阅读 · 0 评论 -
hadoop入门(五)MapReduce简介
什么是MapReduce:你想数出一摞牌中有多少张黑桃。直观方式是一张一张检查并且数出有多少张是黑桃。MapReduce方法则是:1.给在座的所有玩家中分配这摞牌2.让每个玩家数自己手中的牌有几张是黑桃,然后把这个数目汇报给你3.你把所有玩家告诉你的数字加起来,得到最后的结论MapReduce概述:◆MapRedu原创 2017-08-13 16:39:08 · 460 阅读 · 0 评论 -
hadoop入门(一)之HDFS
转自:http://blog.youkuaiyun.com/zbc1090549839/article/details/51853944虽然Hadoop经历了多年的发展,作为技术人员都或多或少的使用过或者了解过。这里还是做一个简单的总结,主要原因是之前主要是做hadoop的开发,对hadoop的运维知之甚少,但真正的接触到hadoop运维的工作的时候,其实会发现,对hadoop的一整套框架和理论知识都转载 2017-07-27 14:50:51 · 486 阅读 · 0 评论 -
hadoop入门(三)之 javaAPI操作Hdfs,进行文件操作
首先,把core-site.xml和hdfs-site.xml文件拷贝到java项目的src根目录下。下面时代吗:package test;import java.io.BufferedOutputStream;import java.io.IOException;import java.net.URI;import java.text.SimpleDateFormat;imp原创 2017-08-02 17:58:01 · 1248 阅读 · 0 评论 -
scala-akka实现简单的分布式RPC通信框架(主从监听,消息发送)
简介:模拟用akka实现一个RPC分布式通信框架,实现从机向主机发送心跳,主机判断从机是否挂机,以及消息通信的简单功能。开发平台:IntelliJ IDEA Maven架构项目结构及依赖:代码2个样例类:case class Workinfo (val id:String) extends Serializable{}case class SendHearB原创 2018-01-06 14:18:13 · 817 阅读 · 0 评论