
Hadoop云计算/大数据
wen-pan
是程序猿一只呀
展开
-
CentOS7下搭建Hadoop2.9.1完全分布式集群过程(超详细)
Hadoop 集群搭建 本文主要对完全分布式Hadoop集群环境的安装与配置步骤进行介绍。使用VMware Workstation Pro 14.0、CentOS7和Hadoop2.9.1 集群的节点规划信息如下: Host Name IP Address Node Type User ...原创 2018-10-24 21:52:44 · 10950 阅读 · 0 评论 -
将MapReduce的结果导入到数据库中
将MapReduce的结果导入到数据库中有时候我们在项目中会遇到输入结果集很大,但是输出结果很小,比如要将我们一堆数据的分析结果存储到我们的关系型数据库中以便于在web程序中进行查询显示,这时候我们就需要 mapreduce 与 mysql 进行数据的交互。为了方便 MapReduce 直接访问关系型数据库(Mysql,Oracle),Hadoop提供了DBInputFormat和DBO...原创 2019-03-29 13:02:54 · 3534 阅读 · 3 评论 -
使用intellij搭建运行MapReduce环境
使用intellij搭建运行MapReduce环境说明:因为本人是在Windows中的idea中编写的MapReduce程序,每次编写玩程序后都需要打成jar包发布到集群中去检查程序的正确性,个人感觉比较麻烦。一、实验环境物理机:Windows10idea:intellij 2017二、具体需求在idea中搭建一个用于运行MapReduce程序的环境,这样就可以在idea中运行或调试M...原创 2019-03-28 22:40:43 · 3946 阅读 · 0 评论 -
大数据电信项目之Redis缓存
目录表设计介绍为什么使用Redispom.xml配置文件代码片段展示1.从mysql中查询到Telid和dateid,先保存到map集合中2.向redis中存储电话号码和电话号码的id(date和dateid一样)整体代码表设计介绍在本项目的MapReduce分析阶段之后的自定义outputformat阶段,将分析后的数据写入到MySQL中。在该项目的表设计中,...原创 2019-01-19 11:37:22 · 692 阅读 · 0 评论 -
大数据电信项目之BaseDao、HbaseDao以及CalllogConsumer
在本项目中的消费模块(将kafka消费者消费的到数据写入到Hbase中进行保存),最为关键的三个类就是BaseDao、HbaseDao以及CalllogConsumer。简介:BaseDao:该类是一个抽象类,定义了操作Hbase的相关方法,比如在hbase中新建一张表,删除表,建表之前进行预分区,取得HBASE连接,取得Admin操作对象等相关方法。考虑到该类可能会被多个模块使用到,所以...原创 2019-01-19 10:57:57 · 617 阅读 · 0 评论 -
大数据电信项目之协处理器
协处理器使用介绍:在本项目中,如果向HBASE中插入一条主叫的通话日志,比如张三在2018年3月份跟李四通话了50秒,那么李四在2018年3月份同样也跟张三通话了50秒,在HBASE中同样也应该保存一条李四的通话记录,这里张三是主叫,李四是被叫。我们可以在consumer中插入主叫用户信息后紧接着再插入一条被叫用户的信息,但是这样插入的效率就会降低。所以我们这里使用到了协处理器。协处理器工作在...原创 2019-01-19 10:28:58 · 419 阅读 · 0 评论 -
大数据之电信项目架构
目录一、通话日志来源二、 flume日志采集三、kafka消费数据四、HBASE保存数据五、MapReduce分析数据六、Redis缓存七、数据展示项目需求:统计分析用户每个月,每年的通话次数和通话总时长项目架构图如下:本项目是一个离线项目,主要是监控采集数据到hbase,然后将hbase上的数据进行分析处理,将处理后的结果存放到MySQL中,然后将分析...原创 2019-01-18 21:23:49 · 2803 阅读 · 0 评论 -
大数据电信项目之分区键和rowkey的设计
项目大体流程:先由自己写好的生产者程序jar包不停的向call.log文件中生产通话日志,模拟用户通话 使用flume监控日志文件call.log,将该日志文件作为flume的source源,通过channel和sink 使用kafka创建topic,flume监控得到的数据作为kafka的producer,然后将数据写入到指定的topic中 启动一个消费者程序,将topic中的数据进行...原创 2019-01-18 20:46:48 · 733 阅读 · 0 评论 -
关于hadoop拒绝history通过19888端口连接查看已完成的job的日志解决方案
当跑完MapReduce程序后,点击Tracking UI 下的History查看日志时报错拒绝连接使用jps命令检查自己的JobHistoryServer服务是否开启检查mapred-site.xml文件里的配置,修改完成后分发到集群中的每台机器上(单机版就不用分发了):<configuration> <!-- 表示提交到hadoop中的任务采用y...原创 2019-01-11 15:02:37 · 4159 阅读 · 0 评论 -
kafka创建消费者时报错:consumer zookeeper is not a recognized option
今天在测试kafka安装是否成功的时候,总是出现报错:consumer zookeeper is not a recognized option大概意思是说zookeeper是一个不可识别的操作,我搜索了一些资料没有解决。然后看了下面打印出来的一些参数,确实没有zookeeper这一项。然后在老师给的某份资料里看到了造成原因和解决方法:原来--zookeeper是一个过时的方法,在新版本的...原创 2018-12-18 18:20:56 · 1171 阅读 · 0 评论 -
Spark与MapReduce的区别及Spark运行流程
一、Spark与MapReduce的区别MapReduce简介:MapReduce是hadoop中的一个计算框架,具体核心是将编程抽象为map和reduce两个方法,程序员只需要编写map和reduce两个方法的具体代码就可以完成一个分布式计算操作,大大的简化了开发的难度,使开发难度减小。同时MapReduce程序是基于分布式集群运行,所以可以处理大量的数据。 正是因为MapRedu...原创 2018-12-15 00:01:55 · 4766 阅读 · 0 评论 -
Windows下使用intellij中搭建Spark开发环境并编写spark应用程序
Windows下使用intellij中搭建Spark开发环境并编写spark应用程序!!!最近学习spark,因为hadoop集群搭建在虚拟机中,因为电脑配置不足,同时开启虚拟机和启动intellij基本就卡爆了,所以在虚拟机中没有安装开发工具。每次写代码都特别的不方便,所以就想直接使用windows中安装intellij然后搭建一个spark环境,这样就能够更方便的测试spark应用程序代码...原创 2018-12-14 14:26:04 · 914 阅读 · 2 评论 -
IntelliJ IDEA下使用Maven构建Scala 项目
IntelliJ IDEA下使用Maven构建Scala 项目1使用Maven管理项目在JavaEE用的非常多,而且也特别好用,开发Spark项目也不例外,虽然spark项目也可以使用python语言开发,而Scala语言开发Spark项目的首选。因此需要构建Maven-Scala项目来开发Spark项目,这里采用的是intellij2017版本进行开发。 IDEA下载链接 : https:...原创 2018-12-19 15:43:48 · 2736 阅读 · 2 评论 -
Yarn作业提交过程及Yarn工作机制
yarn总结:yarn概述:Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。yarn基本架构:YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。ResourceManager:...原创 2018-11-13 18:55:25 · 1326 阅读 · 0 评论 -
Shuffle机制流程原理
基础知识:Mapreduce确保每个reducer的输入都是按键排序的。系统执行排序的过程(即将map输出作为输入传给reducer)称为shuffle。shuffle阶段是从map方法输出数据以后开始到reduce方法输入数据之前结束。分区的数量 = ReduceTask数量 = 结果文件的数量 首先是由map方法处理后的key/value对输入到环形缓冲...原创 2018-11-13 16:56:06 · 1345 阅读 · 0 评论 -
MapReduce流程详解
基础知识:ResourceManager:整个集群的老大负责处理客户端请求,监控NodeManager,启动和监控MRappMaster,集群资源的分配和调度。NodeManager:单个节点上资源的老大,管理单个节点上的资源调度信息MRappMaster:一个job资源调度的老大负责数据的切分,为job申请资源,分配任务,任务的监控和容错。Container:资源的抽象,...原创 2018-11-13 15:45:12 · 460 阅读 · 0 评论 -
MapTask工作机制
MapTask工作机制流程图:基本概念:切片数决定MapTask的数量 切片大小=blockSize(默认128MB) 针对每一个文件单独切片(除了处理小文件的CombineTextInputFormat和部分自定义InputFormat)流程图解析:客户端job提交--->文件读取--->map操作--->写入环形缓冲区--->分区,排序--->...原创 2018-11-13 14:48:29 · 866 阅读 · 0 评论 -
java.lang.SecurityException: Invalid signature file digest for Manifest main attributes
在hadoop集群中运行自己的MapReduce程序时报异常:Exception in thread “main” java.lang.SecurityException: Invalid signature file digest for Manifest main attributes解决方案!!!说明:本人我是在做自己的一个商场项目的时候,从项目中抽取了一个单独的MapReduce模块用...原创 2019-04-02 21:17:19 · 2267 阅读 · 0 评论