
大数据学习
我不想学习啊
这个作者很懒,什么都没留下…
展开
-
flume的使用(给自己看的)
train.sources = s1train.channels = c1 hdfsChannel train.sinks = k1 hdfsSinktrain.sources.s1.type = spooldirtrain.sources.s1.spoolDir = /opt/kb07/flumeFile/traintrain.sources.s1.deserilizer = LINEtrain.sources.s1.deserilizer.maxLineLength = 60000tr原创 2020-08-19 20:04:35 · 224 阅读 · 0 评论 -
flume上传hdfs的配置文件
user_friends.sources = userFriendsSourceuser_friends.channels = userFriendsChanneluser_friends.sinks = userFriendsSinkuser_friends.sources.userFriendsSource.type = spooldiruser_friends.sources.userFriendsSource.spoolDir = /opt/kb07/flumeFile/user_frie原创 2020-08-17 14:39:57 · 260 阅读 · 0 评论 -
安装zepplin
一、下载安装包安装包下载地址选择zeppelin-0.8.1-bin-all.tgz二、上传并解压上传到Linuxtar -zvxf zeppelin-0.8.1-bin-all.tgz -C /opt进入目录cd /opt/zeppelin-0.8.1-bin-all/-------ok,安装完成。->But,还需要修改一下配置文件三、修改 配置文件cp zeppelin-site.xml.template zeppelin-site.xml修改端口号:默认是8080原创 2020-07-23 19:37:38 · 220 阅读 · 0 评论 -
hive的基本语法
hive什么是hive?基于Hadoop的数据仓库解决方案Hive的优势和特点Hive的发展里程碑和主流版本Hive元数据管理记录数据仓库中模型的定义、各层级间的映射关系存储在关系数据库中HCatalogHive环境搭建Hive架构Hive操作-命令行模式Hive操作-客户端交互模式Hive数据类型 - 基本数据类型Hive数据类型 - 集合数据类型Hive数据结构数据表(Table)Hive建表语句Hive建表 - 分隔符Hive中默认分隔符Hive建表高阶语句 - CTAS and WITHCTAS –原创 2020-07-11 17:07:11 · 500 阅读 · 0 评论 -
大数据运行环境全套安装流程。 (hadoop,hive,zookeeper,Hbase)
1.文件准备安装基本运行环境,需要用到:hadoop-2.6.0-cdh5.14.2.tar.gzjdk-8u221-linux-x64.tar.gzzookeeper-3.4.6.tar.gzhbase-1.2.0-cdh5.14.2.tar.gzhive-1.1.0-cdh5.14.2.tar.gzMySQL-client-5.6.46-1.el7.x86_64.rpmMySQL-server-5.6.46-1.el7.x86_64.rpm把以上文件都拖到配置好的虚拟机,在根目录中建一原创 2020-07-10 21:31:57 · 1198 阅读 · 0 评论 -
使用MapReduce获取手机号以及使用信息
这里我们需要获取手机号,以及上行流量与下行流量相加后得到的总流量。我们需要四个类:FlowBean类:定义变量方法。import org.apache.hadoop.io.Writable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;public class FlowBean implements Writable { private long upFlow;原创 2020-07-04 12:39:41 · 592 阅读 · 0 评论 -
大数据学习——hadoop分布式计算框架MapReduce之词频获取
MapReduce介绍和优缺点MapReduce是Hadoop中面向大数据并行处理的计算模型,框架和平台。其具有1.易于编程(实现接口便可完成程序)2.平滑无缝的可扩展性(可布置在廉价服务器上,并且只要增加机器数量便可提高MapReduce集群的计算性能)3.高容错性(MapReduce框架有多种有效的错误检测和恢复机制)4.高吞吐量(可处理PB级别的数据)的特点。但是,MapReduce也具有以下缺点:1.难以提供实时计算(因其处理的是磁盘上的数据,会受到磁盘读写速度的限制,无法实施返回结原创 2020-07-02 23:06:12 · 537 阅读 · 0 评论 -
MapReduce中的Combiner,Partitioner与Shuffle 以及整个原理图
CombinerCombiner概述Combiner类是用来优化MapReduce的,在MapReduce的Map环节,会产生大量的数据,Combiner的作用就是在map端先对这些数据进行简单的处理,减少传输到Reduce端的数据量,从而提高MapReduce的运行效率。Combiner并没有自己的基类,他是继承Reducer的,对外功能一样。他们的区别是,Combiner操作发生在Map端,在某些情况下Combiner的加入不会影响程序的运行结果,只会影响效率。以下Combiner代码基于Wo原创 2020-07-04 21:48:21 · 814 阅读 · 0 评论