
Hadoop
文章平均质量分 59
phial03
love coding!!! Go、Rust、Java,一名喜欢技术,热爱技术的程序猿!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Raft一致性算法论文的中文翻译
Raft论文:Raft英文版翻译中文版寻找一种易于理解的一致性算法(扩展版)摘要Raft 是一种为了管理复制日志的一致性算法。它提供了和 Paxos 算法相同的功能和性能,但是它的算法结构和 Paxos 不同,使得 Raft 算法更加容易理解并且更容易构建实际的系统。为了提升可理解性,Raft 将一致性算法分解成了几个关键模块,例如领导人选举、日志复制和安全性。同时它通过实施一个更强的一致性来减少需要考虑的状态的数量。从一个用户研究的结果可以证明,对于学生而言,Raft 算法比 Paxos 算法更翻译 2022-04-25 17:16:42 · 241 阅读 · 0 评论 -
Hadoop3.3安装配置
1. macOS安装brew install hadoopbrew install hive2. 参数配置参考地址:Hive安装配置(1)环境变量:## javaexport JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_321.jdk/Contents/Homeexport CLASSPATH=$JAVA_HOME/libexport PATH=$JAVA_HOME/bin:$PATH## goexport GOROOT=原创 2022-04-19 12:35:30 · 2058 阅读 · 0 评论 -
BigData-08:MapReduce高级特性
一、MapReduce的高级特性1、序列化() 复习:Java的序列化() MapReduce的序列化:核心接口:Writable如果一个类实现了Writable接口,该类的对象可以作为key和value举例1:读取员工数据,生成员工的对象,直接输出到HDFS举例2:使用MapReduce序列化重写“求部门工资的总额的例子”2、排序()规则:按照Key2排序()基本数据类型(1...原创 2019-03-04 21:22:58 · 227 阅读 · 0 评论 -
BigData-13:Hive
数据分析引擎:Hive大数据的终极目标:使用SQL语句来处理大数据1、Hadoop的体系架构中:()Hive:支持SQL()Pig: 支持PigLatin2、Spark的体系架构中:(*)Spark SQL:类似Hive支持SQL、支持DSL3、另一个:Impala一、什么是Hive?1、Hive是基于HDFS之上的一个数据仓库Hive HDFS表 ...原创 2019-03-11 16:33:12 · 536 阅读 · 0 评论 -
BigData-14:sqoop与flume
一、使用PigLatin语句来分析数据注意:类似Spark RDD的算子(方法、函数)Spark的算子两种类型:()Transformation:不会触发计算()Action:会触发计算注意:启动Yarn的history servermr-jobhistory-daemon.sh start historyserverweb界面查看:http://ip:19888/jobhistor...原创 2019-03-11 16:51:06 · 630 阅读 · 0 评论 -
BigData-25:Spark基础
Spark生态圈:Spark Core: 最重要,其中最重要的就是RDD(弹性分布式数据集)Spark SQLSpark StreamingSpark MLLib: 协同过滤、ALS、逻辑回归等等 —> 实现推荐系统Spark Graphx:图计算Spark Core一、什么是Spark?特点?官网:Apache Spark™ is a unified analytics...原创 2019-03-17 20:56:48 · 412 阅读 · 0 评论 -
BigData-15:Yarn框架与hadoop优化
1、ResourceManager和NodeManager2、hadoop优化1)mr程序的效率瓶颈功能:分布式离线计算->计算机性能CPU、内存、磁盘、网络->I/O操作优化(1)数据倾斜(代码优化)(2)map和reduce数设置不合理(3)map运行时间太长,导致reduce等待过久(4)小文件过多(combineTextInputFomrat小文件合并)...原创 2019-03-13 14:42:36 · 203 阅读 · 0 评论 -
BigData-16:zookeeper
1)zookeeper简介动物管理员Apache ZooKeeper致力于开发和维护开源服务器,实现高度可靠的分布式协调。2)什么是ZooKeeper?ZooKeeper是一种集中式服务,用于维护配置信息,命名,提供分布式同步和提供组服务。所有这些类型的服务都以分布式应用程序的某种形式使用。每次实施它们都需要做很多工作来修复不可避免的错误和竞争条件。由于难以实现这些类型的服务,应用程序...原创 2019-03-13 14:54:49 · 194 阅读 · 0 评论 -
BigData-17:Azkaban
Azkaban概述Azkaban是一个分布式工作流管理器,在LinkedIn上实现,以解决Hadoop作业依赖性问题。我们有需要按顺序运行的工作,从ETL工作到数据分析产品。特点:1)给用户提供了一个非常友好的可视化界面->web界面2)非常方便的上传工作流-》打成压缩包3)设置任务间的关系4)权限设置-》删库到跑路5)模块化6)随时停止和启动任务7)可以查看日志记录...转载 2019-03-13 15:33:03 · 238 阅读 · 0 评论 -
BigData-18:Kafka
Kafka概述离线部分:Hadoop->离线计算(hdfs / mapreduce) yarnzookeeper->分布式协调(动物管理员)hive->数据仓库(离线计算 / sql)easy codingflume->数据采集sqoop->数据迁移mysql->hdfs/hive hdfs/hive->mysqlAzkaban->任务...原创 2019-03-13 15:45:39 · 451 阅读 · 0 评论 -
BigData-19:Storm基础
Storm概述网址:http://storm.apache.org/Apache Storm是一个免费的开源分布式实时计算系统。Storm可以轻松可靠地处理无限数据流,实现Hadoop对批处理所做的实时处理。Storm非常简单,可以与任何编程语言一起使用,并且使用起来很有趣!Storm有许多用例:实时分析,在线机器学习,连续计算,分布式RPC,ETL等。风暴很快:一个基准测试表示每个节...原创 2019-03-13 15:51:19 · 238 阅读 · 0 评论 -
BigData-21:Flink
Flink概述官网:http://flink.apache.org/mapreduce->maxcumputehbase->部门quickBIDataVHive->高德地图storm->Jstorm…2019年1月 阿里正式开源flink->blinkApache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flin...原创 2019-03-13 15:55:01 · 298 阅读 · 0 评论 -
BigData-22:Scala基础
Scala语言简介Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。它也能运行于CLDC配置的Java ME中。目前还有另一.NET平台的实现,不过该版本更新有些滞后。Scala的编译模型(独立编译,动态类加载)与Java和C#一样,所以Scala代码可以调用Java类库(对于.NE...原创 2019-03-13 20:38:52 · 357 阅读 · 0 评论 -
hadoop的四个核心配置文件详解
https://blog.youkuaiyun.com/cuitaixiong/article/details/51591410hadoop常用端口配置1.HDFS 端口参数描述默认配置文件例子值fs.default.namenamenode RPC交互端口8020core-site.xmlhdfs://master:8020/dfs.http.address...原创 2019-03-22 21:56:45 · 10592 阅读 · 2 评论 -
基于zookeeper集群的HA配置
一、Hadoop的HA二、Yarn的HA三、Hive的HA四、HBase的HA五、Spark的HA六、Flink的HA七、Storm的HA八、Kafka的HA原创 2019-03-31 21:05:08 · 430 阅读 · 0 评论 -
ElasticSearch及插件安装
安装ELK-Elasticsearch首先elkuser用户登录:启动顺序:(1)cd elasticsearch-6.1.0bin/elasticsearch -d(2)cd elasticsearch-headgrunt server &(3)cd kibana-6.6.1bin/kibana &web界面查看:http://192.168.100.200:...原创 2019-03-09 22:06:08 · 4691 阅读 · 0 评论 -
BigData-10:MemCached和Redis
一、MemCached1、基本的原理和体系架构()在内存中,维护一张巨大的Hash表()MemCached通过一个路由算法来决定数据存储的位置,决定数据存储在哪个节点上2、安装和配置前提:(1)有gcc的编译器(2)安装LibEvent:建议自己安装一个()确定是否已经安装LibEventrpm -qa|grep libevent()卸载原来的libeventrpm -e li...原创 2019-03-07 10:22:05 · 277 阅读 · 0 评论 -
BigData-24:scala高级
一、Scala的高级特性(一)泛型 1、泛型类:定义类的时候,可以带有一个泛型的参数 2、泛型函数:也可以带有泛型的参数 scala> //泛型函数 scala> //定义一个函数:创建一个Int类型的数组 scala> def mkIntArray(elem:Int*) = Array[Int](elem:_*) mkIntArray: (elem: In...原创 2019-03-13 21:34:11 · 241 阅读 · 0 评论 -
hadoop 中各种概念解释记忆
https://blog.youkuaiyun.com/marvel_cheng/article/details/45480521https://blog.youkuaiyun.com/qq_26437925/article/details/78467216http://blog.fens.me/hadoop-family-roadmap/https://www.cnblogs.com/pangguoming/p/...原创 2018-11-30 18:59:54 · 139 阅读 · 0 评论 -
BigData-05:HDFS上传与下载原理
课程回顾:(1)HDFS Web Console(2)HDFS 命令操作(hdfs dfs–普通操作命令 hdfs dfsadmin 管理员命令)(3)IDEA Maven 文件夹的创建。1、HDFS权限问题针对用户操作没有权限 permission denied:(1)修改hdfs-site.xml 去掉权限检查(关闭HDFS服务 stop-all.sh;修改后 重新 Start...原创 2019-01-19 10:12:11 · 652 阅读 · 0 评论 -
BigData-01:Hadoop背景知识
1. 什么是大数据?2002 大数据提出 美国引入。---麦肯锡报告。维克托·迈尔-舍恩伯格---大数据之父4V特征: 即 Volume(数据量大):PB级 Variety(数据多样性):文本、图像、视频、音频等 Velocity(输入和处理速度快):流式数据 Value(价值密度低): ## 积累很多的数据才能发掘大数据隐含的意义。 ...原创 2019-01-15 06:40:30 · 384 阅读 · 0 评论 -
BigData-02:集群安装部署搭建
Hadoop(HDFS+Yarn) 本地 伪分布 全分布Hadoop安装—本地安装(1)特点:没有HDFS和Yarn 只能够测试MR程序是否成功, 作为一个普通的java程序。(2)修改文件:vi hadoop-env.shset number修改25行(行数不一 hadoop版本不一致)JAVA_HOME=/usr/local/lib/jdk1.8.0_181 cd ...原创 2019-01-15 07:32:06 · 520 阅读 · 0 评论 -
BigData-04: hdfs基本命令行操作
hdfs的客户端.网页形式->测试用http://192.168.50.183:50070/dfshealth.html#tab-overviewHDFS-Web Console(1) Overview–展示HDFS的基本信息Safemode is off.—高级特性。(2)DataNodes-数据节点信息增加和删除数据节点(Decomissioning–>Dead)...原创 2019-01-15 07:49:35 · 413 阅读 · 0 评论 -
BigData-03:hadoop体系结构
HDFS:数据存储(一)HDFS的体系架构 1、NameNode:名称节点 (*)职责: (1)是HDFS的主节点、管理员 (2)接收客户端(命令行、Java程序)的请求:创建目录、上传数据、下载数据、删除数据等等 (3)管理和维护HDFS的日志和元信息 (*)日志文件(edits文件):记录的是客户端的所有操作,同时体现了HDFS的最新的状态 是一个...原创 2019-02-27 15:01:51 · 200 阅读 · 0 评论 -
实现hadoop的HA配置
一、集群的规划Zookeeper集群:192.168.100.100 (master)192.168.100.101 (hadoop01)192.168.100.102 (hadoop02)Hadoop集群:192.168.100.100 (master) NameNode1 ResourceManager1 Journalnode192.168.100.1...原创 2019-02-27 19:26:53 · 476 阅读 · 0 评论 -
BigData-06:HDFS底层原理:代理对象和RPC
一、HDFS底层的原理1、RPC:remote proceduer call 远程过程调用(协议)2、Java的动态代理对象 (*)如果一个类的名字前面有$,表示这是一个代理对象 (*)是一种包装设计模式 (*)可以增强类的功能 (*)举例:Java的动态代理对象应用场景(典型:数据库连接池)二、分析WordCount数据处理过程WordCount实例:package d...原创 2019-02-28 11:05:06 · 357 阅读 · 0 评论 -
BigData-07:MapReduce基础
一、MapReduce编程案例:求部门的工资总额1、员工表SQL:select deptno,sum(sal) from emp group by deptno;2、分析数据处理的过程3、开发程序4、求每个部门的平均工资emp员工表:员工编号员工姓名员工职位员工老板编号员工入职日期月薪资奖金部门编号7369SMITHCLERK79021980...原创 2019-02-28 12:05:24 · 275 阅读 · 0 评论 -
BigData-09:MapReduce编程案例
一、MapReduce的核心:Shuffle1、Hadoop 3.x以前: 会有数据落地(产生I/O操作)二、MapReduce编程案例:复习关系型数据库的相关知识(SQL等等)1、数据去重()复习SQL:distinct实现去重,作用于后面所有的列一个列:select job from emp;select distinct job from emp; 多个列:select...原创 2019-03-05 16:43:40 · 237 阅读 · 0 评论 -
基于hadoop2大数据全分布式环境搭建
0. CentOS7 虚拟机安装(1)配置静态IP地址:虚拟机网络模式使用NAT模式:先ping宿主机ip(192.168.100.2)然后ping www.baidu.com都能ping通说明网络没有问题IP(192.168.100.100)宿主机与虚拟机之前的网关IP(192.168.100.2)、ping外网(baidu.com)都可以通则说明虚拟机固定IP设置成功。roo...原创 2019-02-27 12:17:19 · 412 阅读 · 0 评论 -
BigData-11:HBase基础
NoSQL数据库之:HBase一、NoSQL数据库简介1、什么是NoSQL数据库?not only sql(*)一般来说:NoSQL不支持事务2、常见的NoSQL数据库()HBase()Redis:基于内存的NoSQL数据库,前身:MemCached(缺点:不支持持久化)支持持久化:RDB、AOFCodis是Redis分布式解决方案()MongoDB:基于文档型(BSON文档)的...原创 2019-03-08 21:39:45 · 180 阅读 · 0 评论 -
BigData-12:HBase进阶
问题:HBase的索引(rowkey也有索引—通常是一个组合行键、二级索引)一、使用Java API操作HBase二、搭建HBase的全分布环境和HA1、搭建HBase的全分布:bigdata112 bigdata113 bigdata114注意:时间同步如果不同步:(1)Hadoop:执行MR出错(2)HBase:RegionServer会自动停止bigdata112: ...原创 2019-03-08 21:43:54 · 239 阅读 · 0 评论 -
BigData-23:Scala进阶
scala集合不可变集合:import scala.collection.immutable._可变集合:import scala.collection.mutable._1、可变集合、不可变集合-----(Map)scala> //不可变集合 scala> val math = scala.collection.immutable.Map("Tom"->80,"Ma...原创 2019-03-13 21:30:07 · 305 阅读 · 0 评论 -
Ubuntu 18.04 Server 配置 Hadoop 分布式集群环境
转载至:https://blog.youkuaiyun.com/lllllyt/article/details/80673234 https://blog.youkuaiyun.com/xuan314708889/article/details/80500006 https://www.cnblogs.com/SunHuaJ/p/7340396.html ...转载 2018-07-29 21:39:15 · 1753 阅读 · 1 评论