
hadoo
2022冲鸭
日益努力,而后风生水起!
展开
-
学习hadoop——第1篇
正式从数据库往大数据,冲冲冲!!!先把整体框架以及整体思路建立,好理解Hadoop的思想之源:Google Google搜索引擎,Gmail,安卓,AppspotGoogle Maps,Google earth,Google 学术,Google翻译,Google+,下一步Google what?? 不使用超级计算机,不使用存储(淘宝的去i,去e,去o之路) ...原创 2018-12-30 23:55:13 · 284 阅读 · 0 评论 -
学习Hadoop——Hive 介绍
Hive简介 1.由Facebook 开源,最初用于解决海量结构化的日志数据统计问题 ETL(extraction-Transformation-Loading)工具 2.构建在Hadoop 之上的数据仓库 数据计算使用MR,数据存储使用HDFS 3.Hive 定义了一种类型SQL查询语句—HQL,类似于SQL,但不完全相同...原创 2019-01-09 14:11:00 · 785 阅读 · 0 评论 -
学习haoop——从无到有搭建环境
在创建虚拟机的过程中,对于新手来说确实有很多问题。原创 2019-01-25 13:26:20 · 181 阅读 · 1 评论 -
学习Hadoop——Zookeeper 介绍
Zookeeper 是一个开源的分布应用程序协调服务,来自于Google 一个开源的实现,是Hadoop 和HBase 的重要组件。Zookeeper 可以为分布式应用提供一致性服务,功能包括:配置服务、名字服务、分布式同步、组服务等等。Zookeeper 的目标是封装好复杂易出错的关键服务,将简单易用的接口和性能高效,功能稳定的系统提供给用户。Zookeeper 包含一个简单的原语集,提供Jav...原创 2019-01-20 18:57:07 · 5104 阅读 · 0 评论 -
学习Hadoop——Hive 安装
Hive安装 内嵌模式:元数据保持在内嵌的Derby模式,只允许一个会话连接 本地独立模式:在本地安装Mysql,把元数据放到Mysql内 远程模式:元数据放置在远程的Mysql数据库Hive安装:内嵌模式 1.下载 http://apache.dataguru.cn/hive/hive-0.8.1/hive-0.8.1.tar.gz...原创 2019-01-09 17:23:22 · 385 阅读 · 0 评论 -
学习Hadoop——Zookeeper 介绍(2)
工作流程Leader工作流程Leader 主要有三个功能:1.恢复数据2.维护与Leader的心跳,接收Learner 请求并判断Learner 的请求消息类型3.Learner 的消息类型主要有PING 消息、REOUEST消息、ACK消息、REVALIDATE消息,根据不同的消息类型,进行不同的处理 PING 消息是指Learner的心跳信息:REQUEST消息是Fol...原创 2019-01-20 23:08:19 · 297 阅读 · 0 评论 -
学习Hadoop——Pig 与Hive比较
相同点: 运行Hadoop之上,设计动机是为用户提供一种更简单的Hadoop 上数据分析方式。 解决相同问题的两个工具Yahoo 与facebook不同点: Hive 要求处理数据必须有schema,而Pig 则无此要求 Hive 有server 需要安装,Pig 无server 不需要安装编程语言不同,HQL...原创 2019-01-09 21:51:57 · 1107 阅读 · 0 评论 -
学习Haoop——HBase 的介绍(1)
HBase 是一种高可靠,高性能,面向列,可伸缩的分布式数据,是谷歌BigTable 的开源实现,主要用来提供存储非结构化和半结构化的松散数据。Hbase 的目标是处理非常庞大的表,可以通过水平扩展的方式,利用廉价计算机集群处理由超过10亿行数据和百万列元素组成的数据表。该技术来源于Chang et al所撰写的 Google论文“Bigtable:一个结构化数据的分布式存储系统”。 ...原创 2019-01-09 22:58:09 · 392 阅读 · 0 评论 -
学习Hadoop——Zookeeper安装细说
Zookeeper 安装方式有三种,分别为单机模式,伪集群模式,集群模式1.单机模式:Zookeeper 只运行在一台服务器上,适合测试环境2.伪集群模式:在一台物理机上运行多个Zookeeper 实例3.集群模式:Zookeeper 运行在一个集群上,适合生产环境,这个计算机集群被称为一个“集群合体“Zookeeper 通过复制来实现高可用性,只要集合体中半数以上的机器处于可用状...原创 2019-01-21 11:36:32 · 389 阅读 · 0 评论 -
脚踏实地MySQL——MVCC机制
这个机制确实不清楚,百度查了以后,记录下来:MVCC Multi-Version Concurrency Control 多版本并发控制,MVCC 是一种并发控制的方法,一般在数据库管理系统中,实现对数据库的并发访问;在编程语言中实现事务内存。可将MVCC 看成行级别锁的一种妥协,在许多情况下避免使用锁,同时可以提供更小的开销。根据实现的不同,它可以允许非阻塞式读,在写操作进行时只锁定...翻译 2019-01-26 00:22:02 · 156 阅读 · 0 评论 -
学习Hadoop——Zookeeper 配置
zookeeper 的功能特性是通过Zookeeper 配置文件(zoo.cfg) 来进行控制管理的,这样的配置方式使得部署在Zookeeper 服务的时候很方便。1.基本配置 1.clientPort :监听客户端连接的端口。 2.tickTime:基本事件单元,以毫秒为单位,这个时间作为Zookeeper 服务器之间或者客户端与服务器之间维护心跳的时间间隔。 3.dataDir...原创 2019-01-22 15:41:00 · 472 阅读 · 0 评论 -
学习Hadoop——Sqoop的介绍
sqoop 是一个开源工具,它允许用户将数据库提取到Hadoop 中用于进一步得处理,提取到HDFS 的数据可以被Mapreduce 程序使用,也可以被其他类似于Hive 的工具用,在得到这些分析结果之前,sqoop 还可以将这些结果再导回到数据库Sqoop 概述 Hadoop 数据传输工具Sqoop 是Apache 顶级项目,主要用于Hadoop 和关系型数据库、数据仓库、Nosql数据...原创 2019-01-22 21:58:10 · 979 阅读 · 0 评论 -
学习Hadoop——Hbase 安装
安装需知,它是建立在hadoop 之上,并且难度大于hadoop,选择版本要与Hadoop版本匹配,如果没有选对版本就选安装上去也无法使用。1.安装准备 Hbase 的安装介质放在自己指定的目录下,解压后复制到另一个指定的目录,和前面所说的一致。2.配置环境变量 使用root 用户修改/etc/profile文件,添加HBASE_HOME 环境变量,修改PATH:...原创 2019-01-20 00:02:32 · 446 阅读 · 0 评论 -
学习Hadoop——Pig 安装和介绍
Pig 是由Yahoo 公司开源,是一种操作大规模数据集的脚本语言,它为大型数据集的处理提供了更高层的抽象。Pig 构建在HDFS和Mapreduce 之上,能将数据处理翻译成多个Map 和Reduce 函数,从某种程度上将程序猿从具体编程中解放出来。Pig 简介 pig 架构包括两部分:用于描述数据流的称为 Pig Latin 的编程语言,以及用于运行的Pig Latin 程序执行环境。...原创 2019-01-08 12:40:18 · 1327 阅读 · 0 评论 -
学习hadoop——第2篇
1.Hadoop 的产生与发展 在大数据时代,数据面临着爆炸式的增长,据IDC公司统计2013年,全球产生3.5ZB的数据,预计到2020年,这个数据将超过10 倍增长,1ZB等于10亿TB,大数据的价值在于挖掘,挖掘就是分析,但是如何存储和分析这些数据成为一个重要难题。在传统计算机体系中,存储空间正面临着严重挑战,存储数据的成本越来越高。在存储领域,出现的技术更多的增加到存储的速度...原创 2018-12-31 14:51:41 · 245 阅读 · 0 评论 -
学习Hadoop——MapReduce介绍
MapReduce是一种编程模型,用于大规模数据的并行运算,它极大的方便编程人员在不会分布式编程的情况下,将自己的程序运行在分布式系统上。在软件实现是通过指定一个Map(映射)函数,把一组键值对映射成一组新的键值对,指定并发的Reduce(规约)函数,来保证所有映射的键值对的每一个共享相同的键组。易于编程;良好的扩展性;高容错性,适合PB级以上海量数据的离线处理应用场景: (...原创 2018-12-31 20:21:08 · 299 阅读 · 0 评论 -
学习Hadoop——HDFS 文件系统简介
HDFS (Hadoop分布式文件系统)采用master/slave 架构。一个HDFS集群由一个Namenode和一定数目的Datanodes 组成。Namenode 是一个中心服务器,负责管理文件系统的名称(namespace) 以及客户端对文件的访问。集群的Datanode 一般是一个节点一个,负责管理它所在的节点上的存储。HDFS 提供文件系统的名称空间,用户可以以文件的形式在...原创 2019-01-05 20:16:06 · 285 阅读 · 0 评论 -
学习Hadoop——YARN 框架特征
Hadoop 1.0与2.0 的差异:都为集群环境 Hadoop2.0引入YARN 可以引用其他的应用Apache Hadoop YARN 是一种新的Hadoop 资源管理器,它本身是一个通用资源管理系统,可为上层应用提供统一的资源管理器和调度,它的引入为集群在利用率,资源统一管理和数据共享等方面带来巨大好处。YARN 最初是为了修复Mapreduce 实现的明显不足而开发的,...原创 2019-01-05 21:18:41 · 448 阅读 · 0 评论 -
学习Hadoop——继上一篇YARN 组件
Resource Manager Resource Manager 是一个全局资源管理器,负责整个系统的资源管理和分配。主要由两个组件构成:调度器(Scheduler) 应用程序管理器(Application Manager) 1.调度器 调度器根据容量,队列等限制条件(比如每个队列分配一定的资源,最多执行一定数量的作业等),将系统中的资源管理分配给各个正在运行的应用程序。需要...原创 2019-01-05 22:06:38 · 282 阅读 · 0 评论 -
学习Hadoop——HDFS 文件系统管理细说
HDFS 有着高容错的特点,被设计用来部署在低廉的硬件上,它能够提供高吞吐量来访问应用程序·的数据,适合那些有着超大数据集的应用程序。为了做到可靠性,HDFS创建了多份数据块的副本,并将它们放置在服务器的群的计算节点中,Mapreduce 可以在它们所在的节点上处理这些数据。HDFS 的缺点与不足: 运维成本:如果采用" 一个框架,一个集群” 的模式,则可以需要多个管理员管理这些集群,进而...原创 2019-01-06 16:10:57 · 2179 阅读 · 3 评论 -
学习Hadoop——HDFS 思维导图
原创 2019-01-07 15:35:56 · 1251 阅读 · 0 评论 -
学习Hadoop——hdfs
启动某些特定后台进程而非所有后台进程 查看这个脚本 负载均衡 作用:当节点出现故障,或新增加节点时,数据块分布可能不均匀,负载均衡可以重 新平衡各个datanode上数据块的分布上传本地文件到HDFS 创建HDFS文件重命名HDFS文件查看HDFS文件的最后修改时间...原创 2019-01-07 16:16:54 · 178 阅读 · 0 评论 -
学习Hadoop——Mapreduce 细说
Mapreduce 编程思想Mapper Map-reduce的思想就是“分而治之” Mapper负责“分”,即把复杂的任务分解为若干个“简单的任务”执行 “简单的任务”有几个含义: 1 .数据或计算规模相对于原任务要大大缩小; 2 就近计算 ,即会被分配到存放了所需数据的节点进行计算; 3 这些小任务可以并行计算,...原创 2019-01-07 18:28:39 · 375 阅读 · 0 评论 -
Hadoop——Mapreduce 编程
后面补,需要Java 编程能力 ,哭唧唧原创 2019-01-07 19:57:18 · 235 阅读 · 0 评论 -
Mapreduce
后面补充原创 2019-01-07 19:57:51 · 162 阅读 · 0 评论 -
学习Hadoop——sqoop 安装
安装部署sqoop11.安装准备sqoop1 安装准备介质sqoop-1.4.6.bin_hadoop-2.0.4-alpha.tar.gz 上传至自己指定的一个目录,与之前的操作相同,再进行解压后,然后解压目录复制到/usr/share 目录下:2.配置环境变量使用root 用户修改/etc/profile 文件,增加SQOOP_HOME 变量,并添加$SQOOP_HOME/BI...原创 2019-01-22 23:14:44 · 313 阅读 · 0 评论