
hadoop
文章平均质量分 82
HDFS(分布式文件系统)+MapReduce(分布式计算框架)+Yarn(资源协调框架)+Common模
痴迷的小小工匠
在繁碌的生活中,做一个小小工匠,痴迷其中
展开
-
HBase(2)——hbase数据模型和命令行使用
介绍列式存储格式(对比mysql)HBase 基于 Google的BigTable论⽂⽽来,是⼀个分布式海量列式⾮关系型数据库系统,可以提供超⼤规模数据集的实时随机读写。列存储的优点1)减少存储空间占⽤。 2)⽀持好多列HBase的特点海量存储: 底层基于HDFS存储海量数据 列式存储:HBase表的数据是基于列族进⾏存储的,⼀个列族包含若⼲列 极易扩展:底层依赖HDFS,当磁盘空间不⾜的时候,只需要动态增加DataNode服务节点...原创 2021-08-16 21:30:54 · 273 阅读 · 0 评论 -
Hive调优策略
Hive作为大数据领域常用的数据仓库组件,在设计和开发阶段需要注意效率。影响Hive效率的不仅仅是数据量过大;数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等因素都对Hive的效率有影响。对Hive的调优既包含对HiveQL语句本身的优化,也包含Hive配置项和MR方面的调整。从以下三个方面展开:架构优化参数优化SQL优化一、架构优化1.1执行引擎Hive支持多种执行引擎,分别是 MapReduce、Tez、Spark、Flink。可以通过hive..原创 2021-08-14 20:20:56 · 863 阅读 · 0 评论 -
Sqoop
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、 postgresql等)间进行数据的传递。可以将关系型数据库(MySQL ,Oracle ,Postgres等)中的数据导入到HDFS中,也可以将HDFS的数据导进到关系型数据库 中。...原创 2021-07-20 08:05:18 · 182 阅读 · 0 评论 -
Flume-实战
Flume由Cloudera公司开发,是一个分布式、高可靠、高可用的海量日志采集、聚 合、传输的系统。Flume支持在日志系统中定制各类数据发送方,用于采集数据; Flume提供对数据进行简单处理,并写到各种数据接收方的能力。 简单的说,Flume是实时采集日志的数据采集引擎。 Flume有3个重要组件:Source、Channel、Sink 特点: 分布式:flume分布式集群部署,扩展性好 可靠性好: 当节点出现故障时,日志能够被传送到其...原创 2021-07-13 08:24:36 · 422 阅读 · 0 评论 -
MapReduce(2)——编程实战
MapReduce编程须知map()方法是对输入的一个KV对调用一次!!Reduce()方法是对相同K的一组KV对 调用执行一次一、WordCount统计功能1.1 需求1.2 思路梳理Map阶段:1. map()方法中把传入的数据转为String类型 2. 根据空格切分出单词 3. 输出<单词,1>Reduce阶段:1. 汇总各个key(单词)的个数,遍历value数据进行累加 2. 输出key的总数...原创 2021-07-04 17:42:53 · 587 阅读 · 2 评论 -
HDFS(1)(2)——解读上传、下载(读写)、元数据管理原理
一、HDFS上传和下载流程图讲解1.1 HDFS读数据流程1. 客户端通过Distributed FileSystem向NameNode请求下载文件,NameNode通过查询元数据,找到文件块所在的DataNode地址(块信息和块存储的节点信息)。 2. 向DataNode(就近原则,然后随机)服务器发送请求读取数据。 3. DataNode开始传输数据给客户端(从磁盘里面读取数据输入流,以Packet为单位来做校验)。 4. 客户端以Packet为单位接收,先在本地缓存,然后写入目标文原创 2021-06-27 20:08:34 · 570 阅读 · 0 评论 -
HDFS(1)(3)——编码实战
一、客户端环境准备(1)将Hadoop-2.9.2安装包解压到非中文路径(例如:E:\hadoop-2.9.2)(2)配置HADOOP_HOME环境变量(3)创建一个Maven工程,添加依赖<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifac原创 2021-06-27 15:03:31 · 237 阅读 · 0 评论 -
redis(1)(2)——数据类型和应用场景、命令行操作
一、连接启动服务./redis-server redis.conf连接./redis-cli -h 127.0.0.1 -p 6379或者./redis-cli二、Redis数据类型和应用场景Redis是一个Key-Value的存储系统,使用ANSI C语言编写。注意:Redis中命令是忽略大小写,(set SET),key是不忽略大小写的 (NAME name)2.1 Key的设计key的类型是字符串。1. 用:分割2. 把表名转换为key前缀,.原创 2021-06-25 07:41:50 · 215 阅读 · 0 评论 -
redis(1)(3)——底层数据结构
Redis作为Key-Value存储系统RedisDB结构Redis中存在“数据库”的概念,该结构由redis.h中的redisDb定义。 当redis 服务器初始化时,会预先分配 16 个数据库 所有数据库保存到结构 redisServer 的一个成员 redisServer.db 数组中 redisClient中存在一个名叫db的指针指向当前使用的数据库...原创 2021-06-24 07:25:39 · 141 阅读 · 0 评论 -
redis(3)(2)——Cluster分区与集群
分区分区是将数据分布在多个Redis实例(Redis主机)上,以至于每个实例只包含一部分数据分区的意义原创 2021-06-20 20:52:54 · 397 阅读 · 0 评论 -
redis(2)——主从复制
主从复制Redis支持主从复制功能,可以通过执行slaveof(Redis5以后改成replicaof)或者在配置文件中设置 slaveof(Redis5以后改成replicaof)来开启复制功能。一、特点主对外从对内,主可写从不可写 主挂了,从不可为主二、作用2.1 读写分离一主多从,主从同步 主负责写,从负责读 提升Redis的性能和吞吐量 需要注意点:主从的数据一致性问题2.2 数据容灾从机是主机的备份 需要注意点...原创 2021-06-17 07:56:29 · 233 阅读 · 0 评论 -
redis(1)(1)——缓存原理&设计
缓存基本思想什么是缓存?缓存原指CPU上的一种高速存储器,它先于内存与CPU交换数据,速度很快。现在泛指存储在计算机上的原始数据的复制集,便于快速访问。 在互联网技术中,缓存是系统快速响应的关键技术之一 ,以空间换时间的一种技术(艺术) 缓存的使用场景 DB缓存,减轻DB服务器压力一般情况下数据存在数据库中,应用程序直接操作数据库。 当访问量上万,数据库压力增大,可以采取的方案有: 读写分离,分库分表 当访问量达到10万、百万,需要引入缓存。 ...原创 2021-06-20 08:35:06 · 134 阅读 · 0 评论 -
redis(3)(1)——哨兵模式
哨兵(sentinel)是Redis的高可用性(High Availability)的解决方案: 由一个或多个sentinel实例组成sentinel集群可以监视一个或多个主服务器和多个从服务器。 当主服务器进入下线状态时,sentinel可以将该主服务器下的某一从服务器升级为主服务器继续提供服 务,从而保证redis的高可用性。...原创 2021-06-20 08:26:16 · 157 阅读 · 0 评论 -
HDFS(1)(1.2)——集群安装(HA)
概述 1. 所谓HA(High Available),即高可用(7*24小时不中断服务)。 2. 实现高可用最关键的策略是消除单点故障。Hadoop-HA严格来说应该分成各个组件的HA机制: HDFS的HA和YARN的HA3. Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF)。 4. NameNode主要在以下两个方面影响HDFS集群 NameNode机器发生意外,如宕机,集群将无法使用,直到管理员重启 Na...原创 2021-05-21 08:33:20 · 106 阅读 · 0 评论 -
Zookeeper(3)——命令行使用,编程实践总结(对监听,分布式锁)
命令行使用编程实践之监听编程实践之分布式锁原创 2021-05-21 08:24:51 · 178 阅读 · 0 评论 -
Zookeeper(2)——数据结构,监听,选举,zab协议介绍
前面Zookeeper(1),我们介绍了下zookeeper和如何安装zookeeper集群,本篇文章我们主要详细介绍zookeeper的数据结构,突出特征(监听机制),选举原理等。Zookeeper数据结构数据结构Znode特征在ZooKeeper中,数据信息被保存在一个个数据节点上,这些节点被称为znode。ZNode 是 Zookeeper 中最小数据单位,在 ZNode 下面又可以再挂 ZNode,这样一层层下去就形成了一个层次化 命名空间 ZNode 树,我们称为 ZNode原创 2021-05-20 07:09:14 · 138 阅读 · 0 评论 -
Zookeeper(1)——集群安装
介绍Zookeeper 是一个分布式协调服务的开源框架。 主要用来解决分布式集群中应用系统的一致性问题, 例如怎样避免同时操作同一数据造成脏读的问题。分布式系统中数据存在一致性的问题!!ZooKeeper 本质上是一个分布式的小文件存储系统。 提供基于类似于文件系统的目录树方式的数 据存储,并且可以对树中的节点进行有效管理。 ZooKeeper 提供给客户端监控存储在zk内部数据的功能,从而可以达到基于数据的集群管理。 诸 如: 统一命名服务(dubbo)、分布式配置管理..原创 2021-05-19 08:40:39 · 216 阅读 · 0 评论 -
impala(2)——使用总结
使⽤Yum⽅式安装Impala后,impala-shell可以全局使⽤;进⼊impala-shell命令⾏ impala-shell进⼊到impala的交互窗⼝impala-shellmkdir -p /home/impala/datavim user.csv392456197008193000,张三,20,0267456198006210000,李四,25,1892456199007203000,王五,24,1492456198712198000,赵六,26,23924原创 2021-05-15 20:59:27 · 535 阅读 · 0 评论 -
impala(1)——安装
概述Impala是Cloudera提供的⼀款开源的针对HDFS和HBASE中的PB级别数据进⾏交互式实时查询(Impala 速度快)Impala是参照⾕歌的新三篇论⽂当中的Dremel实现⽽来,其中旧三篇论⽂分别是 (BigTable,GFS,MapReduce)分别对应我们即将学的HBase和已经学过的HDFS以及MapReduce。 Impala最⼤卖点和最⼤特点就是快速,Impala中⽂翻译是⾼⻆羚⽺Impala的诞⽣之前学习的Hive以及MR适合离线批处理,但是对交..原创 2021-05-15 07:40:06 · 357 阅读 · 0 评论 -
hive(3)——高级-sql业务案例汇总
1、连续7天登录的用户创建表和加载数据vim /home/hadoop/data/ulogin.dat1 2019-07-11 11 2019-07-12 11 2019-07-13 11 2019-07-14 11 2019-07-15 11 2019-07-16 11 2019-07-17 11 2019-07-18 12 2019-07-11 12 2019-07-12 12 2019-07-13 02 2019-07-14 12 2019-07-15 12 20原创 2021-05-09 18:02:59 · 326 阅读 · 0 评论 -
Hive(2)——使用总结
一、入门须知1.1 hive命令linux查看hive -help;查询hive -e "select * from users";使用hive命令sql语句编写:select '1.0' + 2;select '111' >1;select cast('111' as int );select arr[0] from ( select array(1,2) arr) tmp;执行脚本中sql语句-f:执行脚本中sql语句# 创建文件h原创 2021-05-08 08:15:44 · 824 阅读 · 0 评论 -
Hive(1)——安装
概念基于Hadoop的一个数据仓库工具,可以将 结构化的数据文件 映射为一张表(类似于RDBMS中的表),并提供类SQL查询功能Hive是由Facebook开源,用于解决海量结构化日志的数据统计。Hive本质是:将 SQL 转换为 MapReduce 的任务进行运算,底层由HDFS来提供数据存储可以将Hive理解为一个:将 SQL 转换为 MapReduce 任务的工具;Hive的优缺点优点 学习成本低。Hive提供了类似SQL的查询语言,开发人员能快速上手;处理海量数据。.原创 2021-05-08 06:47:17 · 219 阅读 · 2 评论 -
MapReduce(1)——原理讲解
一、MapTask运行机制详解对输入目录中文件进行逻辑切片:splits,有多少个split就对应启动多少个MapTask 分区(按key.hashcode%reduceTask进行分区,默认100M)——>溢写到磁盘临时文件(对分区80%的空间数据进行溢写,按key排序,快排)——>分区合并(归并排序,记录一个索引文件,即每个reduce对应数据的偏移量)MapTask 并行度有多少个MapTask就对应多少个split,一个分片大小默认等于block的大小=128...原创 2021-04-08 14:05:56 · 203 阅读 · 0 评论 -
HDFS(1)(2)——命令行操作
查询指定命令功能hdfs dfs -help cat#创建多级别文件夹hdfs dfs -mkdir -p /hgli01/test01#查看文件夹hdfs dfs -ls /hgli01# 剪切文件:-moveFromLocal 本地源文件 hadoop上目标文件hdfs dfs -moveFromLocal ./test.txt /hgli01/test01/test.txt# 复制文件:-copyFromLocal或者-put 本地源文件 hadoop上目标文件hdfs原创 2021-04-05 20:21:41 · 184 阅读 · 2 评论 -
HDFS(1)(1.1)——集群搭建(验证上传,字符统计功能)
一、hdfs特点架构为:主从架构(NameNode管理元数据...等,DataNode管理数据存储...等;备注:元数据记录的是文件的文件名,大小,副本数,位置等)。 分块存储(block),默认128,可配置。 抽象树:hdfs://namedone:port/目录。 副本机制:block文件都有副本,默认3个。 适合一次写入,多次读出。二、集群规划框架 linux126 linux127 linux128 HDFS NameNode,DataNode原创 2021-04-03 11:18:56 · 175 阅读 · 0 评论 -
hadoop(1)——简介
转存失败重新上传取消转存失败重新上传取消转存失败重新上传取消转存失败重新上传取消正在上传…重新上传取消转存失败重新上传取消转存失败重新上传取消转存失败重新上传取消转存失败重新上传取消一、概念狭义的Hadoop:指的是一个框架,Hadoop是由三部分组成:HDFS:分布式文件系统--》存储;MapReduce:分布式离线计算框架--》计算;Yarn:资源调度框架广义的HadoopFlume:日志数据采集,Sqoop:关系型数据库数据的采集,数据的导出原创 2021-04-03 09:57:34 · 207 阅读 · 0 评论