- 博客(33)
- 收藏
- 关注
原创 数仓建模与数据采集
数仓分层:ODS (源数据层)存的数据内容需要进行大数据分析的业务关联数据以hive表形式展现,存储在hdfs文件系统特点:导入数据的过程一定不能改变原有的数据内容数据从哪里来sqoop是从oracle业务系统中导入的数据DWD (数据明细层)存的数据内容所有业务系统表的明细数据(分区数据)数据从哪里来从ods层按分区导入的数据DWS (维度层 DIM)存的数据内容存储维度层数据:日期维度,地理区域各个不同粒度的维度数据…以or
2022-03-03 13:21:34
322
原创 python网络编程基础,进程,线程介绍。有代码
网络编程 IP,端口,协议(TCP)创建进程: import multiprocessing 密集计算用进程 aa=multiprocessing.Process(target=函数名) 创建进程对象 传实参给函数的两种方式,元组,和字典 aa=multiprocessing.Process(target=coding,args=('ddddd',)) aa=multiprocessing.Process(target=music_,kwar
2022-03-03 13:03:24
137
原创 hbase简写重点
Hbase应用 掌握–即可Hbase适用于存储稀疏型数据,常用于用户画像 + 推荐系统关于表的基本操作原理架构 掌握–即可数据模型1-命名空间2-region,类似于数据表3-store 对应列族4-column 对应列5-timestamp 时间戳 ,Hbase插入数据按照时间戳给定版本6-version 需要保存的历史版本号Hbase的原理深入1-Hbase 的Client 如何理解和ZK以及Hbase 交互?Clinet三次握手1-Client跟Zk握
2021-07-25 21:42:53
175
原创 数仓回顾剖析
ETL不能解决所有数据仓库的问题,因为零散的ETL需求,将结果堆砌到数据仓库,会造成数据库杂乱无章,管理混乱,需要合理的数据治理,以及数仓分层。1. 数据仓库的特征 4个特征面向主题 :每个需求和表都属于一个主题,可以用主题来对数仓的表分门别类集成性:将异结构数据源,比兔RDBMS,半结构化数据json,xml,properties,或者是flume切割的日志,转换成结构化的hive表,统一到ODS层非易失性:对历史的所有数据的存储需要稳定性,使用非易失的介质来保存,用HDFS时变性:数..
2021-07-19 12:56:21
137
原创 spark重点知识-1
RDD,DataFrame,DataSetDataSet产生于spaek1.6比DataFrame多了泛型的支持DataFrame就是DataSet[row]DataSet[T]的元素经过tungsten优化,是内存的优化,可以节省空间85%自动支持各种类型的编码器,就是强类型基本类型 int ,long ,stringrowjvm对象,case class 对象使得元素是样例类对象【student(name:string;age:int】时,将类的属性名映射成sql的表字段名
2021-07-12 16:40:43
493
原创 spark-streaming
概述原生流处理数据来一条就立即计算一条代表框架 strom(已淘汰) ,flink微批次处理积攒一段时间间隔的数据,再一次对这些微批次数据做处理,间隔 0.5-5秒sparkStreaming数据抽象sparkStreaming 计算思想sparkstreaming就是微批流处理思想官方定义Spark Streaming模块: 可以轻松构建可扩展的容错流应用程序Dstream的介绍回顾,之前的数据抽象sparkCore:RDDsparkSQL:
2021-07-11 20:41:03
214
1
原创 kafka--基准测试,javaAPI,分片与副本,生产者-broker-消费者数据的防丢措施,消息存储和查询,数据分发策略,数据负载均衡
kakfa的基准测试创建一个topic : 在实际上生产中, 可以创建多个 拥有不同数量的分片和副本topic./kafka-topics.sh --create --zookeeper node1:2181,node2:2181,node3:2181 --topic test02 --partitions 3 --replication-factor 1测试写入效率:./kafka-producer-perf-test.sh --topic test02 --num-reco
2021-07-10 20:06:01
303
2
原创 kafka--消息队列的介绍,kafka介绍,架构,安装操作,shell命令
消息队列的基本介绍消息队列产生的背景消息(message): 数据队列(queue): 存储数据的队列消息队列: 指的从队列某一侧进行存储, 从队列的另一侧被取出过程, 数据在队列中产生一种流动现象常见的消息队列产品为了解决上述的问题, 专门提供一种类型软件: messageQueue (消息队列): 1) activeMQ: 出现时间比较早一款消息队列的中间件, 前几年在(用户)业务领域 使用人数非常大, 目前整个社区活跃度不断下降, 使用人群不断的下降 2) RabbitMQ
2021-07-10 18:47:55
161
原创 hbase-phoenix的视图,二级索引--重要
Phoenix的视图 说明: 发现在Phoenix的只有在Phoenix自定义的表以及Phoenix的系统表, 如果我们在hbase上自定义的表, 在Phoenix中无法找到的, 那么也就意味着无法通过Phoenix对hbase自建的表进行相关的操作 如何解决这种问题呢? 采用Phoenix提供的视图视图主要的目的: 对hbase自建表进行映射关系匹配, 这个过程类似于 hive表和hdfs上数据进行映射 映射成功后, 我们就可以通过Phoenix对hbase中自建表进行相关的查询操作
2021-07-10 18:20:21
537
原创 hbase--phoenix---介绍,安装,入门,与基于Phoenix实现hbase的预分区
Phoenix的基本介绍Phoenix是一款apache旗下的开源的 基于hbase可以使用SQL的方式来查询hbase数据的工具 Phoenix的出现主要目的就是为了能够让我们通过另一种方式(SQL)来操作hbase, 同时Phoenix对hbase也进行各种的优化操作, 能够让我们更加高效的操作hbase中数据Phoenix的安装容易犯错的点:1) Phoenix的jar包没有拷贝到hbase的lib目录中, 或者说没有將Phoenix分发到各个hbase的lib目录2) 没有将hbas
2021-07-10 17:20:07
391
原创 hbase--和hive的集成操作,表结构设计,协处理器
Hbase和Hive的集成操作hbase和hive的对比hbase:是一个基于hadoop的noSql型数据库,延迟比较低,对接在线业务,或者对应实时业务hive:是一个基于hadoop的数据仓库的工具,延迟比较高,对接离线分析的操作,主要是进行ETL操作hive和hbase都是两款基于hadoop的不同软件,这两款软件也是可以支持集成操作的,可以使用hive读取hbase中数据,从而实现离线分析的操作,hbase和phoneix进行集成,集成后主要可以进行即席的查询操作hbase如何
2021-07-10 17:05:10
332
原创 hbase---高可用,集群架构,原理,工作机制,Bulk Load 批量加载操作
hbase的高可用什么是hbase的高可用?指的是:让master节点能够有多个,当节点宕机后,能够有备份的节点顶的上来,此时认为master形成了高可用状态如何实现hbase的主节点的高可用呢?环境为VMware 三台虚拟机在hbase的conf目录下,创建backup-master文件,并添加如下内容:node1中执行: cd /export/server/hbase-2.1.0/conf/ vim backup-masters内容如下: node2.itcast.cn node3.
2021-07-10 16:33:06
438
原创 Hbase的java API
hbase的javaAPI的操作创建一个maven的项目, 导入相关的依赖<repositories><!--代码库--> <repository> <id>aliyun</id> <url>http://maven.aliyun.com/nexus/content/groups/public/</url> <rel
2021-07-09 19:43:29
206
2
原创 Hbase的安装和shell操作
hbase的安装操作在安装过程中, 如果启动失败了, 一般出现的错误的位置:在hbase-env.sh中没有将注释打开在hbase-site.xml中 没有修改 zookeeper的存储的路径没有将jar包(htrace-core-3.1.0-incubating.jar)拷贝到hbase的lib的目录下zookeeper或者 hadoop没有启动良好如果以上四个都没有问题,停止hbase, 将元数据删除, 重启hbase即可:如何删除元数据: 主要删除两
2021-07-09 19:38:12
413
原创 hbase基本概念,表模型,与其他软件的区别 看图
基本概念HBase是一款大数据中nosql型数据库, 既然是nosql型的数据库, 一般来说不支持SQL 也不支持join 没有表关系 不支持事务(仅支持单行事务)… HBase是由java开发的一款 基于HDFS 数据存储容器, 数据最终是存储在HDFS上, 那么也就意味着, 如果要启动HBase必须先启动号hadoop , 同时HBase设计思想来源于 Google发布的bigTable论文 HBase主要支持三种方式读取数据:根据rowkey(主键|行键)来读取数据根
2021-07-09 19:01:55
201
原创 一道 spark-submit 面试题
bin/spark-submit–class com.huawei.cluster –master yarn-cluster ==–driver-cores 2 ====–driver-memory 30G ==–conf spark.shuffle.service.ennabled=true –conf spark.memory.storageFraction=0.30 –conf spark.memory.fraction=0.7 –conf spark.default.parall
2021-07-09 18:25:42
329
原创 hive总结
数据仓库的概念数据仓库:主要用于做分析的OLAP数据库:事务处理 OLTP数据仓库的分层源数据层:ODS层 主要是针对我们的来源数据数据仓库层:DW层 主要用于存储数据 分析数据数据展示层: APP层 主要用于做数据的报表展示功能hive的基本概念hive是一个用来做数据分析的框架,主要用于数据仓库hive与hadoop的关系:hive的数据存储到 hdfs hive的数据计算用 mapreducehive的安装部署安装mysql 配置hivehive的..
2021-07-09 18:16:19
93
原创 hive数据的存储格式
hive的存储格式:研究的事使用哪种数据的存储格式让我们的数据更加紧凑,取数据的时候会加快速,让数据占用磁盘空间更少,压缩和解压缩的时候更加的快速存储格式主要有四种:text sequenceFile(二进制) parquet(二进制)orc分为两大类:行式存储:text sequenceFile列式存储:paequet orcorc文件存储格式 列式存储一个orc文件由多个stripe组成,一个stripe由三块构成分别是:index Data,row data,stripe
2021-07-09 17:58:30
155
原创 hive的压缩
压缩减少网络传输量==hive当中使用的压缩方式是:snappyhadoop2 默认本地库不支持snappy的压缩 需要重新编译hadoop让其支持本地库的压缩开启map的输出阶段压缩可以减少job中map和reduce task间数据传输量,具体配置如下:案例实操:1)开启hive中间传输数据压缩功能hive (default)>set hive.exec.compress.intermediate=true;2)开启mapreduce中map输出压缩功能hive (defaul
2021-07-09 17:43:58
229
原创 hive的三种参数设置和udf,udaf,udtf自定义函数
hive当中的三种参数设置第一种 hive-site.xml 对所有的hive的客户端都有效第二种参数设置:命令行的参数 bin/hive -hiveconf 参数名=参数值 对我们进入的这次会话有效第三种参数设置 :参数声明 对当前的sql语句生效 set 参数名=参数值hive自定义函数hive的自定义函数:第一种:UDF 一行数据进去,一行数据出来第二种:UDAF 多行进,一行出第三种:UDTF 一行进 多行出hive自定义函数步骤第一步:常见工程,导
2021-07-09 15:26:56
883
原创 hive查询所有方法,join
语法结构注意hive查询语法剖析order by 全局排序,只有一个reduceTask,如果数据量太大的话,那么就会导致数据处理速度非常慢sort by 有多个reduceTask只保证每个reduceTask里面的数据有序,两个reduceTask之间的数据无序distributed by 根据指定的字段,按照指定的字段进行 hash算法,确定我们的数据要去往哪里一个reducecluster by :除了具有distributed by的功能,还会对这个字段今夕排序hive的gro
2021-07-09 15:25:28
135
原创 hive导入,导出数据
hive当中的数据加载:导入这两种加载数据的方式,一定要掌握(1)load data(2)insert overwrite table xxx select * from ***insert overwrite table score4 partition(month='201806') select s_id ,c_id ,s_score from score;```第二种方式:启动服务端,使用beeline进行交互(掌握)第三种方式使用hive命令行的交互bin/hive -e 不进入hive的客户端直接执行hql语句bin/hive -f hive.sql 不进入hive的客户端,直接执行hive的脚本1.bin/hive2-使用beeline进行交互(Hive推荐的交互使用方式)**1.先启动 hadoopstart-all.sh2. 启动.
2021-07-08 23:23:55
564
原创 hive的安装,极简看图
hive只需要安装在一台有hadoop的程序上就可以了,Hive是Hadoop的MapReduce的的客户端程序,MapReduce是分布式下载地址实际线上环境,关于mysql的控制比较严格,不同的人分配不同用户,创建不同的数据库,分配不同的权限mysql的远程连接授权语句:grant all privileges on . to ‘root’@’%’ identified by ‘123456’ with grant option;flush privileges; 刷新权限表. :
2021-07-08 23:08:35
124
原创 hive与hadoop的关系
hive就是一个mr的客户端mapreduce为什么慢反复的将数据从磁盘到内存,从内存到磁盘的读取写入操作(spark从头到尾都在内存中,所以比MR快)1. 首先读取hdfs的数据到map的环形内存缓冲区2. 缓冲区形成小文件到reduce的内存3. reduce从内存落入磁盘hive的数据时存储在hdfs上面,而且hive支持各种存储格式注意:千万别把hive当做数据库来用,hive是用来做数据仓库的现在版本的hive支持插入,不支持修改,删除操作,最主要的功能就是查询,是对已经发生
2021-07-08 22:53:37
1103
原创 hive的架构,极简看图
用户接口:提供我们写sql的地方元数据:记录我们hive的表与我们数据之间的映射关系解析器:解析我们的sql语句,转换成mr的任务提交,准备执行执行器:mr执行
2021-07-08 22:40:27
81
原创 Hive的极简理解,看图
Hive:是一个数据仓库的处理工具,专门用于数据仓库的数据分析hive是基于hadoop的一个数据仓库的工具,将结构化的数据映射成为一张表,并且提供类似sql的查询功能结构化数据1.结构化数据:体现为数据字段固定,数据类型固定,数据库的表就是一种最典型的结构化数据2.半结构化数据:数据类型一定,但是数据的字段个数不定3.非结构化数据:完全没有任何规律,字段类型不定,字段的个数不定,数据的类型不定,比如说音频,视频映射hive可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能hi
2021-07-08 22:34:14
142
原创 数据仓库的详细分层
数据仓库的详细分层1.什么是数据仓库仓库就是用来存储,外界放入数据的,仓库不会生产数据也不会消耗这些数据。数据仓库:简称DW data warehouse 里面装的都是数据目的:构建面向分析集成化数据环境,主要职责就是做分析,对仓库里面的数据来做分析,然后数据分析可以支持企业分析人员做决策2.数据分析的特征面向主题:数据分析有一定的范围,需要选取一定的主题进行分析集成性:集成各个其他方面关联的一些数据,比如分析订单购买人的情况,就涉及到牵连用户信息的情况非易失性:数据分析主要是分析过去已经
2021-07-08 22:14:55
2448
原创 Hive 的数据类型和数据模型
在上篇文章里,我列举了一个简单的hive操作实例,创建了一张表test,并且向这张表加载了数据,这些操作和关系数据库操作类似,我们常把hive和关系数据库进行比较,也正是因为hive很多知识点和关系数据库类似。 关系数据库里有表(table),分区,hive里也有这些东西,这些东西在hive技术里称为hive的数据模型。今天本文介绍hive的数据类型,数据模型以及文件存储格式。这些知识大家可以类比关系数据库的相关知识。 首先我要讲讲hive的数据类型。 Hive支持两种数据类型,一类叫原子
2021-06-03 16:03:14
536
原创 Hive 介绍
首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特性: 1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 2.Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提
2021-06-03 16:00:26
2934
原创 SQL greatest()函数实例详解实例
1、语法GREATEST(expr_1, expr_2, ...expr_n)函数从表达式(列、常量、计算值)expr_1, expr_2, ... expr_n等中找出最大的数返回。在比较时,OracIe会自动按表达式的数据类型进行比较,以expr_1的数据类型为准。2、使用位置过程性语句和SQL语句3、示例示例一:数值——expr_1为数值型。按大小进行比较。全部为数值,取出最大值16:SQL> SELECT GREATEST(2, 5, 12, 3, 16, 8,
2021-06-03 15:36:50
1859
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人