
离线数仓
文章平均质量分 86
烟解愁、酒上头
这个作者很懒,什么都没留下…
展开
-
Hive 3.1.2 数仓基本概念 大致分层
数据仓库的基本概念数据库和数据仓库的区别:数据库 On-Line Transaction Processing(OLTP):存储数据的仓库 一般用于事务操作,主要是用于捕获数据 要求延迟性较低数据仓库 On-Line Analytical Processing(OLAP):存储数据的仓库 吗,面向于主题(分析)的,一般是保存过去的历史数据,主要是对这些数据进行统计分析,对未来提供决策支持,一般对延迟没有特备要求何为数据分析呢?指的从数据容器中,根据需求要求获取相关的数据的过程(数据查询操作)原创 2021-09-25 20:57:09 · 677 阅读 · 0 评论 -
Hadoop ----HDFS MapReduce
HDFSNameNode负责管理DataNode保存所有的元数据(目录的位置结构 存储的磁盘位置)是HDFS的核心 是单点故障 一旦出现问题 整个HDFS不在对外提供服务·edits 操作日志文件fsimage元数据文件SecondaryNameNode获取NameNode的数据延后将新的NameNode数据进行合并 然后再次写入NameNode中DataNode负责数据的存储数据是按块存储的 hadoop 2.XXX以后 128MDataNode定时(心跳机制) 将.原创 2021-11-20 19:45:38 · 1619 阅读 · 0 评论 -
Hadoop3.3.0--Linux编译安装
Hadoop3.3.0–Linux编译安装Hadoop完全分布式安装1. 集群规划2.基础环境# 主机名 hosts映射vim /etc/hosts127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4::1 localhost localhost.localdomain localhost6 localhost6.localdomain6192.168.227.15原创 2021-11-20 17:35:19 · 446 阅读 · 0 评论 -
大数据导论 Apache Zookeeper3.4.6 好好看好好学
一、大数据导论1.数据与数据分析2.数据分析作用现状分析原因分析预测分析3.数据分析基本步骤明确分析目的数据收集数据处理数据分析数据展现报告撰写4.大数据什么是大数据海量数据的挑战大数据的特点Volume : 数据量大,包括采集、存储和计算的量都非常大;Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据;Value:数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵;Velocity:数据增长速度快,处理速度也快,时效性要求高;Vera原创 2021-11-20 16:04:15 · 1105 阅读 · 0 评论 -
JAVA基础篇(二)-------数组方法 + 面向对象 +好好看 好好学
JAVA 数组 + 面向对象一、数组1. 数组的基本使用数组的概念: 数组就是用来同时存储多个同类型元素的容器JAVA : [1,2,3,4,5] JAVA 是强类型语言, 不能存储其他类型的数据, 要整型都是整型 ;要字符串 都是字符串。python [1,2,“curry”,“james”] python 的list列表可以同时存储多个类型的数据。后面会整理一些 数据结构和算法 的文章 后期会发布 大家可以看看。格式:动态初始化: 我们指定长度,由系统给出默认值。原创 2021-11-14 22:09:38 · 445 阅读 · 0 评论 -
JAVA基础篇(一)
一、Java基本介绍1.Java 简介Sun公司(Stanford University NetWork)美国的斯坦福大学 在1995年推出的高级编程语言。Java之父: 詹姆斯 • 高斯林(James Gosling)Sun公司在2009年被甲骨文(Oracle)公司给收购了。1.1 Java的优势使用最广泛,且简单易学Java 是一门强类型语言Java 有非常完善的异常处理机制Java提供了对于大多数大数据的基础性支持2. Java开源的跨平台语言开源指的是Java的原创 2021-11-11 21:11:57 · 987 阅读 · 0 评论 -
Spark与PySpark交互流程 spark-submit相关参数、RDD特性特点 以及构建 RDD的算子函数
Spark相关内容3 RDD相关内容3.1 什么是RDD?RDD:**弹性分布式数据集**RDD出现的目的:主要用于支持迭代计算,并且提升迭代计算的效率3.2 RDD的五a大特性:(必须具备)可分区的(必须具备)计算函数(对每个分区进行计算操作)(必须具备)存在依赖 (上一步每执行完 下一步无法执行 需要上一步的结果)(可选)对于key-value数据存在分区计算函数(可选)移动数据不如移动计算(将计算程序运行在离数据越近越好) —距离优化其中前3个特性是每一个原创 2021-10-13 19:50:54 · 386 阅读 · 0 评论 -
Hive的相关优化
1、hive的相关优化1.1 hive的压缩配置压缩有什么用?'好处': 在有限的空间下,存储更多的资源'坏处': 压缩和解压需要消耗额外的资源 通过压缩 优化MR 提升效率位置一: 'map阶段的输出结果上' '好处一':当reduce在拉取数据的时候,由于数据已经压缩,所以整个数据量减少,从而减少网络带宽,提升拉取的效率 '好处二':在一些特殊情况下,整个MR只有map 没有reduce的,此时map输出的结果就是最终的结果,对结果进行压缩,减少磁盘存储,提升磁盘利用率位置原创 2021-10-06 07:41:33 · 267 阅读 · 0 评论 -
HIVE的参数配置、行转列 列转行 json相关 窗口函数
1、Hive的参数配置./hive 是hive的第一代客户端,次客户端,主要有两大作用 用于执行一些交互式或者批处理的操作,第二大作用,是用于启动hive的各项服务第一大作用:交互式(了解)./hive 进入交互式 进入之后,可以在客户端内部,不断和hive进行相关操作,在一个会话中,可以不断和hive进行交互批处理 批处理: 指的在不进入hive的交互窗口下, 即可操作hive, 主要是linux的命令行下操作 好处: 主要的目的是为了后续在linux的脚本中连接hive进行原创 2021-10-06 05:51:53 · 946 阅读 · 0 评论 -
HIVE的 “DDL其他语法、DML语法、DQL语法、高阶排序、join相关内容”
1、DDL其他语法说明都对库的相关操作-- 创建库的语法:create database [if not exists] database_name;-- 查看库的详细信息:携带上extended会看到更为详细的库信息describe database [extended] db_name;-- 查看所有的库show database;-- 如何使用库use db_name;-- 如何删除库drop database db_name;对于表的相关的操作:show ta原创 2021-10-03 18:15:50 · 242 阅读 · 0 评论