
数据仓库
文章平均质量分 77
hvie
大数据精读周刊
这个作者很懒,什么都没留下…
展开
-
002.精读《The Google File System》| 大数据的三驾马车之一:GFS
介绍了GFS(Google文件系统)的核心设计目标和关键特性。它强调了该系统如何有效处理大量分布式、容错和可扩展的数据存储需求,以支持Google的大规模数据处理应用程序。系统设计包括了容错性、性能优化和可扩展性等方面,适用于在数千台通用硬件设备上运行的大规模应用程序。目标:我们设计并实现了Google文件系统,这是一个可扩展的分布式文件系统,适用于大型分布式数据密集型应用。强调。原创 2024-08-25 20:00:36 · 951 阅读 · 0 评论 -
元数据:数据的罗塞塔石碑
元数据(Metadata)是描述数据的数据。它详细说明了数据的属性、上下文、来源、结构和使用方法。简单来说,元数据就像是数据世界里的导游,它告诉我们数据的来龙去脉。元数据不仅捕捉了数据从诞生到被使用的每一个步骤,还详细记录了数据的结构和数据流转的路径。在数据仓库的日常操作中,元数据就像是一个智能的助手,它让数据管理员和开发者能够轻松定位到他们需要的数据。这不仅让数据管理和开发工作变得更加得心应手,还显著提升了工作效率。元数据的作用描述理解数据的起源和含义。原创 2024-06-17 21:21:33 · 1100 阅读 · 0 评论 -
数据仓库核心:事实表深度解析与设计指南
事实表是数据仓库中的核心,它与维度表相对应,存储了业务过程中量化的数据,也就是我们通常所说的度量值(measures度量值:这些是事实表中的主要数据,可以进行数值计算,如销售额、订单数量、产品单价等。维度键:这些是指向维度表的外键,通过它们,事实表与维度表相连,从而为度量值提供上下文信息。上下文信息:提供额外的业务信息,如时间戳、事务ID等。粒度”描述了事实表中每条记录所捕捉到的业务细节的深度。它可以通过两个维度来衡量:首先是维度属性的组合,它们决定了数据条目的详细程度;原创 2024-06-10 10:53:06 · 1957 阅读 · 1 评论 -
数据仓库核心:维度表设计的艺术与实践
说回维度表,它承载着丰富的描述性信息,是连接事实表的桥梁。主键:它是维度表的“身份证”,一个独特的标签,确保了每一行数据的唯一性。描述性属性:这些属性是维度表的灵魂,它们描绘了维度的细节,比如时间的流逝、地点的特色、产品的特性等。其就像一个精心编排的目录,它通过主键来确保每个条目都是独一无二的。这个主键就像是一把钥匙,不仅打开了数据的大门,还确保了与它相连的任何事实表之间的联系是牢固和完整的。代理键和自然键,它们都是用来标识维度表中的特定条目的。想象一下,代理键。原创 2024-06-02 21:00:40 · 1315 阅读 · 0 评论 -
解锁数据潜能:深入理解数据仓库建模及其模型对比
在选择数据仓库建模方法时,企业需要考虑多种因素,包括项目的紧急程度、数据的复杂性、预算限制以及未来的扩展性。每种建模方法都有其优势和局限性。Kimball方法适合快速交付和用户友好的BI解决方案,而Inmon方法更适合需要长期维护和企业级数据管理的场景。Data Vault方法提供了一种灵活的扩展性,而Anchor则专注于核心业务的稳定性。数据湖模型则适用于需要处理大量非结构化数据的场景。无论选择哪种方法,关键是确保数据模型能够支持企业的长期目标和决策需求。原创 2024-03-24 21:21:12 · 960 阅读 · 0 评论 -
深入理解Hive:探索不同的表类型及其应用场景
在本文中,我们深入探讨了Hive数据仓库中的表类型,包括内部表、外部表、分区表、桶表、视图以及临时表。每种表类型都有其独特的特性和适用场景,它们共同构成了Hive强大的数据管理能力。内部表和外部表主要根据数据存储位置和生命周期管理来区分。内部表的数据与Hive的元数据紧密关联,而外部表则允许数据在Hive之外独立存在。分区表和桶表则专注于查询优化,通过数据的逻辑和物理分割来提高查询效率。视图提供了一种灵活的数据抽象方式,而临时表则用于处理会话级别的数据存储需求。原创 2024-03-10 20:51:56 · 1937 阅读 · 0 评论 -
Hive 时间相关函数汇总
【代码】Hive 时间相关函数汇总。原创 2022-09-30 16:21:24 · 802 阅读 · 9 评论 -
SQL编程题练习题(基础)
SQL1 查询多列题目:现在运营同学想要用户的设备id对应的年龄、性别和学校的数据,请你取出相应数据select device_id, gender,age,university from user_profileSQL2 查询所有列题目:现在运营想要查看用户信息表中所有的数据,请你取出相应结果select * from user_profileSQL3 查询结果去重题目:现在运营需要查看用户来自于哪些学校,请从用户信息表中取出学校的去重数据。select distinct u原创 2022-01-25 09:33:45 · 3996 阅读 · 4 评论 -
数据仓库设计规范(更新中)1024投稿
文章目录设计规范逻辑架构技术架构分层设计主题划分分级管理命名规范层级任务表字段模型规范建模方法建模工具血缘关系维度退化元数据管理开发规范脚本注释字段别名脚本格式流程规范设计规范逻辑架构数据采集数据采集层:数据采集层的任务就是把数据从各种数据源中采集和存储到数据库上,期间有可能会做一些ETL (抽取extra,转化transfer,装载load )操作。数据源种类可以有多种:日志:所占份额最大;存储在备份服务器上业务数据库:如Mysg|、 Oracle ;来自HTTP/FTP的数据:合作伙原创 2021-10-24 18:01:06 · 837 阅读 · 4 评论 -
数据仓库设计规范(更新中)
文章目录设计规范逻辑架构技术架构分层设计主题划分分级管理命名规范层级任务表字段模型规范建模方法建模工具血缘关系维度退化元数据管理开发规范脚本注释字段别名脚本格式流程规范设计规范逻辑架构数据采集数据存储数据计算数据展现技术架构数据采集→Kafka→hdfs→Flink→HBase分层设计ods→dw→dws→sh→主题划分面向主题域管理为了提高指标管理的效率,你需要按照业务线,主题域,和业务过程三级目录方式来进行指标管理划分原子指标和派生指标原子指标+原子指标=派生指原创 2021-10-24 08:48:58 · 1488 阅读 · 24 评论 -
大数据平台架构浅析——以讯飞大数据平台Odeon为例
大数据平台架构解析——以讯飞大数据平台Odeon为例定义Odeon大数据平台以全图形化Web操作的形式为用户提供一站式的大数据能力:包括数据采集、任务编排、调度及处理、数据展现(BI)等;同时提供完善的权限管理、日志追踪、集群监控等能力功能数据通道:SQL、NoSql数据库及日志多源数据接入与导出数据管理:完善的元数据管理、数据质量标准管理体系,同时具备完整的数据隔离及授权机制数据分析:支持离线批处理、流式计算、OLAP、AdHoc等多种计算方式数据服务:基于Greenpl原创 2021-10-12 09:22:51 · 4918 阅读 · 19 评论 -
计算机网络经典面试题30问
文章目录1 简单介绍一下HTTP的长连接和短连接?2 简述计算机网络中的七层模型?3 常见的HTTP状态码有哪些?4 TCP的三次握手过程?为什么会采用三次握手,若采用二次握手可以吗?5 请简述一下TCP的三次握手和四次挥手协议?6 TCP和UDP相关的协议分别有哪些?7 TCP和UDP有什么区别?8 Post和Get有什么区别?9 在浏览器中输入www.baidu.com后执行的全部过程?先查IP地址tcp连接与http连接html渲染10 列举几种常见的协议,并简述他们的作用?11 cookie 和se原创 2021-10-11 10:05:31 · 3975 阅读 · 18 评论 -
大数据进阶之路——Spark SQL小结
文章目录手写 WordCountRDD、DAG、 Stage、 Task 、 JobSpark 作业提交流程Spark 的 Local 和 Standalone宽依赖、窄依赖Spark SQL比 Hive 快在哪打包的注意事项手写 WordCount使用flatMap、reduceByKey 来计算//sc是SparkContext对象,该对象是提交spark程序的入口sc.textFile("file:///home/hadoop/data/hello.txt") // 读取文件, .flat原创 2021-10-09 09:51:53 · 900 阅读 · 32 评论 -
大数据进阶之路——Spark SQL补充
在Spark中,支持4种运行模式:1)Local:开发时使用2)Standalone: 是Spark自带的,如果一个集群是Standalone的话,那么就需要在多台机器上同时部署Spark环境3)YARN:建议大家在生产上使用该模式,统一使用YARN进行整个集群作业(MR、Spark)的资源调度4)Mesos不管使用什么模式,Spark应用程序的代码是一模一样的,只需要在提交的时候通过–master参数来指定我们的运行模式即可ClientDriver运行在Client端(提交Spark作业原创 2021-10-08 21:33:13 · 847 阅读 · 2 评论 -
大数据进阶之路——Spark SQL日志分析
文章目录基本方案数据处理流程数据清洗二次清洗视频访问按照省份按照流量优化数据可视化echarts基本方案用户行为日志:用户每次访问网站时所有的行为数据(访问、浏览、搜索、点击…)用户行为轨迹、流量日志日志数据内容:1)访问的系统属性: 操作系统、浏览器等等2)访问特征:点击的url、从哪个url跳转过来的(referer)、页面上的停留时间等3)访问信息:session_id、访问ip(访问城市)等2013-05-19 13:00:00 http://www.taobao.com原创 2021-10-06 12:47:49 · 1731 阅读 · 16 评论 -
大数据进阶之路——Spark SQL 之 DataFrame&&Dataset
文章目录dataframe 和 rddAPI常用操作DataFrame和RDD案例DataSetDataFrame它不是Spark SQL提出的,而是早起在R、Pandas语言就已经有了的。A Dataset is a distributed collection of data:分布式的数据集A DataFrame is a Dataset organized into named columns.以列(列名、列的类型、列值)的形式构成的分布式数据集,按照列赋予不同的名称datafr原创 2021-10-04 08:22:47 · 932 阅读 · 20 评论 -
大数据进阶之路——Spark SQL基本配置
文章目录Spark安装编译失败环境搭建Standalone本地IDEHiveContextAPPSparkSessinonSpark ShellSpark Sqlthriftserver/beeline的使用jdbcMapReduce的局限性:1)代码繁琐;2)只能够支持map和reduce方法;3)执行效率低下;4)不适合迭代多次、交互式、流式的处理;框架多样化:1)批处理(离线):MapReduce、Hive、Pig2)流式处理(实时): Storm、JStorm3)交互式计算:Imp原创 2021-10-02 09:50:03 · 2459 阅读 · 18 评论 -
大数据进阶之路——Spark SQL环境搭建
文章目录大数据概述大数据组成HDFS概述环境搭建HDFS命令YARN架构详解YARN执行流程YARN环境搭建配置虚拟机大数据概述定义和特征海量的计算大量的用户全体数据分析数据管理4V特征1.Volume(大量) 截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类总共说过的话的数据量大约是5EB。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。2.Velocity(高速) 这是大数据区分于传统数据挖掘的最显著特征。根据原创 2021-09-30 14:29:40 · 2557 阅读 · 24 评论 -
Scala 必知必会
文章目录入门概述安装Java VS Scalaval 和 var基本数据类型lazy在Scala中的应用开发工具IDEAMaven函数方法定义默认参数命名参数可变参数条件语句循环语句面向对象概述类的定义和使用抽象类伴生类和伴生对象case和trait集合数组ListSetMapOptuon&Some&NoneTuple模式匹配基本类型List类型匹配异常处理高级函数字符串匿名函数Currying高阶函数入门概述https://www.scala-lang.org/Scala com原创 2021-09-27 09:47:01 · 1418 阅读 · 4 评论 -
大数据进阶之路——Scala 高级函数
文章目录高级函数字符串匿名函数Currying高阶函数高级函数字符串插值 val s ="hello" val name="jacksun" println(s+name) println(s+":"+name) println(s"hello:$name")多行字符串 //多行 var d = """ |1 |2 |3 |4 |5 |5 |6 """.str原创 2021-09-25 11:38:49 · 701 阅读 · 4 评论 -
大数据进阶之路——Scala 集合和模式匹配
文章目录集合数组ListSetMapOptuon&Some&NoneTuple模式匹配基本类型List类型匹配异常处理集合数组package org.exampleobject ArrayApp extends App{ //println("hello") val a = new Array[String](5) a(0)="hello" println(a(0)) val b = Array("hello","world") val c = Arr原创 2021-09-24 09:20:59 · 890 阅读 · 16 评论 -
数据库并集union、交集intersect、差集except
文章目录数据库的集合运算什么是集合运算并集—union补集—except交集—intersect集合运算的注意事项数据库的集合运算什么是集合运算即表之间的运算,如表的加减法并集(union),交集(intersect),补集(except)并集—union在前面插入数据的学习中,我们创建了一个表customer和staff表一样,后来又往里面添加了一个数据下面我们来用UNION连接这两个表:SELECT first_ name, last_ nameFROM customerUN原创 2021-09-23 15:20:44 · 12184 阅读 · 8 评论 -
大数据进阶之路——Scala 函数和对象
文章目录函数方法定义默认参数命名参数可变参数条件语句循环语句面向对象概述类的定义和使用抽象类伴生类和伴生对象case和trait函数方法定义 def 方法名(参数: 参数类型): 返回值类型 = { //方法体 //最后一行作为返回值(不需要使用return) } def max(x: Int, y: Int): Int = { if(x > y) x else y }package org.exampleobject App { de原创 2021-09-22 15:17:41 · 1304 阅读 · 15 评论 -
一分钟搞懂 数据仓库的全量表,增量表,拉链表
全量表:全部都记录增量表:没变化的数据不会记录拉链表:记录一个事物从开始, 直到当前状态的所有变化的信息原创 2021-09-16 17:23:53 · 1644 阅读 · 2 评论 -
MySQL数据库面试题(2021最新版)
MySQL常用的存储引擎有什么区别?常用的存储引擎有以下:Innodb引擎:Innodb引擎提供了对数据库ACID事务的支持。并且还提供了行级锁和外键的约束。它的设计的目标就是处理大数据容量的数据库系统。MyIASM引擎(原本Mysql的默认引擎):不提供事务的支持,也不支持行级锁和外键。MEMORY引擎:所有的数据都在内存中,数据的处理速度快,但是安全性不高。MyISAM与InnoDB区别MyISAMInnodb存储结构每张表被存放在三个文件:frm表格定义、MYD原创 2021-09-03 10:39:22 · 3287 阅读 · 55 评论 -
Hive必知必会(数据仓库)
文章目录第1章Hive入门1.1 什么是Hive1.2 Hive的优缺点1.2.1 优点1.2.2 缺点1.3 Hive架构原理1.4 Hive和数据库比较第2章Hive安装2.1Hive安装地址2.2 Hive安装部署2.3 将本地文件导入Hive案例2.4 MySql安装2.4.1 安装包准备2.4.2 安装MySql服务器2.4.3 安装MySql客户端2.4.4 MySql中user表中主机配置2.5 Hive元数据配置到MySql2.5.1 驱动拷贝2.5.2 配置Metastore到MySql2原创 2021-08-25 16:57:50 · 1438 阅读 · 8 评论 -
MySQL必知必会
文章目录第一章:数据库基础基本概念什么是SQL第二章:MySQL 简介第三章:了解数据库和表第四章:检索数据SELECT语句第五章:排序检索数据找出一列中最高或最低的值第六章:过滤数据使用WHERE子句WHERE子句操作符第七章:数据过滤第八章:用通配符进行过滤LIKE操作符使用技巧第九章:用正则表达式进行搜索使用MySQL正则表达式基本字符匹配进行OR匹配匹配几个字符之一匹配范围匹配特殊字符匹配字符类匹配多个实例定位符第十章:创建计算字段计算字段拼接字段使用别名执行算术计算第十一章:使用数据处理函数使用函原创 2021-08-23 10:04:24 · 18451 阅读 · 274 评论 -
数据库开窗函数
SQL日期函数函数功能now()返回当前的日期和时间curdate()返回当前的日期curtime()返回当前的时间date()提取日期,日期/时间表达式的日期部分extract()返回日期/时间的单独部分date_add()给日期添加指定的时间间隔date_sub()从日期减去指定的时间间隔datediff()返回两个日期之间的天数date_format()用不同的格式显示日期/时间day()取时间字段的天值原创 2021-08-20 16:29:55 · 1682 阅读 · 1 评论 -
数据库的内外链接和左右链接
准备数据标题表(title)DROP TABLE IF EXISTS `title`;CREATE TABLE `title` ( `id` int(11) NOT NULL AUTO_INCREMENT, `name` varchar(255) DEFAULT NULL, PRIMARY KEY (`id`)) ENGINE=MyISAM AUTO_INCREMENT=5 DEFAULT CHARSET=utf8;INSERT INTO `title` VALUES (1,'孙中明原创 2021-08-20 15:28:54 · 2912 阅读 · 0 评论 -
数据仓库基础
数据仓库概念数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。用于数据存储,数据分析和数据决策的系统。 【重点是分析数据,为了企业提供决策支持 Decision Support】为什么出现像一些OLTP (On-Line Transaction Processing)联机事务处理系统 :MySQL 、Oracle……是否可以进行查询分析吗?可以但是没必要,因为读的压力比写的压力大OLTP 存储的时间短,只有月、周字段不统一所以,衍生出OLAP 联机分析处理 Onl原创 2021-08-17 16:54:02 · 955 阅读 · 0 评论 -
数据库基础知识
1-数据库基础基本概念2-准备数据导入数据库使用数据库和表3-常用语法SELECT语句排序检索最高值使用WHERE过滤数据数据过滤用通配符进行过滤4-使用正则表达式基本字符匹配进行OR匹配匹配几个字符之一匹配范围匹配特殊字符~~匹配字符类~~匹配多个实例定位符5-创建计算字段计算字段拼接字段使用别名执行算术计算6-使用数据处理函数文本处理函数日期和时间处理函数MySQL使用的日期格式数值处理函数7-聚合数据8-分组数据创建分组过滤分组分组和排序SELECT子句顺序9-使用子查询作为计算字段使用子查询11-组原创 2021-08-16 14:35:56 · 1100 阅读 · 0 评论 -
MySQL 权限说明
权限说明ALL除GRANT OPTION外的所有权限 |ALTER使用ALTER TABLEALTER ROUTINE使用ALTER PROCEDURE和DROP PROCEDURECREATE使用CREATE TABLECREATE ROUTINE使用CREATE PROCEDURECREATE TEMPORARY TABLES使用CREATE TEMPORARY TABLECREATE USER使用CREATE USER、DROP U...原创 2021-07-29 15:22:26 · 723 阅读 · 0 评论 -
SQL的Count if
https://modern-sql.com/excel/countif-in-sql微软 Excel 功能计算满足条件的单元格:countifExcel: =COUNTIF(<source>, <condition>)在 SQL 中,使用函数内的案例表达方式可以获得相同的行为:count SQL: COUNT(CASE WHEN <condition> THEN 1 END)SQL 中明确要使用group byExcel: =COUNTIF(Ax:Ay翻译 2021-07-22 10:05:12 · 11474 阅读 · 0 评论 -
数据库查询过慢优化
可以尝试先建立嵌套子查询,将数据分成小规模化原来select s.school_id, s.school_name, sum( case when o.role = 'student' then 1 else 0 end ) as stu_numfrom t_school as s left join t_organization as o on s.school_id = o.school_id group by s.sch原创 2021-07-21 17:43:46 · 768 阅读 · 0 评论 -
第5章DML数据操作
版本:V1.3第1章Hive入门1.1 什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行在Yarn上1.2 Hive的优缺点1.2.1 优点操作接口采用类SQL语法,提供快速开发的能力(简单、容易原创 2021-07-21 15:34:09 · 681 阅读 · 0 评论 -
第4章DDL数据定义
第4章DDL数据定义数据库模式定义语言DDL(Data Definition Language),是用于描述数据库中要存储的现实世界实体的语言。4.1 创建数据库1)创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。[root@localhost data]# hadoop fs -ls /user/hive/warehouse/21/06/26 22:59:53 WARN util.NativeCodeLoader: Unable to loa原创 2021-07-21 15:33:45 · 750 阅读 · 0 评论 -
第3章Hive数据类型
第3章Hive数据类型3.1 基本数据类型表6-1Hive数据类型Java数据类型长度例子TINYINTbyte1byte有符号整数20SMALINTshort2byte有符号整数20INTint4byte有符号整数20BIGINTlong8byte有符号整数20BOOLEANboolean布尔类型,true或者falseTRUE FALSEFLOATfloat单精度浮点数3.14159DOUBLEdo原创 2021-07-21 15:32:43 · 748 阅读 · 0 评论 -
第2章Hive安装
第2章Hive安装2.1Hive安装地址1.Hive官网地址http://hive.apache.org/2.文档查看地址https://cwiki.apache.org/confluence/display/Hive/GettingStarted3.下载地址http://archive.apache.org/dist/hive/4.github地址https://github.com/apache/hive2.2 Hive安装部署1.Hive安装及配置(1)把apache-hive原创 2021-07-21 14:03:58 · 765 阅读 · 0 评论 -
第1章Hive入门
文章目录第1章Hive入门1.1 什么是Hive1.2 Hive的优缺点1.2.1 优点1.2.2 缺点1.3 Hive架构原理1.4 Hive和数据库比较第1章Hive入门1.1 什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。后来还是归于apache 基金会管理。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据(例如json数据)文件映射为一张表,并提供类SQL查询功能。本质是:将HQL(HIve QL)转化成MapReduce程序1)H原创 2021-07-21 09:28:21 · 832 阅读 · 0 评论 -
如何在HIVE脚本中设置变量;How to set variables in HIVE scripts
用hiveconfhive> set CURRENT_DATE='2012-09-16';hive> select * from foo where day >= ${hiveconf:CURRENT_DATE}用hivevarsset hivevar:USER_NAME='FOO';hive> select * from foobar where NAME = '${USER_NAME}';hive> select * from foobar wher.翻译 2021-07-19 16:21:35 · 3637 阅读 · 0 评论