- 博客(38)
- 收藏
- 关注

原创 常见的窗口函数汇总
老规矩,还没看前面的文章而且对这些知识点不熟悉的,可以点击连接进行观看哦:hive从入门到放弃(一)——初识hivehive从入门到放弃(二)——DDL数据定义hive从入门到放弃(三)——DML数据操作hive从入门到放弃(四)——分区与分桶话不多说,直接开始。什么是窗口函数相信很多人都比较熟悉 SQL 聚合函数的语法,比如 count(), sum(), max()等,窗口函数类似聚合函数,不同的是窗口函数不改变原有的行。窗口函数是数据分析和数据开发必备的技能。基本语法:<窗口
2022-04-20 10:41:28
2953
1
原创 图文并茂 | 水平分表的路由策略有哪些?什么是一致性哈希?
本文讲了什么是水平分表,以及几种常见的水平分表路由策略,每种策略的优缺点,最后讲了一致性哈希
2023-10-27 20:45:14
439
原创 通俗易懂:什么是拉链表
按照度娘的解释:“拉链表是一种针对数据仓库设计中表存储数据的方式而定义的数据模型,它有点类似于快照,用于维护历史状态及最新状态数据。假如有张表如表1-1所示,每天的数据量大概有50w表中有些字段会被 update,如表1-2,且每天更新的数据量很小,大约只有5k有些报表需要查看历史某个日期的数据存储空间有限,需要尽可能的节约存储空间你会怎么将其装入数仓中?
2023-03-30 12:36:08
11063
5
原创 大数据面试八股文之 hive 篇
网上大数据开发工程师的面试题相对较少,且比较杂乱分散,有的甚至没有答案。为了广大数据人着想,总结了大数据面试题hive篇,并给出答案,希望能有所帮助。
2022-12-12 09:00:00
1930
原创 大数据面试题:用 SQL 查询每个用户最大连续登录日期
“如何用 SQL 查询每个用户最大连续登录日期?”这道题是数据开发面试经常问到的题目,因为其比较考验候选人的 SQL 能力,今天就来简单讲讲其思路。
2022-12-06 08:45:00
1022
转载 Hive优化方法汇总
Fetch 抓取是指,Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如:SELECT * FROM employees;在这种情况下,Hive 可以简单地读取 employee 对应的存储目录下的文件,然后输出查询结果到控制台。在 hive-default.xml.template 文件中 hive.fetch.task.conversion 默认是 more,老版本 hive 默认是 minimal,该属性修改为 more 以后,在全局查找、字段查找、limit 查找等都不走ma
2022-12-02 15:32:21
1897
原创 浅谈 Hive 数据倾斜原因及解决方案
大数据开发过程中,经常会遇到数据倾斜的问题,也是面试必问的问题。今天就来说一下数据倾斜的原因及其解决方法。
2022-12-02 13:12:52
1028
原创 什么是视图?普通视图和物化视图什么区别?看这一篇就明白了
视图可以理解为一张表或多张表的预计算,这些表称为基表。它可以将所需要查询的结果封装成一张虚拟表,基于它创建时指定的查询语句返回的结果集。视图具有以下特点:例如:物化视图对于普通视图而言,其真实数据在基表中,即每次查询视图都是需要执行查询语句。有时候为了防止每次都查询,将结果集存储起来,这种有真实数据的视图,称为物化视图。什么情况下适合用物化视图?基表没有很多 DML,且每次查询都需要耗费较大资源的情况下,可以考虑用物化视图。物化视图的创建是这样的:① BUILD IMMEDIATE 创建物化视图的时
2022-06-20 08:15:00
9943
原创 JVM 之类加载器
JVM(Java Virtual Machine)是一个可以执行 Java 字节码文件(即 .class 文件)的虚拟机进程。当 Java 源文件能被成功编译成 .class 文件,就能在不同平台上的不同版本的 JVM 运行,因为 JVM 能将相同的 .class 文件解释称不同平台的机器码。正是因为 JVM 的存在,Java 被称为与平台无关的语言。一般而言,.java 文件经过编译后会得到 .class 文件,而将这个文件加载到内存之前需要先通过类加载器,先简单过一下图:类加载的过程为: 加载–>连接(
2022-06-02 21:44:10
1677
1
原创 大数据行业前景如何?有什么岗位?什么要求?一次讲清楚
最近一直有人问我,大数据行业前景怎么样?如果转行的话有什么岗位?有什么要求?为了解答这一系列问题,我觉得还是有必要科普一下大数据岗位的情况。大数据,毋庸置疑,行业前景是很不错的。现在是数据时代,近几年一直在强调数字化转型,互联网就不用多说,很多传统企业都在转型。而今年有个国家重点工程“东数西算”,指通过构建数据中心、云计算、大数据一体化的新型算力网络体系,将东部算力需求有序引导到西部,优化数据中心建设布局,促进东西部协同联动。可想而知,大数据的发展只会越来越好,就业机会也会越来越多。在应用上,大数据在互联网
2022-06-01 20:56:05
883
原创 计算机网络必会面试题
1、http 响应码 301 和 302 代表的是什么?301:永久重定向;302:暂时重定向。2、dns流程是什么DNS服务器里存着一张表,表中放着域名和IP地址,域名和IP地址以映射关系保存。先向本地dns缓存查看有没有该域名对应的ip地址,有直接跳出,没有接着往下向根dns服务器询问域名对应的ip地址(根dns服务器会让他去查询顶级dns服务器)向顶级dns服务器询问域名对应的ip地址(顶级dns服务器会让他去查询权威dns服务器)向权威dns服务器询问域名对应的ip地址(权威dns服
2022-05-20 07:15:00
122
原创 图文并茂:什么是 K-means 聚类算法
概述 聚类属于机器学习的无监督学习,在数据中发现数据对象之间的关系,将数据进行分组,组内的相似性越大,组间的差别越大,则聚类效果越好。它跟分类的最主要区别就在于有没有“标签”。比如说我们有一组数据,数据对应着每个“标签”,我们通过这些数据与标签之间的相关性,预测出某些数据属于哪些“标签”,这属于分类;而聚类是没有“标签”的,因此说它属于无监督学习,分类则属于监督学习。 k-means(k-均值)属于聚类算法之一,笼统点说,它的过程是这样的:先设置参数k,通过欧式距离进行计算,...
2022-05-14 23:45:58
2758
1
原创 hive从入门到放弃(三)——DML数据操作
上一篇给大家介绍了 hive 的 DDL 数据定义语言,这篇来介绍一下 DML 数据操作语言。没看过的可以点击跳转阅读:hive从入门到放弃(一)——初识hivehive从入门到放弃(二)——DDL数据定义数据写入数据导入部分默认数据文件格式为 textfile,每一列由‘,’进行分割,以换行分行。insertinsert 表示向表中插入数据,可以直接插入值,也可以通过查询其他表获取数据插入。INSERT INTO TABLE target_table VALUES (COL1.VALUE,
2022-03-20 13:53:10
2937
原创 hive从入门到放弃(二)——DDL数据定义
上一篇大致介绍了hive,包括其架构、数据类型等,这一篇写一下DDL语言,持续关注【大数据的奇妙冒险】,获得更多知识!
2022-03-16 15:55:43
3922
2
原创 hive从入门到放弃(一)——初识hive
带你入门 hive,本文介绍了什么是hive,hive的特点,hive的架构和运行机制以及数据结构,持续关注,解锁更多知识
2022-03-11 13:40:03
20992
1
转载 浅谈银行的数据仓库:分层架构篇
为什么要对数据仓库进行分层自从大数据平台hadoop及其技术火起来之后,无论是政企、民企还是各类金融机构,都掀起了一股大数据技术转型、数据仓库重构、智能数据分析、AI 等一系列黑科技且高大上的热潮。其实,是否转型大数据技术以后,产品营销、风险管控、数据分析、管理决策等企业核心诉求都可以应有尽有呢?企业的数据管理核心——数据仓库又应该以何种形态来建设?要回答上述问题,必须要从理解数据仓库的本质与架构开始。数据仓库,由数据仓库之父 Bill Inmon 在 1991 年出版的“Building the Da
2022-03-01 15:13:53
5896
原创 大数据 | 分布式文件系统 HDFS
HDFS全称Hadoop Distributed File System,看名字就知道是Hadoop生态的一个组件,它是一个分布式文件系统。它的出现解决了独立机器存储大数据集的压力,它将数据集进行切分,存储在若干台计算机上。HDFS 的特点与应用场景适合存储大文件HDFS 支持 GB 级别甚至 TB 级别的文件,它会把大文件切分成若干个块存储在不同的节点上,在进行大文件读写时采用并行的方式提高数据的吞吐量。容错性高HDFS有多副本机制,它会自动保存副本到不同的节点。即使有一台节点宕机了也
2021-08-11 11:25:24
1442
原创 国人之光:大数据分析神器Apache Kylin
一、简介Apache Kylin™是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。之所以说它是国人之光,是因为它是首个由国人主导的Apache顶级开源项目,能在亚秒内查询巨大的表。二、基本概念先了解一下几个概念,如下有一张表查询某个客户在哪个时间进行某种交易的金额,这种是多维分析,其中客户号、交易日期和交易类型是维度(Dimensions),金额是度量(Measures
2021-07-16 17:13:46
486
3
原创 关于实习、校招的科普
最近有师弟师妹问我关于应聘的问题,在和他们分享的时候,发现他们对于找工作的概念很模糊。回想起自己当初,就业意识也是很缺乏,甚至一度以为实习是大四做的事,找工作是临近毕业时的事。为了使同学们少走一些弯道,因此给大家科普一些招聘的东西,分享一下经历,希望能有所帮助。01、日常实习 VS 暑期实习很多人以为实习是大四干的事,但其实实习是越早越好的,如果实习经历丰富,对于后面的校招帮助是很大的。实习又分为暑期实习和日常实习,他们又不太一样。02、校招&社招校招全称“校园招聘”;社招全称“社会
2020-06-16 21:10:51
3673
1
大数据面试 Hive 八股文
2023-02-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人