自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据求学路

想到什么写什么,希望能对你们有所帮助!

  • 博客(14)
  • 收藏
  • 关注

原创 ETL(Extract-Transform-Load)的具体流程

如关系型数据库(MySQL、Oracle),通过JDBC直连或数据库日志(如MySQL的binlog)抽取数据。:在大数据平台(如Hadoop)中,先加载原始数据到存储层(如HDFS),再利用计算引擎(Spark)执行转换,适用于海量数据处理。:如JSON、XML文件或日志数据,通常采用文件监听机制或API接口(如RESTful API)实时/批量抽取。:通过时间戳、触发器或日志比对(如Oracle的物化视图)识别并抽取变化数据,降低源系统负载。:加载前临时禁用目标表的唯一性约束和索引,加载完成后重建。

2025-03-23 17:47:50 925

原创 行存储和列存储区别

​优先选择行存储:若业务以事务处理为主(如银行核心系统)、需频繁更新单行数据或强调整体数据完整性。​优先选择列存储:若业务以分析为主(如数据仓库)、需高频执行聚合计算(SUM/AVG)或处理海量稀疏数据(如日志分析)。​混合方案:复杂业务场景(如实时数仓)可结合两者,例如将热数据按行存储,冷数据按列归档。

2025-03-23 17:17:58 568

原创 事实表和维度表的区别

​事实表是业务事件的量化记录中心,通过外键关联维度表形成星型或雪花模型,支撑高效聚合与决策分析。​维度表是数据解释的语义层,通过描述性属性和层次结构赋予事实数据业务意义。​协同关系:二者通过外键关联共同构建数据仓库的多维分析能力,例如通过时间维度表解释销售事实表中的时间戳字段

2025-03-23 12:06:00 328

原创 星型模型和雪花模型的区别

星型模型与雪花模型的本质差异在于数据冗余与结构复杂度的平衡。星型模型以直观的结构和高效查询见长,适合快速分析;雪花模型通过规范化支持复杂层级,适合精细化管理和存储优化。实际选型需结合业务需求、数据规模及维护成本综合决策。

2025-03-23 11:34:52 545

原创 OLTP和OLAP区别

OLTP与OLAP是数据库领域的两大技术方向,前者以事务效率为核心,后者以分析深度为目标。两者在技术实现上互补:OLTP为OLAP提供原始数据源,OLAP通过分析结果反哺业务优化,形成闭环。

2025-03-22 17:34:45 598

原创 SQL语言中,一个有灵魂的数字 :1

SQL语言中,一个有灵魂的数字 :1

2022-07-30 23:59:29 965 1

原创 case when常见用法分析

case when 常见用法分析。

2022-07-30 22:56:51 4707

原创 大数据面试常见问题(七)——面试部分

如果千万的表格有分区,那么直接读取数据全量写入到对应的例如今天的分区中;如果是个普通的表格,那么可以使用insert into table进行数据的追加 select * from 库名.表名1.1 定义源数据抽取到ods层中,同一个业务日期数据中包含前一天或者后一天凌晨附近的数据或者丢失当天的变更数据。1.2 数据漂移出现的原因通常落地数仓的ODS表会按时间切分做分区存储,实际上往往由于时间戳字段的准确性问题导致发生数据漂移。通常有四类时间戳:modified_time:数据库记录某条数据更新的时间。lo

2022-07-01 00:00:00 8579 4

原创 大数据面试常见问题(六)——建模部分

会使用图形化的界面来表示表格和表格之间的关系,以及表格本身的内容。这个表示数据之间的表达关系的图,就叫做ER图。怎么去设计某个功能需要的表格,以及中间的小表,每个表格有哪些不同的关系等等,这个就是数据建模的过程(1)确定表名。表名要确保其唯一性,表的名称要与用途相符,简略、直观、见名知意。(2)确定字段名称。字段名长度小于64个字符;字段名可以包括字母、汉字、数字、空格和其他字符;字段名不可以包括句号(。)、感叹号(!)、方括号([])和重音符号(、);字段名不可以以先导空格开头。(3)确定字段类型。设计数

2022-06-27 23:17:40 3092

原创 大数据面试常见问题(五)——报表部分

目录1、Finereport的报表设计流程2、做报表开发,如何确保你拿到的数据时准确的3、你们用的报表工具是收费的吗?都少钱?4、做出的报表是以什么文件或者形式发给客户,客户又是通过什么方式查看报表的呢?5帆软和tableau的区别(传统bi工具和商务智能bi工具的区别)6、olap和oltp的区别 我们都是根据需求来验证的,如果计算的话,都有计算公式,我会自己先算一遍,然后通过调用函数对比计算结果。如果是存储过程的话,我会根据需求中的取值逻辑和判断,验证一下取值是否正确这方面我不太清除,都是公司统一采购的

2022-06-27 23:15:36 6891

原创 大数据面试常见问题(四)——ETL部分

目录1、什么是映射2、什么是etl3、kettle抽数一般遇到什么问题,你们是怎么解决的?4、如果抽取的数据有重复,怎么解决5、etl脚本开发以后,怎么运维6、一张特别大的表,几千万,几亿 的表,怎么通过etl工具同步7、数据同步以后,源系统的表结构发生了改变,比如源系统的表增加了字段,你的kettle脚本是否会报错?8、有一张表下午5点才出数据,依赖的表早上十点就已经跑完了,是什么原因导致表这么慢出数据(从数仓同步数据,本来早上9点就要出结果,结果一直到下午4点才出结果)9、有一个job前一天执行成功了,

2022-06-27 23:11:05 14578

原创 大数据面试常见问题(三)——Hadoop部分

1、hive数据库和其他的数据库有什么区别?hive数据库是使用hdfs存储数据的,oracle数据库使用.dbf文件存储数据hive数据库使用mr引擎计算数据,oracle有自己自带的executor进行计算hive的语句运行延迟比较高,oracle延迟很低hive支持的容量比较大,可以支持TB PB,但是oracle只能支持GBhive数据库没有约束条件的部分,oracle有约束hive没有索引,oracle有索引2、传统数仓和大数据数仓的区别传统数仓主要是结构化的.

2022-06-13 14:21:47 4690

原创 大数据面试常见问题(二)——Linux部分

1、shell怎么传参接收参数:采用$0,$1,$2..等方式获取脚本命令行传入的参数,值得注意的是,$0获取到的是脚本(1)路径以及脚本名#!/bin/bashecho "脚本$0"echo "第一个参数$1"echo "第二个参数$2"(2)执行shell脚本传入参数:./test.sh 1 2 或者 sh test.sh 1 22、批量杀死名字带abc的进程kill -9 `ps -aux | grep abc | awk '{print $2}]'`...

2022-06-13 11:14:48 1518

原创 大数据面试常见问题(一)——Oracle部分

1、Oracle分区类型范围分区,列表分区,散列分区,组合分区2、每种类型一般是用在什么场景下?范围分区:用指定的分区键决定的范围进行分区,最为常用,分区键常采用日期。列表分区:某列的值只有几个,可以采用列表分区。散列分区:通过指定分区数量或编号来均匀分布数据的一种分区类型,分区数量常采用2的N次方;当列的值没有合适的条件时,采用散列分区;组合分区:范围分区和列表分区组合;范围分区和散列分区组合,分区中的分区被称为子分区;3、哪种分区类型使用的最多?为什么?看具体..

2022-05-19 20:37:37 8727

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除