大数据求学路-优快云博客

原创 ETL（Extract-Transform-Load）的具体流程

如关系型数据库（MySQL、Oracle），通过JDBC直连或数据库日志（如MySQL的binlog）抽取数据。：在大数据平台（如Hadoop）中，先加载原始数据到存储层（如HDFS），再利用计算引擎（Spark）执行转换，适用于海量数据处理。：如JSON、XML文件或日志数据，通常采用文件监听机制或API接口（如RESTful API）实时/批量抽取。：通过时间戳、触发器或日志比对（如Oracle的物化视图）识别并抽取变化数据，降低源系统负载。：加载前临时禁用目标表的唯一性约束和索引，加载完成后重建。

2025-03-23 17:47:50 1656

原创行存储和列存储区别

优先选择行存储：若业务以事务处理为主（如银行核心系统）、需频繁更新单行数据或强调整体数据完整性。优先选择列存储：若业务以分析为主（如数据仓库）、需高频执行聚合计算（SUM/AVG）或处理海量稀疏数据（如日志分析）。混合方案：复杂业务场景（如实时数仓）可结合两者，例如将热数据按行存储，冷数据按列归档。

2025-03-23 17:17:58 1569

原创事实表和维度表的区别

事实表是业务事件的量化记录中心，通过外键关联维度表形成星型或雪花模型，支撑高效聚合与决策分析。维度表是数据解释的语义层，通过描述性属性和层次结构赋予事实数据业务意义。协同关系：二者通过外键关联共同构建数据仓库的多维分析能力，例如通过时间维度表解释销售事实表中的时间戳字段

2025-03-23 12:06:00 675

原创星型模型和雪花模型的区别

星型模型与雪花模型的本质差异在于数据冗余与结构复杂度的平衡。星型模型以直观的结构和高效查询见长，适合快速分析；雪花模型通过规范化支持复杂层级，适合精细化管理和存储优化。实际选型需结合业务需求、数据规模及维护成本综合决策。

2025-03-23 11:34:52 1190

原创 OLTP和OLAP区别

OLTP与OLAP是数据库领域的两大技术方向，前者以事务效率为核心，后者以分析深度为目标。两者在技术实现上互补：OLTP为OLAP提供原始数据源，OLAP通过分析结果反哺业务优化，形成闭环。

2025-03-22 17:34:45 1407

原创 SQL语言中，一个有灵魂的数字 :1

SQL语言中，一个有灵魂的数字 :1

2022-07-30 23:59:29 1026 1

原创 case when常见用法分析

case when 常见用法分析。

2022-07-30 22:56:51 4783

原创大数据面试常见问题（七）——面试部分

如果千万的表格有分区，那么直接读取数据全量写入到对应的例如今天的分区中；如果是个普通的表格，那么可以使用insert into table进行数据的追加 select * from 库名.表名1.1 定义源数据抽取到ods层中，同一个业务日期数据中包含前一天或者后一天凌晨附近的数据或者丢失当天的变更数据。1.2 数据漂移出现的原因通常落地数仓的ODS表会按时间切分做分区存储，实际上往往由于时间戳字段的准确性问题导致发生数据漂移。通常有四类时间戳：modified_time:数据库记录某条数据更新的时间。lo

2022-07-01 00:00:00 9956 4

原创大数据面试常见问题（六）——建模部分

会使用图形化的界面来表示表格和表格之间的关系，以及表格本身的内容。这个表示数据之间的表达关系的图，就叫做ER图。怎么去设计某个功能需要的表格，以及中间的小表，每个表格有哪些不同的关系等等，这个就是数据建模的过程（1）确定表名。表名要确保其唯一性，表的名称要与用途相符，简略、直观、见名知意。（2）确定字段名称。字段名长度小于64个字符；字段名可以包括字母、汉字、数字、空格和其他字符；字段名不可以包括句号(。)、感叹号(!)、方括号([])和重音符号(、)；字段名不可以以先导空格开头。（3）确定字段类型。设计数

2022-06-27 23:17:40 3253

原创大数据面试常见问题（五）——报表部分

目录1、Finereport的报表设计流程2、做报表开发，如何确保你拿到的数据时准确的3、你们用的报表工具是收费的吗？都少钱？4、做出的报表是以什么文件或者形式发给客户，客户又是通过什么方式查看报表的呢？5帆软和tableau的区别（传统bi工具和商务智能bi工具的区别）6、olap和oltp的区别我们都是根据需求来验证的，如果计算的话，都有计算公式，我会自己先算一遍，然后通过调用函数对比计算结果。如果是存储过程的话，我会根据需求中的取值逻辑和判断，验证一下取值是否正确这方面我不太清除，都是公司统一采购的

2022-06-27 23:15:36 7228

原创大数据面试常见问题（四）——ETL部分

目录1、什么是映射2、什么是etl3、kettle抽数一般遇到什么问题，你们是怎么解决的？4、如果抽取的数据有重复，怎么解决5、etl脚本开发以后，怎么运维6、一张特别大的表，几千万，几亿的表，怎么通过etl工具同步7、数据同步以后，源系统的表结构发生了改变，比如源系统的表增加了字段，你的kettle脚本是否会报错？8、有一张表下午5点才出数据，依赖的表早上十点就已经跑完了，是什么原因导致表这么慢出数据（从数仓同步数据，本来早上9点就要出结果，结果一直到下午4点才出结果）9、有一个job前一天执行成功了，

2022-06-27 23:11:05 15846

大数据求学路