高级ETL大数据工程师面试题

本文汇总了高级ETL大数据工程师面试的关键问题,涉及数据源迁移、数据库连接方式优缺点、安全策略、增量抽取方法、数据加载时间评估、元数据类型以及数据质量验证和性能优化策略。内容深入且实用,适合准备高级ETL职位面试者参考。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

高级ETL大数据工程师面试题

这部分面试题是用来面试高级ETL工程师的,初中级只需要问sql与kettle工具即可。
参考:大数据ETL之Kettle基本理论与安装部署



1. 当数据源与ODS为不同数据库类型时怎么办?

α 将源数据导出为文本文件,再将文件导入ODS【会增加传输步骤】
β 如果能建立ODBC连接则直接使用【会对源数据系统造成压力】

2. 直接连接数据库和使用ODBC连接各有什么优缺点?

优点缺点
直连(PL/SQL、COBOL等)运行性能高通用性差
ODBC性能差灵活性(不同数据库只需要换驱动)

3. ETL过程中基于安全考量,你觉得哪些步骤应该写到磁盘上?

*Staging Area(数据准备区)的每一步都要写到磁盘上
例如:连接源系统数据抽取阶段,将抽取的数据保存到数据准备区(类似于ODS),而不是不让数据落地。

4. 有哪些方式实现增量抽取?

增量机制支持类型数据完备抽取性能源系统影响实现难度
1.触发器RMDB容易
2.时间戳RMDB,表具有时间字段较优很小容易
3.全表对比RMDB;文本格式一般
4.日志表RMDB容易

5. 怎么评估大型ETL任务的数据加载时间?

数据加载分两大类,一个是初次全量加载;另一类是增量加载
全量加载:
α.分为抽取、转换、加载三部分,然后时间加起来
β.按数据总量的10%处理任务,然后总时间*10
增量加载
α.可参考全量加载,但是因为增量数据量少,分析更容易
β.参考上一次增量的时间直接评估(增量每天/次的数据量是差不多的)

6. 举例说明一下ETL中有哪些元数据?

业务元数据:业务角度对数据的描述
技术元数据:技术角度对数据的描述,如数据类型、长度
过程处理元数据:ETL处理过程中的统计数据,如加载总记录数、失败总记录数

7. 你工作中有哪些方法验证ETL数据质量?

α.校验每天的记录数【>0】
β.Null和0的校验【null和0的记录总数不能超过当日新增的99%】
γ.每天新增记录的波动范围【范围可控】
δ.重复记录数校验【不可能两条数据完全一样】
ε.数据时间校验【数据采集时间小于当前时间】

8. ETL运行慢,可以从哪些方面进行分析?

α.CPU、内存、I/O、网络
β.代码导致的运行慢,隔离不同的操作逐步分析
隔离并执行抽取查询语句
去掉过滤条件
排除查找表的问题
分析排序和聚合操作
隔离并分析每一个计算和转换
隔离更新策略
检测加载数据的数据库I/O

人事信息管理系统》简 介   《人事信息管理》是一个协助各单位科学、全面、高效地进行人事管理的系统,它参考了哈佛人力资源管理理论,根植于国内人事管理的实际情况,实用而科学。   在内容上,它包括了人事变动(新进员工登记、员工离职登记和人事变更管理)、考勤(考勤、加班、出差管理等)、员工培训(培训管理和学历记录)、考核奖惩、人事档案完整资料(基本资料、人事合同、生理状况、户籍、政治情况、投保管理、担保情况等)等内容。   在操作上,它集输入、维护、查询、筛选、统计和各种处理为一体,信息导入导出方便共享,灵活、专业的报表设计,形象、增强的数据处理,完美的信息图形分析,用户可自定义自开发这些功能! 可以概述为如下特点:功能强大,易学易会,信息共享,随心设计,SQL语句处理信息,无代码开发。 一、《人事管理》能够做什么 1、 科学管理员工档案,优化分类,全面反映员工情况 2、 管理人事变动信息,优化人员配置 3、 管理考勤信息,保证工作秩序 4、 纪律员工培训信息,保证员工量才使用 5、 管理员工奖惩信息,促进员工积极向上 二、《人事管理》的功能结构   信息内容(信息表)是核心,输入、处理、报表(输出)、分析是应用:系统围绕信息内容(信息表),来实现输入、处理、报表(输出)、分析等功能。 输入功能:含“设计录入格式”、“模式录入”、“表格界面”等三大界面。可利用“设计录入格式”界面根据自己的喜好设计录入界面;可任意选择“模式录入”和“表格界面”两大输入界面进行输入工作。   输出功能:含“报表显示”、“报表修改”、“新建报表”三大界面。可利用“报表显示”界面对所需输出的报表进行模拟显示和打印;可在“报表修改”界面中对报表格式进行修改设计;可在“新建报表”界面中导入自己制作的报表图形,来自行设计报表。   处理功能:其中包括“横向筛选”、“纵向筛选”、“计算操作”、“信息增强处理”四种功能。可在“横向筛选”和“纵向筛选”中进行信息筛选,在“计算操作”中进行字段计算处理,在“信息增强处理”中对数据进行处理。   分析功能:即图形分析,可在“信息分析”界面对所需分析的数据进行图形分析。系统具有强大的图形分析设计功能,单击“图形编辑”按钮,可在“图形编辑”窗口中设计各种精美的图形。   三、使用和增加你所需的基础管理内容 1、 对需要增加的内容从应用的角度分析,确定需要管理的基础信息。 2、 增加管理内容要从信息表开始。 3、 设置计算字段和建立运算树。 4、 设计输出报表和分析图表。 5、 根据结果目的的对比,优化信息表设计。 四、处理信息 为了适应信息处理的各种需求,系统设计开发了“运算树”,采用SQL语句处理信息。所有的处理过程均对用户透明,同时用户也可以自己设计处理过程。 五、信息表的作用 1、 维护和存储基础信息,作为应用的原始数据。 2、 用于查询、筛选和统计。 3、 作为运算处理的中间和最终数据,用于报表和分析图形数据源。 六、制作报表 1、 报表的两种形式 报表有单记录表和多记录表两种形式。 2、 报表的分区(只适用于多记录表) 一般一张多记录表分标题区、表头区、细节区、汇总区、报表区、页头区、页脚区等七个区域。 3、 报表设计技巧 1)增加报表设计区域:单击系统工具栏上的“隐藏文档管理树”按钮,然后单击“报表设计”区工具栏上的“属性检查框”前面的小方框,使小方框中的“√”消失,即可使“报表设计”区增加到最大。 2)使所需控件到达最上层:选择所需控件,单击“报表设计”区工具栏上的“前面检查框”的小方框,使小方框内出现“√”,即可使所需控件到达最上层。 3)复制控件:选择所需复制的控件,单击“报表设计”区工具栏上的“复制当前对象”按钮,然后将鼠标移动到所选控件的边框上,按下左键并拖动所复制的控件到所需位置即可。 4)选定控件:单击“报表设计”区工具栏上的“控件选择”组合框的下拉按钮,在该框中选择所需控件名,即可选定控件。 七、设计有意义的分析图表   本系统除可以打印输出报表外,还可以打印输出图形,可单击系统工具栏上的“信息分析”按钮,出现“图形分析”界面,单击该界面工具栏上的“图形编辑”按钮,出现“图形编辑”窗口,可在该窗口中对分析图表进行编辑(在“图形编辑”窗口中可对分析图表进行微调)。
系统功能如下: 1)系统以菜单方式工作 具有主控界面,用户按照主控界面提示选择相应的功能; 2)系统录入并保存功能 要求用户输入一条新的员工信息,这些信息保存在结构体类型数组中空的元素的各字段中,并写入到文件中进行保存; 3)系统修改功能 根据用户输入的待修改的员工编号,查找该员工的编号的记录,若找到该记录,则修改除员工编号外的字段的值,若未找到该记录,提示用户“未找到符合要求的记录”; 4)系统删除功能 根据用户输入的待删除的员工编号,查找该员工编号的记录,若找到该记录,则将此人的相关数据删除,若未找到该记录,提示用户“未找到符合要求的记录”; 5)系统查询功能(多种查询方式) 用户可以按照员工编号或姓名等字段在结构体数组中进行查找,若能找到该记录,则以打印输出此记录的信息,否则,打印出“未找到该记录”的提示信息; 用户可以输入一个工资段,如<3000,可查询该工资段的人数并在屏幕上显示输出,显示结果如下: 请输入查询的工资段:<3000 工资段 人数 员工编号 <3000 10 ............ 6)系统浏览记录功能 用户可以直接浏览所有员工信息,要求库中存在10条以上记录,用户可以设置每次显示记录的条数来显示系统中的所有记录情况; 7)系统其他功能模块 根据课题适当加入相应的扩展功能,自由发挥; 注:主要完成从磁盘文件中读出记录信息到数组中,供执行期间的各种操作,文件可以是顺序文件,数组长度可固定(如100); 员工信息包括员工编号、姓名、工资、学历、职务、电话等;
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值