收获不止一点
文章平均质量分 85
莫叫石榴姐
10多年IT经验,数仓及SQL领域教练及专家,曾作为主面试官,面试多个候选人
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
智能体路由:动态决策的四大核心机制
智能体路由是智能体系统的动态决策机制,通过条件逻辑实现多路径选择。核心实现方式包括4种决策机制(LLM路由、嵌入路由、规则路由和机器学习路由)和2种工程化方案(LangChain/LangGraph的显式定义与Google ADK的自动路由)。该技术将智能体从静态执行转变为动态决策系统,适用于复杂多变的真实场景,其选择取决于速度、灵活性等需求。路由能力是构建响应式智能体系统的关键。原创 2026-01-09 12:00:00 · 1178 阅读 · 0 评论 -
Dify 会话变量使用指南及案例实战
本文系统介绍了Dify平台中会话变量的使用方法与实战案例。主要内容包括:会话变量的基础特性(作用域、生命周期、数据类型)、基本操作步骤(创建、赋值、引用)以及高级应用场景(多轮对话记忆、流程控制、复杂数据存储)。通过三个典型案例(点餐助手、智能客服、表单收集)详细演示了会话变量在实际业务中的运用技巧,包括对象/数组类型的变量处理、条件分支控制和数据校验等。文章还提供了最佳实践建议,如命名规范、作用域管理和调试技巧,帮助开发者构建更智能的多轮对话应用。会话变量作为实现状态管理和上下文记忆的核心机制,能显著提升原创 2026-01-09 09:00:00 · 1586 阅读 · 0 评论 -
CHAR_LENGTH() 与 LENGTH() 详细区别 + 完整案例 + 精准使用场景
MySQL字符串长度函数使用指南 CHAR_LENGTH和LENGTH是MySQL中两个核心字符串函数,主要区别在于计算方式: CHAR_LENGTH按字符个数计算,不受编码影响(中文/英文/Emoji均计为1) LENGTH按字节数计算,结果与编码相关(UTF8MB4下中文占3字节,Emoji占4字节) 使用场景: 业务长度限制(如用户名、标题限制)必须使用CHAR_LENGTH 存储空间计算和多字节字符判断可使用LENGTH 注意事项: 新项目推荐使用UTF8MB4编码 避免混淆两个函数的使用场景 业务原创 2026-01-07 11:00:00 · 633 阅读 · 0 评论 -
AI时代,数据工程师会被“优化”吗?
AI时代下,数据工程师岗位正经历深刻变革。文章指出,AI并非取代数据工程师,而是优化其低价值工作环节,如数据清洗、SQL编写等重复性任务。真正的价值转移体现在三个方面:数据质量把控、业务理解能力和系统设计思维。未来数据工程师将聚焦四大方向:数据产品化、治理前置化、协同深度化和工具理性化。核心观点认为,SQL编写能力在贬值,而定义"什么是好数据"的能力正在升值。文章强调,AI是工具而非对手,数据工程师需拥抱技术变革,将工作重心转向业务抽象、系统设计和风险预判等高价值领域,这些能力仍是AI规原创 2026-01-06 11:00:00 · 1035 阅读 · 0 评论 -
大模型输入优化:数据治理+数仓仍是核心根基
摘要:大模型应用效果的核心约束在于输入数据质量,表现为业务语义缺失、数据口径不一致和合规风险三大问题。优化路径需依托数据治理与数仓协同:数仓提供结构化数据基座,治理构建规则体系,领域驱动设计(DDD)作为关键桥梁。方法论包括领域建模、边界划分、规则封装和技术落地四步骤,通过分层架构实现可持续演进。最终指出数据质量竞争本质是治理能力竞争,脱离数据根基的模型优化将面临效果与合规双重瓶颈。(149字)原创 2026-01-04 12:00:00 · 1155 阅读 · 0 评论 -
Doris为2.1版本,但json_each不可以用解决方法
摘要:Doris2.1版本原生支持json_each函数但无法使用时,需检查FE节点功能开关。若SHOW FUNCTIONS查询为空,说明需在fe.conf中配置enable_vectorized_engine和enable_json_function为true并重启FE节点。配置生效后,该函数即可正常使用。此问题源于2.x版本JSON高级函数默认关闭,需手动开启而非版本兼容性问题。验证配置后可通过测试SQL确认功能是否启用。原创 2025-12-25 23:06:43 · 188 阅读 · 0 评论 -
从数据治理和业务架构视角看标签体系与指标体系
摘要:标签体系与指标体系是数据治理中的两大核心工具,具有本质差异。标签体系通过离散型分类(如性别、消费等级)对业务对象进行定性描述,解决"是什么"的问题;指标体系则通过数值计算(如销售额、转化率)对业务过程进行定量衡量,解决"有多少"的问题。二者在数据特性、构建方式、应用场景等方面均有明显区别:标签侧重对象特征的结构化分类,指标强调业务价值的量化评估。实际应用中常协同配合(如先用标签分群再用指标量化),但需严格区分设计逻辑与边界,避免概念混淆影响数据治理效果。原创 2025-12-26 11:00:00 · 1476 阅读 · 0 评论 -
Dify文本生成、工作流超时问题分析与解决方案
摘要:Dify工作流在生产环境出现超时问题,主要由于生产环境默认设置更严格的超时限制。解决方案包括调整.env配置文件的TEXT_GENERATION_TIMEOUT_MS和WORKFLOW_MAX_EXECUTION_TIME参数,建议拆分子任务并优化资源管理。实施需修改配置后重启服务,并注意资源占用和测试验证。原创 2025-12-23 10:00:00 · 299 阅读 · 0 评论 -
字节校招大数据开发一面
这是一篇关于数据仓库面试经验的技术分享。文章记录了面试官围绕实习项目提出的18个技术问题,涵盖了数据分层设计、ETL流程、Spark优化(小文件处理、AQE机制、广播过程)、Hive冷热分离、EC存储等核心技术点。同时涉及网络基础(三次握手)和算法(O(nlogn)排序)考察,最后还列举了多个数仓实战案例,包括订单快照表设计、事实表分类、用户留存计算等典型业务场景解决方案,全面展现了数据工程师岗位的技术要求和业务思维。原创 2025-12-22 11:00:00 · 171 阅读 · 0 评论 -
Doris 存储过程详解
摘要: Apache Doris 2.0+支持存储过程(Stored Procedure),兼容MySQL核心语法,支持变量、流程控制(IF/CASE/循环)、异常处理及参数传递(IN/OUT)。存储过程运行于FE节点,适用于数据清洗、批量操作等场景。创建时需注意版本限制(如不支持游标、递归),性能上建议避免FE资源密集型操作,优先使用BE批量处理。典型应用包括封装重复SQL、带业务逻辑的查询及异常可控的批量处理。权限管理需CREATEROUTINE/EXECUTE权限,事务支持遵循Doris单表或多表事务原创 2025-12-20 09:00:00 · 1784 阅读 · 0 评论 -
数仓如何梳理依赖?
本文系统介绍了数据仓库依赖关系梳理的方法论与实践路径。首先明确了依赖关系的核心维度(链路方向、依赖类型、技术类型等),提出按团队规模选择"自动化工具+人工补全"的组合方案。重点阐述了四步落地流程:自动化采集显性依赖(80%)、日志分析补全暗依赖(10%)、业务沟通确认跨部门依赖(10%)、建立持续治理机制。结合制造业场景,展示了依赖梳理在表下线、模型迭代和故障排查中的实际价值,并给出避免遗漏暗依赖、实时依赖和系统接口依赖的实用建议。最终指出依赖梳理应形成"可视化、可查询、可维护原创 2025-12-19 11:00:00 · 891 阅读 · 0 评论 -
ast 在 Dify 工作流中解析 JSON 格式数据的深度解析
摘要:Dify工作流中节点间传递的数据常以Python字面量形式序列化(单引号、True/False/None等),而非标准JSON格式。本文揭示了使用ast.literal_eval()解析Dify"伪JSON"的必要性:1)精准解析Python特有格式;2)提供安全边界防止代码注入;3)完美处理嵌套结构。相比json.loads()和其他方法,ast.literal_eval()是唯一能安全解析Dify非标准数据的内置方案,同时给出Dify代码节点的最佳实践和异常处理策略,建议配合上原创 2025-12-17 09:15:03 · 582 阅读 · 0 评论 -
数据治理支撑企业核心业务目标的底层逻辑与实践路径
数据治理的核心价值不在于 “把数据管好看”,而在于 “让数据能用好”—— 通过规范数据资产,直接解决业务场景中的 “决策低效、成本浪费、风险失控” 问题。从业务痛点出发,将抽象的治理动作转化为可量化的数据指标,再与业务部门的核心 KPI 挂钩,形成 “治理投入→数据质量提升→业务价值产出” 的闭环。无论是零售、制造、金融还是其他行业,数据治理只有深度融入业务流程,成为业务部门达成 KPI 的 “必需品”,才能真正实现 “数据驱动业务增长” 的终极目标。原创 2025-12-15 21:20:17 · 938 阅读 · 0 评论 -
数据分析任务的思维链提示模板
摘要:本文提出一套标准化数据分析框架,包含五个核心步骤:1)指标定义与数据校验;2)基准对比与异常定位;3)多维度指标拆解;4)根因分析与业务关联;5)结论验证与落地建议。框架强调数据逻辑推导,要求每步分析必须基于数据支撑,禁止跳跃式结论。通过结构化拆解流程,可系统化定位业务问题,如DAU下降或复购率波动等。文中提供具体填写模板,包括指标计算公式、基准选择、维度拆解方法等,并规范输出格式要求,确保分析过程可追溯、结论可验证。(149字)原创 2025-12-15 10:00:00 · 1940 阅读 · 0 评论 -
半导体生产线核心指标 与术语
本文系统梳理了半导体制造行业的生产线数据监控体系,提出了一套从实时监控到深度分析的实战指南。内容涵盖四大核心模块:实时机台监控(关注设备可用性与效率)、每日Fab运营(分析整体产能与质量)、设备深度分析(评估长期性能趋势)以及关键术语与数据规范(确保沟通一致性)。文章特别强调指标间的逻辑关联,如利用率与效率的平衡、WIP趋势与工序瓶颈的关联等,并提供了可落地的数据记录规范,帮助从业者快速定位问题、优化生产流程。这套方法既能满足日常监控需求,又能支持长期的设备性能改善,有效提升半导体制造的数据化管理水平。原创 2025-12-12 09:30:00 · 662 阅读 · 0 评论 -
大数据湖体系规划与建设方案
摘要: 本文系统探讨了大数据湖的规划与建设路径,分析了其相较于传统数据仓库的核心差异(支持全数据类型、灵活采集与处理模式),并提出了四阶段建设框架(基础架构→价值挖掘→协作交互→成熟运营)。通过统一目录共享、分级安全管控及全生命周期监控机制,数据湖可整合多源异构数据,支撑智能决策。典型应用场景(如智慧家庭、互联网金融)验证了其在降低存储成本、提升数据价值方面的优势。原创 2025-12-10 11:00:00 · 1005 阅读 · 0 评论 -
Dify 插件输出格式规范详解:text、files、json
Dify插件支持三种核心输出格式:text(纯文本/Markdown)、files(文件数据)和json(结构化数据)。text格式轻量易用,兼容所有节点;files格式支持文件传输,需配置MIME类型和访问链接;json格式便于结构化解析,适合API数据透传。选型需考虑数据类型、下游节点需求及性能限制,复杂场景可混合使用多种格式。常见问题包括变量冲突、文件下载失败和JSON解析错误,可通过转义字符、校验语法和简化结构解决。原创 2025-12-08 12:00:00 · 1354 阅读 · 0 评论 -
Ollama运行失败:PluginDaemonInternalServerError: killed by timeout 的解决方案
摘要:本文针对Ollama守护进程超时问题提供系统解决方案。首先分析超时原因,包括资源不足、模型过大、配置错误等。解决方案步骤包括:检查系统资源、改用轻量级模型、调整超时设置、更新软件版本、分析日志及优化系统环境。预防措施建议定期更新软件、监控资源使用、选择量化模型。每个步骤后需测试验证,若问题持续建议提交详细日志到GitHub社区。全文提供跨平台(Linux/macOS/Windows)的具体操作指令,帮助用户精准定位和解决超时问题。(149字)原创 2025-12-05 14:21:07 · 335 阅读 · 0 评论 -
如何让大模型更好地理解和处理 JSON 数据?
本文针对大模型处理JSON数据时的常见问题(格式歧义、字段提取偏差、类型混乱等),提出了一套系统化解决方案。通过输入层优化(明确数据边界、清理不规范格式)、结构化提示词设计(任务+规则+示例框架)、复杂场景适配(嵌套/数组/超大JSON处理)和输出管控(格式校验、类型检查),显著提升大模型处理JSON的准确性和可靠性。文章还提供了与智能体/ETL工具的集成方案及常见避坑指南,帮助开发者实现从"勉强可用"到"稳定落地"的能力升级,为数据开发、系统对接等场景提供高效支持。原创 2025-12-04 13:48:44 · 1015 阅读 · 0 评论 -
如何设置数据质量阈值?从理论建模到工程落地的全维度实践
数据质量阈值设置不是“一劳永逸的数值设定”,而是“基于统计建模+业务风险+技术落地”的动态管控过程。在阿里云生态下,通过MaxCompute完成大规模数据的统计分析、DataWorks配置阈值规则、PAI实现智能动态调整、DataV可视化监控,可构建从“阈值计算”到“异常响应”的全闭环体系。未来,随着大模型与数据治理的融合,阈值设置将向“全自动化”演进:基于企业知识库自动对齐业务风险、基于实时数据分布自动调整阈值、基于异常根因自动推荐整改策略,真正实现数据质量的智能化管控。原创 2025-12-03 12:00:00 · 1288 阅读 · 0 评论 -
Doris 中如何合理的确定分桶数量?
合理分桶数需平衡数据量、集群规模和硬件能力三大因素。核心原则是单个分桶控制在100MB~5GB,分桶数为BE节点数的整数倍。计算方法推荐数据量驱动法,通过表数据量×压缩比÷目标桶大小确定分桶数,同时考虑BE节点承载能力(HDD≤200桶/节点,SSD≤500桶/节点)。典型场景建议:小表1-8桶,中型表16-32桶,大型表32-128桶。分桶键应选择高基数列,避免数据倾斜。关键检查点包括分桶数据量范围、2的幂次取值以及单表总桶数上限(≤1000)。建议先使用自动分桶功能,后续根据监控调整。原创 2025-12-02 20:29:51 · 856 阅读 · 0 评论 -
你觉得你能从加班中学到什么? 宇信科技大数据二面
面试提问:如何处理“多数据源冲突”?数仓指标拆解: 从 “混乱” 到 “数据资产化” 的价值重构面试提问:举一个数仓建模你觉得有价值的例子,该从哪方面回答?面试提问:维度建模中,“维度”和“度量”的定义是什么?如何从业务需求中识别维度和度量?城市早高峰,最多有多少人同时在等车?| 滴滴出行共享单车用户行为分析面对复杂业务(如电商的下单-支付-物流全链路),你会如何拆分数据模型?用领域驱动设计(DDD)构建业务对齐的数仓数据模型技术实战:基于 RFM 模型识别低价值用户并追踪其最后一次下单餐厅。原创 2025-12-01 12:00:00 · 754 阅读 · 0 评论 -
虾皮26秋招大数据开发二面
摘要:本文探讨了数据处理与分析中的多个关键问题。首先介绍了企业数据统计的常用方法,包括实时流处理和离线批处理的技术选型。其次通过具体项目案例,详细说明了业务数据结构分析方法,涵盖核心字段设计、表关联关系梳理等实践。文章还包含两个典型SQL题目解析:一是计算未领取红包用户的留存率,二是统计日活用户和连续登录指标。此外,还总结了维度建模、复杂业务模型拆分等数据仓库建设经验,并分享了滴滴等企业的实际面试题目,为数据分析师和数仓工程师提供了实用的技术参考。原创 2025-11-24 21:50:06 · 382 阅读 · 0 评论 -
SQL 极简之道:如何优雅实现“优先取 add,其次取 delete 最新记录”
本文分析了SQL中处理"带优先级的最新记录"问题的多种解法。从暴力子查询、窗口函数到黑客技巧,最终推荐使用聚合+CASE+COALESCE的优雅方案。该方法通过优先级判断+聚合回填模式,在简洁性、可读性、健壮性和扩展性上表现优异。文中详细对比了各方案优劣,指出真正的SQL优雅在于逻辑贴近业务本质,而非单纯追求代码简短,并展示了如何扩展该模式处理多优先级状态。原创 2025-11-17 12:00:00 · 1598 阅读 · 0 评论 -
SQL道与术:行云流水间的有无相生
SQL中的行列转换艺术揭示了数据处理的辩证思维。通过CASE语句可实现行转列,UNION ALL则完成列转行,展现数据的流动本质。SQL还能"无中生有"生成虚拟序列,构建维度表;又能通过DISTINCT、WHERE和NOT EXISTS"化有为无"过滤数据。其核心在于理解数据是可变形态的集合,通过聚合、分解、连接等操作实现灵活转换。优秀的SQL如同诗歌,以简洁代码表达丰富含义,掌握这种"有无相生"的辩证思维,方能在数据世界游刃有余。原创 2025-11-12 12:00:00 · 829 阅读 · 0 评论 -
CSIG腾讯云 数据工程 一面
摘要:文章围绕数据仓库设计与Spark性能优化展开,探讨了数仓分层设计逻辑、DWS层维度指标选取原则、事实表必要性等问题。在Spark方面,分析了影响Stage/Task数量的因素,并提供了小文件优化方案和内存配置计算方法。同时收录了数仓实战经验,包括滴滴整合案例、滚存表优化技巧等,以及SQL面试题解答和分层设计评估方法。最后讨论了技术债务处理策略和临时取数需求应对方案,为数据工程师提供全面的技术参考。原创 2025-11-05 21:27:15 · 356 阅读 · 0 评论 -
滴滴金融数仓面试题(一面&二面)
本文整理了滴滴金融数仓岗位面试的核心问题,涵盖技术考察和业务评估两大部分。技术方面重点考察数仓建设能力(分层设计、模型融合、数据一致性保障)、Spark优化(执行流程、数据倾斜处理)、数据治理经验;业务评估侧重项目经验(需求管理、交付时效)、量化指标(数仓质量评估)及团队协作能力。特别关注候选人在离线/实时数仓的实践经验、技术问题解决能力(如SQL优化、性能调优)以及从0到1搭建数仓的系统性思维。面试问题设置体现了对数据架构设计、工程实施和业务价值落地的全面考察。原创 2025-10-31 11:00:00 · 395 阅读 · 0 评论 -
数据仓库设计的核心:数据域的构建方法与实战
本文系统阐述了数据仓库建设中数据域的定义、构建方法及实践应用。数据域作为组织数据模型的核心单元,通过对关联业务过程和实体的归类抽象,实现数据结构化与标准化。构建方法包括业务调研、明确业务过程、声明粒度、识别维度和事实五个步骤。文章以电商平台为例,划分会员、商品、交易等七大域,详细说明各域的业务过程、维度和事实指标。数据域思想贯穿于数据仓库分层架构(DWD、DWS、ADS),指导数据从明细到汇总的加工过程。合理的域划分是构建可扩展、易维护数据仓库的基础,能有效支撑业务决策。原创 2025-10-30 12:00:00 · 1208 阅读 · 0 评论 -
什么是DIKW金字塔模型?
DIKW金字塔模型(数据-信息-知识-智慧)是一个经典的信息价值分层框架。该模型从底层的原始数据(Data)开始,通过结构化处理形成信息(Information),再经过归纳分析转化为知识(Knowledge),最终通过实践反思升华为智慧(Wisdom)。每一层级都需要特定的加工动作实现转化:数据加解释、信息找关联、知识做决策。模型揭示了信息处理的本质是价值递增过程,强调必须逐层转化而不能跳跃。常见误区包括混淆数据与信息、知识与智慧的区别。该框架对数据分析、学习成长和知识管理都具有重要指导意义。原创 2025-10-29 12:00:00 · 718 阅读 · 0 评论 -
数仓面试必知必会100题 | 建议关注、收藏、点赞 以免找不到
数据仓库技术栈与核心能力摘要 本文系统梳理了数仓岗位所需的核心技术能力和知识体系。技术栈方面涵盖Hadoop生态(HDFS/YARN)、Hive(分区/分桶优化)、SparkSQL及实时处理工具(Flink/Kafka);ETL工具链包括Sqoop/Flume/DataX;建模方法论重点解析维度建模(星型/雪花模型)及SCD处理技术。 数仓架构层面,详细阐释了四层模型(ODS原始数据、DWD明细整合、DWS汇总聚合、ADS应用服务)的设计原理,分层解决了数据冗余、性能瓶颈和业务隔离等核心问题。对比传统数据库原创 2025-10-28 08:30:00 · 1872 阅读 · 0 评论 -
数仓设计的道与术:以《道德经》观数据之治
《道德经》视角下的数据仓库设计之道:本文以道家思想为镜,探讨数据仓库设计的哲学与实践。"道"层面强调尊重数据本真("朴")和系统自运行("无为");"术"层面提出分层设计的阴阳之道("知白守黑")、避免碎片化("大制不割")及轻量ETL("治大国若烹小鲜")。最高明的数仓设计应道术合一,如水利万物而不争,在技术与业务间构建自然、完整、可持续的数据生态。原创 2025-10-24 10:00:00 · 1417 阅读 · 0 评论 -
字节数仓面试9月份
本文探讨数据仓库建设中的核心问题:1. 数据漂移问题的解决方案及Hive底层原理;2. 数据域划分的必要性(如电商常见的五域划分)及与主题域的关系;3. 数据建模方法对比(星型vs雪花模型)及拉链表技术应用;4. 数据质量保障机制(SLA、指标质疑处理、临时取数流程);5. 数据资产价值评估标准。内容涵盖数据架构设计、模型选择、质量治理等关键环节,解析了实际业务场景中的典型问题及解决方案,为数据仓库建设提供实践指导。原创 2025-10-23 12:15:00 · 380 阅读 · 0 评论 -
字节数开一面
【大数据面试要点摘录】1.5小时技术面涵盖10个核心问题:数据倾斜处理、Spark阶段划分、Hive表区别、HDFS小文件问题及数仓分层理论。包含3道SQL实操题(时间范围查询、连续登录判断)和1道算法题(有序数组元素计数)。延伸问题涉及ADS层SLA保障、宽表设计(含业务粒度整合、多维指标统计)、Hive表数据一致性校验及交叉维度解决方案等高级场景。面试官特别关注宽表字段构成、分区策略等实战细节,并提供DolphinScheduler双表切换等工程实现方案。原创 2025-10-15 22:46:52 · 579 阅读 · 0 评论 -
数据仓库面试—辉致医药
本文分享了辉致医药数据仓库岗位的三轮面试内容。技术面试重点考察了SQL能力(销售占比计算、连续月份分析)、数仓开发流程、维度建模(星型/雪花模型)和ETL理解;管理面试关注项目执行、团队协作和问题处理能力;总监面则侧重项目经验和个人发展。文章还附带了多个典型数仓面试题,包括宽表设计、数据一致性校验、维度管理等实战问题,为数据仓库从业者提供了全面的面试准备参考。原创 2025-10-14 12:00:00 · 419 阅读 · 0 评论 -
SQL百题斩:从入门到精通,一站式解锁数据世界
本文汇集了SQL进阶技巧与实战案例,涵盖JSON处理、层次查询、数据预测、异常检测等核心场景。重点解析了非等值关联、窗口函数优化、数据倾斜处理等难题,提供移动平均、线性回归等高级分析方法。包含20+实战案例,如赛马问题解析、留存率计算、供应链分析等,并针对面试高频考点(JOIN条件、指标拆解等)给出专业解决方案。特别探讨了Hive性能优化策略,包括ROW_NUMBER倾斜处理、增量表合并等企业级应用,帮助开发者突破SQL能力边界,实现从基础查询到数据科学分析的跨越。原创 2025-10-10 22:40:33 · 1085 阅读 · 0 评论 -
热门面试题:spark为什么比mr快?
摘要: Spark相比MapReduce的性能优势主要体现在:1)内存优先计算,中间结果默认存内存而非磁盘,减少约1000倍的IO耗时;2)DAG调度优化,将多操作合并为Stage流水线执行,避免阶段间落盘;3)线程级任务调度,复用JVM进程降低启动开销;4)迭代计算优化,通过内存缓存避免重复读写数据。例如,10次K-means迭代中,MR需10次磁盘IO,而Spark仅首次读取数据。核心差异在于Spark通过内存替代磁盘IO,将MR的瓶颈开销降到最低。(150字)原创 2025-10-11 14:00:00 · 1914 阅读 · 0 评论 -
半导体晶圆制造中的 Lot ID 与 Batch ID有什么区别?
摘要:半导体制造中,LotID和BatchID是重要追踪标识。LotID以晶圆组(通常25片)为逻辑单位,贯穿全流程;BatchID指设备一次处理的晶圆组,与具体工艺设备相关。LotID用于MES系统全流程追踪,具有全局唯一性;BatchID是临时性设备批号,可包含多个Lot。例如扩散炉可能将多个Lot合并为一个Batch处理。两者在粒度、生命周期和应用场景上有明显差异,共同确保晶圆制造的可追溯性和工艺控制。原创 2025-10-09 11:44:47 · 1189 阅读 · 0 评论 -
快手数据研发面试题
这篇面试记录摘要了数据开发岗位的面试流程和重点问题。面试分为三轮:技术面、二面和HR面。技术面主要考察数据分析能力(20分钟)、大数据八股文(Spark原理、数仓建设等20分钟)和业务场景题(10分钟),包含SQL实操题(股票波峰波谷分析、在线用户统计)。二面深入探讨数仓项目经验(数据倾斜处理、建模方法)和业务规划能力(从0搭建数仓),增加了算法题(矩阵乘法)。HR面关注职业规划和offer选择。全文突出展示了数据开发岗位的核心考察点:大数据技术栈掌握度、数仓建设方法论、业务需求转化能力以及SQL/算法实战原创 2025-09-26 12:00:00 · 685 阅读 · 0 评论 -
虎牙数仓实习(一面)
这篇文章主要围绕数据仓库建模和大数据开发技术展开,内容涵盖: 核心技术概念:包括Kafka消息平衡机制、维度退化理论、拉链表设计、Spark/Flink的Join操作等 数据仓库建设:涉及各层评价指标、建表规范、指标拆解方法论、ADS层建设实践 面试实战:整理了字节、阿里等大厂的典型SQL题和解决方案,如紧邻填充、活动效果评估等 前沿技术:探讨了大模型在数据领域的应用 规范模板:提供了数仓命名规范、健康度指标等实用模板 文章兼具理论深度和实战价值,既适合技术学习参考,也可作为面试准备资料。原创 2025-09-25 09:00:00 · 259 阅读 · 0 评论 -
数仓中如何利用 DolphinScheduler 进行“完美补数” —— 企业级补数方案详解
《DolphinScheduler完美补数实践指南》摘要:本文系统介绍了数据补数的概念、痛点及解决方案。针对5大补数场景(单日补数、多日并行、级联补数、复杂逻辑、安全补数)提供详细配置示例,突出DolphinScheduler的参数化调度、依赖传导和并行控制能力。同时给出补数最佳实践Checklist、错误解决方案及自动化脚本示例,强调建立企业级补数SOP需工具、流程、自动化三结合,最终实现"日期精准、依赖完整、安全高效、可审计可回滚"的补数目标。(149字)原创 2025-09-24 09:00:00 · 987 阅读 · 0 评论
分享