- 博客(9)
- 资源 (1)
- 收藏
- 关注
原创 大数据知识面试题-Scala高级面试要点
在 Scala 高级面试中,面试官通常会聚焦函数式编程、类型系统、并发模型、性能优化、与 Java 互操作函数式编程核心高阶函数与闭包case class一、闭包闭包本质上是一个函数,它能够访问并持有其定义时所在环境的变量,即便在该环境已经不在作用域内时,这些变量依然可以被访问。在 Scala 中,匿名函数经常会形成闭包。从底层机制来看,当匿名函数捕获外部变量时,Scala 编译器会创建一个类,这个类包含捕获的变量作为成员变量。
2025-05-06 13:05:33
707
原创 Flink CDC自动识别表结构变化
实际使用时,建议结合数据库的 Schema 演化规范(如 “开闭原则”:新增字段而非修改现有字段),并通过 Flink 的容错机制(如 Checkpoint)保障变更期间任务的稳定性。Debezium 引擎会将表结构变更(如新增列、修改数据类型)封装为特殊的 DDL 事件,并传递给 Flink 流处理作业。- 类型转换:支持数据库类型到 Flink 类型的自动映射(如 MySQL VARCHAR → Flink STRING),不兼容的类型变更(如 DATE 转 BIGINT)会导致任务报错,需手动处理。
2025-05-06 12:31:26
728
原创 大数据知识-Doris怎么做离线和实时数仓
Spark Load:通过 Spark 将 Hive 数据写入 Doris。在实际应用中,建议根据业务需求灵活选择数据模型和导入方式,并结合监控工具持续优化性能。- Routine Load:消费 Kafka 数据实时写入 Doris。,实现了离线和实时数仓的无缝融合。Apache Doris 通过。
2025-05-06 11:33:21
2022
原创 Linux服务器命令大全
mount /dev/sdb1 /mnt/data” 将 “/dev/sdb1” 分区挂载到 “/mnt/data” 目录;“cp -r /data/backup/” 递归复制 “/data” 目录及其所有内容到 “/backup/”。“chown newuser:newgroup /data/file.txt” 将 “/data/file.txt” 的所有者改为 “newuser”,所属组改为 “newgroup”。“umount /mnt/data” 卸载 “/mnt/data” 目录的挂载;
2025-05-06 11:22:07
931
原创 Perl命令大全
Perl(Practical Extraction and Reporting Language)是一种高级编程语言,常用于文本处理、系统管理、Web 开发等。perl -i -p -e 's/^\s+//' file.txt # 删除每行开头的空白字符(-i 表示原地修改)perl -F, -lane 'print $F[0]' data.csv # -F, 按逗号分割,$F 是字段数组。查看 Perl 文档(模块、函数、语法)Perl 模块包管理器(交互式)(替换文件中的文本,逐行处理)
2025-05-06 11:14:40
875
原创 Hadoop集群故障排查
Hadoop 集群故障排查是保障集群稳定运行的关键,需要从多个层面进行系统检查和分析。HDFS 是 Hadoop 的分布式文件系统,是 Hadoop 集群的核心组件之一,需要重点排查。YARN 是 Hadoop 的资源管理系统,负责集群资源的分配和任务调度,需要进行排查。在故障解决后,需要对故障进行总结和分析,制定相应的预防措施,避免类似故障再次发生。网络问题是导致 Hadoop 集群故障的常见原因之一,需要检查网络连接和配置。软件配置错误或版本不兼容也可能导致 Hadoop 集群故障,需要进行检查。
2025-05-06 11:04:43
1878
原创 Hadoop集群搭建
Hadoop 联邦集群通过引入多个 NameNode,每个 NameNode 管理一部分命名空间,从而实现了命名空间的横向扩展,提高了集群的整体性能和可扩展性。Hadoop 联邦集群是 Hadoop 分布式文件系统(HDFS)中的一个重要特性,它为解决大规模数据存储和管理中的扩展性和性能问题提供了有效的方案。综上所述,Hadoop 联邦集群通过引入多个 NameNode 实现了命名空间的横向扩展,提高了集群的扩展性和性能。但在使用过程中,需要注意管理复杂性、数据块管理和元数据一致性等问题。
2025-05-06 11:03:23
747
原创 大数据知识面试题-Flink(2025版)
DataStream 是数据的载体,Transformation 是对 DataStream 进行处理的抽象操作定义,而 Operator(ɑːpəreɪtər) 是 Transformation 的具体实现,用于在 Flink 的分布式计算环境中实际执行对 DataStream 的处理,将输入的 DataStream 通过各种 Operator 的处理,转换为新的 DataStream,以实现数据处理的目标。如果在检查点过程中发生故障,数据接收器会回滚预提交的数据,确保不会出现重复写入。
2025-05-06 10:52:15
590
原创 大数据知识面试题-ClickHouse(2025版)
ClickHouse 简介ClickHouse 是一款开源的列式数据库管理系统(DBMS)。它专为在线分析处理(OLAP)场景设计,具备高性能、可扩展性和实时数据分析能力。列式存储让它在处理大量数据时,能高效压缩和快速读取特定列,减少 I/O 开销。并且支持分布式处理,可将查询分发到多个节点并行执行,提升处理速度。主要应用场景Web 分析:能快速处理海量的网站访问日志数据,帮助分析用户行为、流量来源、页面浏览量等指标,为网站优化和营销策略制定提供依据。
2025-05-06 10:34:48
2345
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅