
大数据+AI常见面试题
文章平均质量分 90
总结一些大数据的面试题
啵啵玩转AI-BigData
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Flink常见面试题总结
Flink 是一个面向流处理和批处理的分布式数据计算引擎,能够基于同一个Flink运行,可以提供流处理和批处理两种类型的功能。在 Flink 的世界观中,一切都是由流组成的,离线数据是有界的流;实时数据是一个没有界限的流:这就是所谓的有界流和无界流。原创 2024-05-20 21:59:51 · 1617 阅读 · 0 评论 -
开放性面试问题
职业前景广阔:随着数据量的爆炸式增长,各行各业都需要大数据分析来驱动决策和创新。技术前沿:大数据技术处于技术发展的前沿,涉及到机器学习、人工智能、云计算等多个领域。选择这个方向可以不断学习新技术,保持职业技能的先进性。多样化的应用领域:大数据技术应用广泛,包括金融、医疗、零售、制造、物流等多个行业。选择大数据方向可以有机会接触到不同的行业,增加职业的多样性和趣味性。个人兴趣:本人对数据分析、数据挖掘等技术本身就有浓厚的兴趣,选择大数据方向的工作可以让他们在感兴趣的领域中发挥特长。原创 2024-05-20 10:51:02 · 298 阅读 · 0 评论 -
Java基础篇常见面试问题总结
装箱:将基本类型转换成包装类对象拆箱:将包装类对象转换成基本类型的值java 为什么要引入自动装箱和拆箱的功能?主要是用于 java集合中,List list=new ArrayList();list 集合如果要放整数的话,只能放对象,不能放基本类型,因此需要将整数自动装箱成对象。Integer是 int的包装类,int则是 java的一种基本数据类型Integer变量必须实例化后才能使用,而 int变量不需要。原创 2024-05-15 22:01:26 · 869 阅读 · 0 评论 -
大厂面试sql手撕题目总结
【代码】大厂面试sql手撕题目总结。原创 2024-05-06 22:05:33 · 2353 阅读 · 1 评论 -
Java高级常见面试题总结
何为进程?进程是程序的一次执行过程,是系统运行程序的基本单位,因此进程是动态的。系统运行一个程序即是一个进程从创建,运行到消亡的过程。何为线程?线程与进程相似,但线程是一个比进程更小的执行单位。一个进程在其执行的过程中可以产生多个线程。与进程不同的是同类的多个线程共享进程的堆和方法区资源,但每个线程有自己的程序计数器、虚拟机栈和本地方法栈,所以系统在产生一个线程,或是在各个线程之间做切换工作时,负担要比进程小得多,也正因为如此,线程也被称为轻量级进程。原创 2024-04-22 09:41:35 · 1229 阅读 · 0 评论 -
计算机网络常见面试总结
我们可以将 TCP / IP 模型看作是 OSI 七层模型的精简版本,由以下 4 层组成:总体来说分为以下几个步骤:原创 2024-04-11 23:25:23 · 1250 阅读 · 0 评论 -
Spark面试重点
RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。Resilient:RDD中的数据可以存储在内存中或者磁盘中。原创 2024-04-06 20:03:39 · 1578 阅读 · 0 评论 -
数据仓库面试总结
概念存储数据的仓库, 主要是用于存储过去既定发生的历史数据, 对这些数据进行数据分析的操作, 从而对未来提供决策支持四大特征面向于主题的: 面向于分析, 分析的内容是什么 什么就是我们的主题集成性: 数据是来源于各个数据源, 将各个数据源数据汇总在一起非易失性(稳定性): 存储在数据仓库中数据都是过去既定发生数据, 这些数据都是相对比较稳定的数据, 不会发生改变时变性: 随着的推移, 原有的分析手段以及原有数据可能都会出现变化(分析手动更换, 以及数据新增)原创 2024-04-04 21:31:56 · 1740 阅读 · 0 评论 -
MySQL面试重点
原子性(Atomicity):事务是不可分割的最小操作单元,要么全部成功,要么全部失败。一致性(Consistency):事务完成时,必须使所有的数据都保持一致状态。隔离性(Isolation):数据库系统提供的隔离机制,保证事务在不受外部并发操作影响的独立 环境下运行。持久性(Durability):事务一旦提交或回滚,它对数据库中的数据的改变就是永久的。上述就是事务的四大特性,简称ACID。原创 2024-04-03 10:19:26 · 1068 阅读 · 0 评论 -
Hadoop面试重点
文章目录1. Hadoop 常用端口号1. Hadoop 常用端口号hadoop2.xhadoop3.x访问HDFS 端口500709870访问 MR 执行情况端口80888088历史服务器1988819888客户端访问集群端口90008020原创 2024-03-28 07:33:54 · 369 阅读 · 0 评论 -
Hive面试重点
总的来说,Hive 通过将数据存储在 HDFS 中,并通过表来组织和管理数据,实现了对大规模数据的高效读写和查询。同时,Hive 还提供了丰富的数据导入导出功能,支持多种文件格式和数据源,满足了不同场景下的数据处理需求。Hive 读写文件的机制主要涉及到数据的导入和导出,以及数据在 Hadoop 分布式文件系统(HDFS)中的存储和管理。总的来说,Hive 适用于大数据分析和处理,而传统数据库适用于实时交互式查询和事务处理。这些区别主要源于它们的设计目标、数据模型、查询语言、数据处理方式等方面。原创 2024-03-20 19:59:29 · 802 阅读 · 0 评论 -
Yarn面试重点
YARN(Yet Another Resource Negotiator)是Hadoop 2.x引入的资源管理器,用于管理Hadoop集群中的资源和作业调度。总体而言,YARN集群的架构是一个分布式资源管理系统,通过ResourceManager和NodeManager协同工作,实现对集群资源的有效管理和作业调度,支持多种类型的应用程序运行在Hadoop集群中。总的来说,FIFO调度器、容量调度器和公平调度器是YARN中常用的三种资源调度模型,每种模型都有其适用的场景和优缺点。原创 2024-03-18 20:05:55 · 1184 阅读 · 0 评论 -
MapReduce面试重点
总的来说,Join操作在MapReduce中通常通过Mapper和Reducer协同工作来实现,利用Shuffle阶段对具有相同键的记录进行分组,然后在Reduce阶段进行连接操作。具体的实现方法取决于数据规模、数据分布和连接类型等因素。:中间键值对被分发到不同节点,以便相同键的值能被发送到同一个Reduce任务,同时对键进行排序,确保相同的键在Reduce阶段按顺序到达。:Reduce阶段生成的结果被写入输出目标,如文件系统中的文件或数据库中的表格,作为MapReduce过程的最终结果。原创 2024-03-14 23:08:29 · 884 阅读 · 0 评论 -
HDFS面试重点
总体而言,HDFS的架构是一个主从式的架构,其中NameNode作为中心管理元数据和客户端请求,而DataNode负责存储实际的数据块。通过将文件分成多个数据块并在集群中复制多个副本,可以提高数据的容错性。如果某个节点发生故障或者数据损坏,系统可以从其他副本所在的节点上获取数据,从而保证数据的可靠性和可用性。将文件分成固定大小的数据块可以使得数据在集群中分布均匀,并且能够实现并行处理。每个数据块都可以在集群中的不同节点上进行存储和处理,从而实现数据的高效读写和处理。原创 2024-03-12 10:23:32 · 1459 阅读 · 0 评论