谈谈我的面试经历：大数据开发如何面试？

最新推荐文章于 2025-06-25 09:56:25 发布

转载最新推荐文章于 2025-06-25 09:56:25 发布 · 7.8k 阅读

文章标签：

#大数据 #大数据面试 #大数据开发 #大数据学习

大数据专栏收录该内容

34 篇文章

订阅专栏

面试官：您好，请讲述一个自己最熟悉的项目，自己在其中的贡献？

最优解答：

项目规模和介绍：某项目，是为多少用户提供什么服务，哪些功能和核心模块。

技术架构：遇到高并发，高可用的实际问题是什么，因此采用Hadoop离线处理和Spark实时计算。

技术难点一：离线处理中的数据处理，比如数据表的行转列，JSON转Java,复杂的SQL语句等。

技术难度二：实时处理时的常见内存溢出问题和参数调优。

技术难度三：设计数据流，分业务和分模块说。

主要贡献：代码行数，框架集成，数据处理，性能调优，整体设计等。

【大数据开发学习资料领取方式】：加入大数据技术学习交流群458345782，点击加入群聊，私信管理员即可免费领取

面试官：您好，请讲述一个自己掌握的核心技术，以及如何应用？

最优解答：

·J2EE：大数据采集单元，大数据分析单元的主要工作，如何做出服务，如何SpringBoot集成Hadoop，Spark。

·Hadoop：多少个节点，高并发，高可用的实际问题中解决数据倾斜，数据处理，数据统计，数据离线分析等。

·Spark：实时处理中的数据处理，比如算子,复杂的SQL语句等。

·机器学习：分析的数据集生成，数据处理，数据建模，数据预测，数据模型调优。

·系统设计：设计数据流，分业务和分模块说。

·个人价值：代码行数，关键问题处理等。

面试官：您好，请讲述一个高并发的框架或者实现方法？

最优解答：

·Mina：开发高性能和高可用性的网络应用程序的基础框架。

·Netty：开发高性能和高可用性的网络应用程序的基础框架。

·内存分配方式：HeapByteBuffer和DirectByteBuffer分配。

·线程模型：分析的数据集生成，数据处理，数据建模，数据预测，数据模型调优。

MINA是用于开发高性能和高可用性的网络应用程序的基础框架通过使用MINA框架可以省下处理底层I/O和线程并发等复杂工作，开发人员能够把更多的精力投入到业务设计和开发当中 MINA框架的应用比较广泛，应用的开源项目有Apache Directory、AsyncWeb、Apache Qpid、QuickFIX/J、Openfire、SubEthaSTMP、red5等,基于java NIO类库开发；采用非阻塞方式的异步传输；事件驱动；支持批量数据传输；支持TCP、UDP协议；串口通讯程序；控制反转的设计模式（支持Spring）；采用优雅的松耦合架构；可灵活的加载过滤器机制；单元测试更容易实现；可自定义线程的数量，以提高运行于多处理器上的性能；采用回调的方式完成调用，线程的使用更容易。

Netty是一个高性能、异步事件驱动的NIO框架，它提供了对TCP、UDP和文件传输的支持。作为当前最流行的NIO框架，Netty在互联网领域、大数据分布式计算领域、游戏行业、通信行业等获得了广泛的应用，一些业界著名的开源组件也基于Netty的NIO框架构建。Netty 利用 Java 高级网络的能力，隐藏其背后的复杂性而提供一个易于使用的 API 构建一个客户端/服务端，其具有高并发、传输快、封装好等特点。高并发 :Netty是一款基NIO（Nonblocking I/O，非阻塞IO）开发的网络通信框架，对比于BIO（Blocking I/O，阻塞IO），他的并发性能得到了很大提高。传输快 :Netty的传输快其实也是依赖了NIO的一个特性——零拷贝。封装好 :Netty封装了NIO操作的很多细节，提供易于使用的API，还有心跳、重连机制、拆包粘包方案等特性，使开发者能能够快速高效的构建一个稳健的高并发应用。

mina buffer 分配方式：默认实现采用了 HeapByteBuffer，每次都是直接调用 ByteBuffer.allocate(capacity) 直接分配.buffer 分配大小预测：根据每次读事件实际读到的字节数计算分配 buffer 的大小，若实际读到字节将 ByteBuffer 装满，说明来自网络的数据量可能较大而分配 buffer 容量不足，则扩大 buffer 一倍。若连续 2 次读到的实际字节数小于 buffer 容量的一半，则缩小 buffer 为原来的一半

netty buffer分配方式:默认实现采用了DirectByteBuffer，并且实现了 buffer cache，只要 buffer 大小不改变会重复利用已经分配的 buffer.buffer 分配大小预测：初始化了一张 buffer size 静态分配表如下（截取部分），假如当前默认 buffer 为 2048

更多大数据学习相关资源请关注公众号：ITdaima