
面经
潜心_守道
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据面试之——大数据解决方案思维题
1.给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?方案1:假如每个url大小为10bytes,那么可以估计每个文件的大小为50G×64=320G,远远大于内存限制的4G,所以不可能将其完全加载到内存中处理,可以采用分治的思想来解决。Step1:遍历文件a,对每个url求取hash(url)%1000,然后根据所取得的值将u...原创 2020-03-06 15:58:13 · 779 阅读 · 0 评论 -
大数据面试系列之——Java基础
1.String 和StringBuffer的区别JAVA平台提供了两个类:String和StringBuffer,它们可以储存和操作字符串,即包含多个字符的字符数据这个String类提供了数值不可改变字符串而这个StringBuffer类提供的字符串进行修改当你知道字符数据要改变的时候你就可以使用StringBuffer典型地,你可以使用StringBuffers来动态构造字符数据2...转载 2020-03-03 16:04:48 · 432 阅读 · 0 评论 -
大数据面试系列之——Kafka
1 什么是kafkaKafka是分布式发布-订阅消息系统,它最初是由LinkedIn公司开发的,之后成为Apache项目的一部分,Kafka是一个分布式,可划分的,冗余备份的持久性的日志服务,它主要用于处理流式数据。2 为什么要使用 kafka,为什么要使用消息队列缓冲和削峰:上游数据时有突发流量,下游可能扛不住,或者下游没有足够多的机器来保证冗余,kafka在中间可以起到一个缓冲的作...转载 2020-03-02 15:38:15 · 472 阅读 · 0 评论 -
面试系列之——数据库知识(2)
MySQL数据库在5.0版本后开始支持存储过程,那么什么是存储过程呢?怎么创建、查看和删除存储过程呢?存储过程有什么优点?这些是本章节要探讨的问题:什么是存储过程:简单的说存储过程是为了完成某个数据库中的特定功能而编写的语句集,该语句集包括SQL语句(对数据的增删改查)、条件语句和循环语句等。创建存储过程:存储过程的创建非常简单,其创建结构为:CREATE PROCEDURE proc_...转载 2020-02-26 11:21:42 · 950 阅读 · 0 评论 -
面试系列之——数据库知识(1)
事务事务指的是满足如下四个特性【ACID特性】的一组操作,可以通过 Commit 提交一个事务,也可以使用 Rollback 进行回滚。原子性(Atomicity)事务被视为不可分割的最小单元,事务的所有操作要么全部提交成功,要么全部失败回滚。回滚可以用回滚日志来实现,回滚日志记录着事务所执行的修改操作,在回滚时反向执行这些修改操作即可。一致性(Consistency)数据库在事务执...转载 2020-02-25 17:13:14 · 295 阅读 · 0 评论 -
面试系列之——MySQL基础
数据库某种意义上这样定义:物理操作系统或者其他形式文件类型的集合;在 MySQL 中,实例和数据库往往都是一一对应的,而我们也无法直接操作数据库,而是要通过数据库实例来操作数据库文件,可以理解为数据库实例是数据库为上层提供的一个专门用于操作的接口。在 Linux上,启动一个 MySQL 实例往往会产生两个进程,mysqld 就是真正的数据库服务守护进程,而 mysqld_safe 是一个用于检...转载 2020-02-25 16:53:02 · 323 阅读 · 0 评论 -
大数据面试系列之——Zookeeper
1.简单介绍下ZookeeperZooKeeper是一个开放源码的分布式协调服务,它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终,将简单易用的接口和性能高效、功能稳定的系统提供给用户。分布式应用程序可以基于Zookeeper实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master选举、分布式锁和分布式队列等功能。Zookee...原创 2020-02-24 15:28:14 · 516 阅读 · 0 评论 -
大数据面试系列之——Spark
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。1.Spark有几种部署模式,各个模式的特点1.本地模式Spark不一定非要跑在hadoop集群,可以在本地,起多个线程的方式来指定。方便调试,本地模式分三类local:只启动一个executorlocal[k]: 启动k个executorlocal:启动跟cpu数目相同的 executor2.s...原创 2020-02-17 13:31:31 · 1148 阅读 · 0 评论 -
大数据面试系列之——Hive
Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据1.Hive与传统数据库的区别1、数据存储位置:Hive是建立在Hadoop之上的,所有的Hive的数据都是存储在HDFS中的。而数据库则可以将数据保存在块设备或本地文件系统中。2、数据格式:Hive中没有定义专门的数据格式,由用户指定,需要指定三个属性:列分隔符,行分隔符,以及读取文件数据的方法。数据库中,存储引擎定义了自己的...原创 2020-02-12 21:55:17 · 1103 阅读 · 0 评论 -
大数据面试系列之——Hbase
Hbase是一个分布式的列式存储的数据库1.说说Hbase的特点1.分布式架构,Hbase通过集群存储数据,数据最终会落到HDFS上2.是一种NoSQL的非关系型数据库,不符合关系型数据库的范式3.面向列存储,底层基于key-value结构4.适合存储半结构化、非结构化的数据5.适合存储稀疏的数据,空的数据不占用空间6.提供实时的增删改查的能力,但是不提供严格的事务机制,只能在行级别...原创 2020-02-05 20:44:08 · 544 阅读 · 0 评论 -
大数据面试系列之——Hadoop
Hadoop的三个核心:HDFS(分布式存储系统)MapReduce(分布式计算系统)YARN (分布式资源调度)一.Hadoop集群的几种搭建模式1.单机模式:直接解压安装,不存在分布式存储系统2.伪分布式:NameNode和DataNode安装于同一个节点,无法体现分布式处理的优势。3.完全分布式:一个主节点,多个从节点,存在如果主节点宕机,集群就无法使用的缺点。4.高可用模式...原创 2020-02-04 21:13:51 · 420 阅读 · 0 评论