大数据开发面试笔试资料收集

有Mysql数据库的情况下为什么要用Hive数据库

https://blog.youkuaiyun.com/nxw_tsp/article/details/54314886

大数据开发笔试题

1,hive外部表和内部表的区别,元数据存放在在哪里,

  1. Hive在实际工作过程中,需要一个统一的存储媒介来存储元数据信息,这个存储媒介通常可以是MySQL数据,
  2. Hive内部表和外部表的区别是,当Hive删除表的时候,内部表会将所有相关的数据库/表文件删除,外部表则不会删除;外部表用关键字external标识。

3,Hadoop的集群推进

2,sparkStreaming 流式机制是什么 

https://www.cnblogs.com/shishanyuan/p/4747735.html

5,tcp与udp区别

1、TCP面向连接(如打电话要先拨号建立连接);UDP是无连接的,即发送数据之前不需要建立连接

2、TCP提供可靠的服务。也就是说,通过TCP连接传送的数据,无差错,不丢失,不重复,且按序到达;UDP尽最大努力交付,即不保证可靠交付

Tcp通过校验和,重传控制,序号标识,滑动窗口、确认应答实现可靠传输。如丢包时的重发控制,还可以对次序乱掉的分包进行顺序控制。

3、UDP具有较好的实时性,工作效率比TCP高,适用于对高速传输和实时性有较高的通信或广播通信。

4.每一条TCP连接只能是点到点的;UDP支持一对一,一对多,多对一和多对多的交互通信

5、TCP对系统资源要求较多,UDP对系统资源要求较少。

锁产生的原因及四个必要条件

https://blog.youkuaiyun.com/u014419806/article/details/52856589

 

. 什么是死锁?

     如果一个进程集合里面的每个进程都在等待这个集合中的其他一个进程(包括自身)才能继续往下执行,若无外力他们将无法推进,这种情况就是死锁,处于死锁状态的进程称为死锁进程

. 死锁产生的原因?

1.因竞争资源发生死锁 现象:系统中供多个进程共享的资源的数目不足以满足全部进程的需要时,就会引起对诸资源的竞争而发生死锁现象

1)可剥夺资源和不可剥夺资源:可剥夺资源是指某进程在获得该类资源时,该资源同样可以被其他进程或系统剥夺,不可剥夺资源是指当系统把该类资源分配给某个进程时,不能强制收回,只能在该进程使用完成后自动释放  

2)竞争不可剥夺资源:系统中不可剥夺资源的数目不足以满足诸进程运行的要求,则发生在运行进程中,不同的进程因争夺这些资源陷入僵局。

举例说明:  资源A,B 进程C,D

资源A,B都是不可剥夺资源:一个进程申请了之后,不能强制收回,只能进程结束之后自动释放。内存就是可剥夺资源

进程C申请了资源A,进程D申请了资源B

接下来C的操作用到资源BD的资源用到资源A。但是C,D都得不到接下来的资源,那么就引发了死锁。

3)竞争临时资源

2.进程推进顺序不当发生死锁

 

. 产生死锁的四个必要条件?

1)互斥条件:进程对所分配到的资源不允许其他进程进行访问,若其他进程访问该资源,只能等待,直至占有该资源的进程使用完成后释放该资源

2)请求和保持条件:进程获得一定的资源之后,又对其他资源发出请求,但是该资源可能被其他进程占有,此事请求阻塞,但又对自己获得的资源保持不放

3)不可剥夺条件:是指进程已获得的资源,在未完成使用之前,不可被剥夺,只能在使用完后自己释放

4)环路等待条件:是指进程发生死锁后,必然存在一个进程--资源之间的环形链

 

. 处理死锁的基本方法

1.预防死锁:通过设置一些限制条件,去破坏产生死锁的必要条件

2.避免死锁:在资源分配过程中,使用某种方法避免系统进入不安全的状态,从而避免发生死锁

3.检测死锁:允许死锁的发生,但是通过系统的检测之后,采取一些措施,将死锁清除掉

4.解除死锁:该方法与检测死锁配合使用

Linux进程间的通信方式和原理【转

https://blog.youkuaiyun.com/biqioso/article/details/80025726

进程的概

  • 进程是操作系统的概念,每当我们执行一个程序时,对于操作系统来讲就创建了一个进程,程中,伴随着源的分配和放。可以认为进程是一个程序的一次程。

进程通信的概

  • 是相互独立的,一般而言是不能相互访问的。但很多情况下需要互相通信,来完成系的某功能。程通与内核及其它程之的互相通信来协调的行

进程通信的应用场

  • 数据传输:一个进程需要将它的数据发送给另一个进程,发送的数据量在一个字节到几兆字节之间。
  • 共享数据:多个进程想要操作共享数据,一个进程对共享数据的修改,别的进程应该立刻看到。
  • 通知事件:一个进程需要向另一个或一组进程发送消息,通知它(它们)发生了某种事件(如进程终止时要通知父进程)。
  • 资源共享:多个进程之间共享同样的资源。为了作到这一点,需要内核提供锁和同步机制。
  • 进程控制:有些进程希望完全控制另一个进程的执行(如Debug进程),此时控制进程希望能够拦截另一个进程的所有陷入和异常,并能够及时知道它的状态改变。

进程通信的方

管道( pipe )

管道包括三种:

  • 普通管道PIPE 通常有两种限制,一是,只能传输;二是只能在父子或者兄弟使用.
  • 流管道s_pipe: 去除了第一种限制,为半双工,只能在父子或兄弟进程间使用,可以双向传输.
  • 命名管道:name_pipe:去除了第二种限制,可以在多并不相关的程之间进行通.

数据仓库的架构与设计

 

https://blog.youkuaiyun.com/trigl/article/details/68944434

ETL

https://www.cnblogs.com/yjd_hycf_space/p/7772722.html

Kafka基本使用介绍

https://blog.youkuaiyun.com/wing_93/article/details/78513782

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值