字节后端面经汇总(OS,Python部分)
字节跳动后端开发面经汇总(Python)
- 字节后端面经汇总(OS,Python部分)
- 二. 操作系统
- 三. Python
-
- 编译型代码和解释型代码的区别
- Python中的内存管理机制
- 讲一下Python GC的原理和详细解释(分代,标记回收,内存划分)
- 元组和list的区别
- 迭代器和生成器(及两者区别)
- 什么是装饰器
- 如何构造一个生成器
- Python中的GIL
- GIL是单线程的,Python的多线程实现有什么用
- GIL是什么,为什么会有,有什么作用,怎么规避它对于并行的影响
- Python多线程用了几个CPU
- python有真正的多线程吗(可以用到多核吗)
- Python的并发
- Python中static_method,class_method和普通method有什么区别
- Python的sort和sorted
- Python中的map怎么实现的(java中的hashmap底层怎么实现的)
- Python中的dict底层怎么实现的
- Python中list的底层怎么实现的
- 双等于和is有什么区别
- Python协程实现一个生产者消费者模型
- Python的重写与重载
- Python items 和 iter-items的区别
- immutable跟mutable,Python中自建对象一般是可变还是不可变
- pyc是什么文件(编译的py文件)
- 10亿个数字,取最小的100个数(说思路 :最小堆,partition两者的时间复杂度,写伪代码)
二. 操作系统
①进程,线程,协程
进程和线程的区别
进程:是并发执行的程序在执行过程中分配和管理资源的基本单位,是一个动态概念,竞争计算机系统资源的基本单位。
线程:是进程的一个执行单元,是进程内调度实体。比进程更小的独立运行的基本单位。线程也被称为轻量级进程
进程同步
进程同步:在多道程序环境下,进程是并发执行的,不同进程之间存在着不同的相互制约关系
临界资源:对于某些资源来说,其在同一时间只能被一个进程所占用。
对临界资源的访问,必须互斥地进行,在每个进程中,访问临界资源的那段代码称为临界区。为了保证临界资源的正确使用,可以把临界资源的访问过程分成四个部分:
- 进入区。为了进入临界区使用临界资源,在进入区要检查可否进入临界区,如果可以进入临界区,则应设置正在访问临界区的标志,以阻止其他进程同时进入临界区。
- 临界区。进程中访问临界资源的那段代码,又称临界段。
- 退出区。将正在访问临界区的标志清除。
- 剩余区。代码中的其余部分。
同步亦称直接制约关系,它是指为完成某种任务而建立的两个或多个进程,这些进程因为需要在某些位置上协调它们的工作次序而等待、传递信息所产生的制约关系。进程间的直接制约关系就是源于它们之间的相互合作。(例如,输入进程A通过单缓冲向进程B提供数据。当该缓冲区空时,进程B不能获得所需数据而阻塞,一旦进程A将数据送入缓冲区,进程B被唤醒。反之,当缓冲区满时,进程A被阻塞,仅当进程B取走缓冲数据时,才唤醒进程A。)
操作系统进程调度有哪些算法
-
先来先服务
-
轮转法
-
最短进程
-
最短剩余时间
最短剩余时间(Shortest Remaining Time,SRT)是针对SPN增加了抢占机制的版本。在这种情况下,调度程序总是选择预期剩余时间最短的进程。当一个进程加入就绪队列时,它可能比当前运行的进程具有更短的剩余时间,因此只要新进程就绪,调度程序就可能抢占当前正在运行的进程。像SPN一样,调度程序在执行选择函数时必须有关于处理时间的估计,并且存在长进程饥饿的危险。 -
优先权调度算法
为了照顾紧迫性作业,使之进入系统后便获得优先处理,引入了最高优先权优先(FPF)调度算法。 此算法常被用在批处理系统中,作为作业调度算法,也作为多种操作系统中的进程调度,还可以用于实时系统中。当其用于作业调度, 将后备队列中若干个优先权最高的作业装入内存。当其用于进程调度时,把处理机分配给就绪队列中优先权最高的进程 -
多级反馈队列调度算法
-
抢占式调度算法
详解
进程和线程切换,线程的状态
进程的切换:需要保存以下内容:
标识符: 唯一标识一个进程
状态: 记录进程状态,如阻塞、就绪、运行等状态
优先级: 记录进程的优先级,可以根据优先级对进程执行调度
程序计数器PC: 指向进程中下一条将要执行的指令
内存指针: 程序代码和进程相关诗句的指针
上下文数据: 进程运行时,CPU中寄存器的内容
I/O状态信息: 显示的I/O请求,分配给进程的I/O设备、被进程使用的文件列表等
记账信息: 处理器的时间总和、记账号等
线程的切换: 线程共享进程的资源,进行线程切换时,只需要保存线程的私有数据:栈、程序计数器、寄存器
进程切换的开销比线程切换的开销大: 进程的上下文切换需要保存更多的信息,比线程的上下文切换开销更大
实现进程同步的机制有什么
- 信号量机制
- 自旋锁
- 管程
- 会合
- 分布式系统
多线程是怎么使用的,该怎么设计一个线程池
线程池:线程池顾名思义就是事先创建若干个可执行的线程放入一个池(容器)中,需要的时候从池中获取线程不用自行创建,使用完毕不需要销毁线程而是放回池中,从而减少创建和销毁线程对象的开销
一个线程池包括以下几部分:
线程管理器 (ThreadPool):用于创建并管理线程池,包括创建线程,销毁线程池,添加新任务
工作线程 (PoolWorker):线程池中线程,在没有任务时处于等待状态,可以循环的执行任务
任务接口 (Task):每个任务必须实现的接口,以供工作线程调度任务的执行,它主要规定了任务的入口,任务执行完后的收尾工作,任务的执行状态等
任务队列 (TaskQueue):用于存放没有处理的任务。提供一种缓冲机制
不同线程的堆栈相同吗
每个线程有自己的堆栈
爬虫适合用多进程还是多线程
总体来看,大概多线程可能是最佳人选,爬虫大部分操作都是密集I/O操作
线程与协程
详解</