Java NIO 基本介绍
Java NIO
全称Java non-blocking IO
,是指JDK
提供的新API
。从JDK1.4
开始,Java
提供了一系列改进的输入/输出的新特性,被统称为NIO
(即NewIO
),是同步非阻塞的。NIO
相关类都被放在java.nio
包及子包下,并且对原java.io
包中的很多类进行改写。【基本案例】NIO
有三大核心部分:Channel
(通道)、Buffer
(缓冲区)、Selector
(选择器) 。NIO
是面向缓冲区,或者面向块编程的。数据读取到一个它稍后处理的缓冲区,需要时可在缓冲区中前后移动,这就增加了处理过程中的灵活性,使用它可以提供非阻塞式的高伸缩性网络。Java NIO
的非阻塞模式,使一个线程从某通道发送请求或者读取数据,但是它仅能得到目前可用的数据,如果目前没有数据可用时,就什么都不会获取,而不是保持线程阻塞,所以直至数据变的可以读取之前,该线程可以继续做其他的事情。非阻塞写也是如此,一个线程请求写入一些数据到某通道,但不需要等待它完全写入,这个线程同时可以去做别的事情。【后面有案例说明】- 通俗理解:
NIO
是可以做到用一个线程来处理多个操作的。假设有10000
个请求过来,根据实际情况,可以分配50
或者100
个线程来处理。不像之前的阻塞IO
那样,非得分配10000
个。 HTTP 2.0
使用了多路复用的技术,做到同一个连接并发处理多个请求,而且并发请求的数量比HTTP 1.1
大了好几个数量级。
NIO 三大核心原理示意图
- 每个
Channel
都会对应一个Buffer
。 Selector
对应一个线程,一个线程对应多个Channel
(连接)。- 该图反应了有三个
Channel
注册到该Selector
//程序 - 程序切换到哪个
Channel
是由事件决定的,Event
就是一个重要的概念。 Selector
会根据不同的事件,在各个通道上切换。Buffer
就是一个内存块,底层是有一个数组。- 数据的读取写入是通过
Buffer
,这个和BIO
,BIO
中要么是输入流,或者是输出流,不能双向,但是NIO
的Buffer
是可以读也可以写,需要flip
方法切换Channel
是双向的,可以返回底层操作系统的情况,比如Linux
,底层的操作系统通道就是双向的。
缓冲区(Buffer)
缓冲区(Buffer
):缓冲区本质上是一个可以读写数据的内存块,可以理解成是一个容器对象(含数组),该对象提供了一组方法,可以更轻松地使用内存块,,缓冲区对象内置了一些机制,能够跟踪和记录缓冲区的状态变化情况。Channel
提供从文件、网络读取数据的渠道,但是读取或写入的数据都必须经由 Buffer
,如图:【后面举例说明】
Buffer 类及其子类
- 在
NIO
中,Buffer
是一个顶层父类,它是一个抽象类,类的层级关系图:
Buffer
类定义了所有的缓冲区都具有的四个属性来提供关于其所包含的数据元素的信息:
ByteBuffer
从前面可以看出对于 Java
中的基本数据类型(boolean
除外),都有一个 Buffer
类型与之相对应,最常用的自然是 ByteBuffer
类(二进制数据),该类的主要方法如下:
通道(Channel)
NIO
的通道类似于流,但有些区别如下:- 通道可以同时进行读写,而流只能读或者只能写
- 通道可以实现异步读写数据
- 通道可以从缓冲读数据,也可以写数据到缓冲:
BIO
中的Stream
是单向的,例如FileInputStream
对象只能进行读取数据的操作,而NIO
中的通道(Channel
)是双向的,可以读操作,也可以写操作。Channel
在NIO
中是一个接口public interface Channel extends Closeable{}
- 常用的
Channel
类有:**FileChannel
、DatagramChannel
、ServerSocketChannel
和SocketChannel
**。【ServerSocketChanne
类似ServerSocket
、SocketChannel
类似Socket
】 FileChannel
用于文件的数据读写,DatagramChannel
用于UDP
的数据读写,ServerSocketChannel
和
FileChannel 类
FileChannel
主要用来对本地文件进行 IO
操作,常见的方法有
public int read(ByteBuffer dst)
,从通道读取数据并放到缓冲区中public int write(ByteBuffer src)
,把缓冲区的数据写到通道中public long transferFrom(ReadableByteChannel src, long position, long count)
,从目标通道中复制数据到当前通道public long transferTo(long position, long count, WritableByteChannel target)
,把数据从当前通道复制给目标通道
1. ByteBuffer
支持类型化的 put
和 get
,put
放入的是什么数据类型,get
就应该使用相应的数据类型来取出,否则可能有 BufferUnderflowException
异常
2 。可以将一个普通 Buffer
转成只读 Buffer
//得到一个只读的
Buffer ByteBuffer readOnlyBuffer = buffer.asReadOnlyBuffer(); System.out.println(readOnlyBuffer.getClass());
//读取 while (readOnlyBuffer.hasRemaining()) { System.out.println(readOnlyBuffer.get()); } readOnlyBuffer.put((byte) 100);
3 、NIO
还提供了 MappedByteBuffer
,可以让文件直接在内存(堆外的内存)中进行修改,而如何同步到文件由 NIO
来完成
4、NIO
还支持通过多个 Buffer
(即 Buffer
数组)完成读写操作
Selector(选择器)
Java
的NIO
,用非阻塞的IO
方式。可以用一个线程,处理多个的客户端连接,就会使用到Selector
(选择器)。Selector
能够检测多个注册的通道上是否有事件发生(注意:多个Channel
以事件的方式可以注册到同一个Selector
),如果有事件发生,便获取事件然后针对每个事件进行相应的处理。这样就可以只用一个单线程去管理多个通道,也就是管理多个连接和请求。【示意图】- 只有在连接/通道真正有读写事件发生时,才会进行读写,就大大地减少了系统开销,并且不必为每个连接都创建一个线程,不用去维护多个线程。
- 避免了多线程之间的上下文切换导致的开销。
Netty
的IO
线程NioEventLoop
聚合了Selector
(选择器,也叫多路复用器),可以同时并发处理成百上千个客户端连接。- 当线程从某客户端
Socket
通道进行读写数据时,若没有数据可用时,该线程可以进行其他任务。 - 线程通常将非阻塞
IO
的空闲时间用于在其他通道上执行IO
操作,所以单独的线程可以管理多个输入和输出通道。 - 由于读写操作都是非阻塞的,这就可以充分提升
IO
线程的运行效率,避免由于频繁I/O
阻塞导致的线程挂起。 - 一个
I/O
线程可以并发处理N
个客户端连接和读写操作,这从根本上解决了传统同步阻塞I/O
一连接一线程模型,架构的性能、弹性伸缩能力和可靠性都得到了极大的提升。
Selector 类相关方法
注意事项
NIO
中的ServerSocketChannel
功能类似ServerSocket
、SocketChannel
功能类似Socket
。Selector
相关方法说明selector.select();
//阻塞selector.select(1000);
//阻塞 1000 毫秒,在 1000 毫秒后返回selector.wakeup();
//唤醒 selectorselector.selectNow();
//不阻塞,立马返还
NIO 非阻塞网络编程原理分析图
NIO
非阻塞网络编程相关的(Selector
、SelectionKey
、ServerScoketChannel
和 SocketChannel
)关系梳理图
对上图的说明:
- 当客户端连接时,会通过
ServerSocketChannel
得到SocketChannel
。 Selector
进行监听select
方法,返回有事件发生的通道的个数。- 将
socketChannel
注册到Selector
上,register(Selector sel, int ops)
,一个Selector
上可以注册多个SocketChannel
。 - 注册后返回一个
SelectionKey
,会和该Selector
关联(集合)。 - 进一步得到各个
SelectionKey
(有事件发生)。 - 在通过
SelectionKey
反向获取SocketChannel
,方法channel()
。 - 可以通过得到的
channel
,完成业务处理。
SelectionKey
SelectionKey
,表示Selector
和网络通道的注册关系,共四种:int OP_ACCEPT
:有新的网络连接可以accept
,值为16
int OP_CONNECT
:代表连接已经建立,值为8
int OP_READ
:代表读操作,值为1
int OP_WRITE
:代表写操作,值为4
ServerSocketChannel
ServerSocketChannel
在服务器端监听新的客户端Socket
连接- 相关方法如下
SocketChannel
SocketChannel
,网络IO
通道,具体负责进行读写操作。NIO
把缓冲区的数据写入通道,或者把通道里的数据读到缓冲区。- 相关方法如下
NIO 与零拷贝
零拷贝基本介绍
- 零拷贝是网络编程的关键,很多性能优化都离不开。
- 在
Java
程序中,常用的零拷贝有mmap
(内存映射)和sendFile
。那么,他们在OS
里,到底是怎么样的一个的设计?我们分析mmap
和sendFile
这两个零拷贝 - 另外我们看下
NIO
中如何使用零拷贝
传统 IO 数据读写
Java
传统 IO
和网络编程的一段代码
File file = new File("test.txt");
RandomAccessFile raf = new RandomAccessFile(file, "rw");
byte[] arr = new byte[(int) file.length()];
raf.read(arr);
Socket socket = new ServerSocket(8080).accept();
socket.getOutputStream().write(arr);
Copy to clipboardErrorCopied
传统 IO 模型
DMA:direct memory access
直接内存拷贝(不使用 CPU
)
mmap 优化
mmap
通过内存映射,将文件映射到内核缓冲区,同时,用户空间可以共享内核空间的数据。这样,在进行网络传输时,就可以减少内核空间到用户空间的拷贝次数。如下图mmap
示意图
sendFile 优化
Linux2.1
版本提供了sendFile
函数,其基本原理如下:数据根本不经过用户态,直接从内核缓冲区进入到SocketBuffer
,同时,由于和用户态完全无关,就减少了一次上下文切换- 示意图和小结
- 提示:零拷贝从操作系统角度,是没有
cpu
拷贝 Linux在2.4
版本中,做了一些修改,避免了从内核缓冲区拷贝到Socketbuffer
的操作,直接拷贝到协议栈,从而再一次减少了数据拷贝。具体如下图和小结:
- 这里其实有一次
cpu
拷贝kernel buffer
->socket buffer
但是,拷贝的信息很少,比如lenght
、offset
消耗低,可以忽略
零拷贝的再次理解
- 我们说零拷贝,是从操作系统的角度来说的。因为内核缓冲区之间,没有数据是重复的(只有
kernel buffer
有一份数据)。 - 零拷贝不仅仅带来更少的数据复制,还能带来其他的性能优势,例如更少的上下文切换,更少的
CPU
缓存伪共享以及无CPU
校验和计算。
mmap 和 sendFile 的区别
mmap
适合小数据量读写,sendFile
适合大文件传输。mmap
需要4
次上下文切换,3
次数据拷贝;sendFile
需要3
次上下文切换,最少2
次数据拷贝。sendFile
可以利用DMA
方式,减少CPU
拷贝,mmap
则不能(必须从内核拷贝到Socket
缓冲区)。