在学习Java NIO和IO的API时,经常会出现以下疑问?
什么时候我应该用IO,什么时候我应该用NIO?
在这篇文章中我将发表我关于NIO与IO的区别的观点,它们的使用案例,以及它们如何影响你代码的设计。
Java NIO与IO的主要区别
IO | NIO |
---|---|
面向流 | 面向缓冲 |
阻塞IO | 非阻塞IO |
无Selector | Selectors |
面向流与面向缓冲
Java NIO与IO最大的不同之处在IO是面向流的,而NIO是面向缓冲的。但是,这意味着什么呢?
Java IO面向流意味着你一次会从流中读取一个或多个字节。对于读取到的字节怎么处理由你自己决定。这些字节是不会被缓存的。更一步,流中的数据并不能前面移动。如果需要前后移动数据,需要先将数据进行缓存。
而Java NIO面向缓存的方式稍有不同。需要后续处理的数据是先放到缓存中的。可以在缓存中前后移动。这使得数据处理变得更加灵活。然而,你需要检查缓存里是否包含了需要处理的完整数据。并且,也需要保证没有处理过的数据在写入新数据时不会被覆盖。
阻塞与非阻塞
Java IO的各种流是阻塞的。这意味着,当一个线程调用read() 或 write()时,该线程被阻塞,直到有一些数据被读取,或数据完全写入。该线程在此期间不能再干任何事情了。 Java NIO的非阻塞模式,使一个线程从某通道发送请求读取数据,但是它仅能得到目前可用的数据,如果目前没有数据可用时,就什么都不会获取。而不是保持线程阻塞,所以直至数据变的可以读取之前,该线程可以继续做其他的事情。 非阻塞写也是如此。一个线程请求写入一些数据到某通道,但不需要等待它完全写入,这个线程同时可以去做别的事情。 线程通常将非阻塞IO的空闲时间用于在其它通道上执行IO操作,所以一个单独的线程现在可以管理多个输入和输出通道(channel)。
Selector
Java NIO Selector允许一个线程来控制多个输入通道。可以用一个Selector注册多个Channle。然后,用一个线程来选择已经准备好数据处理的Channel或都那些准备好写的Channel。选择器的机制使得用一个线程来控制多个Channel变得非常容易。
NIO和IO如何影响应用程序的设计
无论你选择NIO或IO工具箱,可能会影响你应用程序的以下几个方面:
- 对NIO或IO类的API调用。
- 数据处理。
- 用来处理数据的线程数。
API调用
当然,在使用IO时,NIO与IO的API调用有点不同。这一点也不奇怪。并不是直接从InputStream中直接读取数据,NIO必须先将数据读入到缓存中,再进行后续处理。
数据处理
使用纯粹的NIO设计相较IO设计,数据处理也受到影响。
在IO设计时,数据是从InputStream或Reader中读取的。假设你正在处理基于文本的数据,像这样:
Name: Anna
Age: 25
Email: anna@mailserver.com
Phone: 1234567890
复制代码
文本行的流可以像这样处理:
InputStream input = ... ; // get the InputStream from the client socket
BufferedReader reader = new BufferedReader(new InputStreamReader(input));
String nameLine = reader.readLine();
String ageLine = reader.readLine();
String emailLine = reader.readLine();
String phoneLine = reader.readLine();
复制代码
请注意处理状态由程序执行多久决定。换句话说,一旦reader.readLine()方法返回,你就知道肯定文本行就已读完, readline()阻塞直到整行读完,这就是原因。你也知道此行包含名称;同样,第二个readline()调用返回的时候,你知道这行包含年龄等。 正如你可以看到,该处理程序仅在有新数据读入时运行,并知道每步的数据是什么。一旦正在运行的线程已处理过读入的某些数据,该线程不会再回退数据(大多如此)。下图也说明了这条原则:
在NIO实现中这将会变得有点不一样,下面是一个简单的例子。
ByteBuffer buffer = ByteBuffer.allocate(48);
int byteRead = inChannel.read(buf);
复制代码
注意到将Channel中的数据读入到Buffer中的第二行。当那个方法返回时,其实并不知道所需要的数据是否都已经写入到Buffer中了。仅仅知道的是一些数据已经写入到Buffer中了。这使得数据处理变得有点麻烦。
想像一下,当调用完第一个read(buufer)方法时,仅有半行的数据被读入到Buffer中。例如,“Name:An”。你量否可以处理这个数据?并不能。在有效处理数据之前必须等到至少有一行数据被读入到Buffer中才行。
所以,如何能够知道uffer中包含了能够有效处理的足够的数据呢?其实并不能。唯一的方法是检查Buffer中的数据。这个结果是,你必须多次检查Buffer中的数据来判断数据是否完整。不仅效率低下,而且可以使程序设计方案杂乱不堪。例如:
ByteBuffer buffer = ByteBuffer.allocate(48);
int bytesRead = inChannel.read(buffer);
while(! bufferFull(bytesRead) ) {
bytesRead = inChannel.read(buffer);
}
复制代码
bufferFull()方法需要跟踪读入buffer中的字节数并根据buffer是否满了来返回true或false。换句话说,如果buffer已经准备好处理了,它将认为是full的。
bufferFull()方法扫描缓冲区,但必须保持在bufferFull()方法被调用之前状态相同。如果没有,下一个读入缓冲区的数据可能无法读到正确的位置。这是不可能的,但却是需要注意的又一问题。
如果缓冲区已满,它可以被处理。如果它不满,并且在你的实际案例中有意义,你或许能处理其中的部分数据。但是许多情况下并非如此。下图展示了“缓冲区数据循环就绪”:
总结
NIO可以让你仅使用一个或少量的线程来管理多个通道(网络或文件)。但是分析数据会比阻塞的IO流更加复杂。
如果你需要同时管理成千上万个连接,并且这个连接只发送少量的数据。比如,一个用NIO方式实现的聊天服务器将变得非常有优势。类似的,如果需要跟其他计算机保持大量的连接,如P2P网络。使用一个线程来管道外部连接可以也是一个优势。单个线条,多个连接的方式如下图所示:
如果只有少量连接,但每个连接都有占用大量的带宽,每次需要发送大量的数据,也许采用阻塞的IO将会更加适合。下图展示一个IO服务器的设计: