文件流处理与固定宽度文件读取
1. 以流的方式处理文件
在处理文件时,将整个文件内容一次性读入内存并非总是最佳解决方案。对于小文件而言,这可能只是造成内存浪费;但对于大文件,这可能根本无法实现。例如,在只有 4GB 内存的计算机上处理一个 50GB 的文件,显然无法一次性读取整个文件。
解决方案是将文件视为流。我们可以每次只读取一小部分内容,而不是一次性从文件开头读到结尾并将所有信息存储在内存中。比如,我们可以逐行读取文件,读完一行后将其丢弃,再读取下一行,直到文件末尾;也可以逐个字符或逐个单词进行读取。关键在于,任何时候我们都不会将整个文件存储在内存中,而只是存储正在处理的那一小部分。
这种方式使我们能够处理巨大的文件(必要时可达数 GB),而无需消耗接近文件大小的内存。通过调整“逐块”读取的方式,我们还可以根据文件的结构来遍历文件。如果文件有多行,每行代表一条记录,我们可以逐行读取;如果文件是一行巨大的文本,但字段由逗号分隔,我们可以每次读取到下一个逗号,逐字段处理文本。
1.1 逐行流式处理文件
以 Web 服务器日志为例,我们只输出来自特定 IP 地址的请求。使用流式处理的解决方案非常简单,甚至比将整个文件读入内存的方法更简便。
文件对象有一个 each_line 方法,该方法接受一个代码块,并逐行遍历文件,为每行执行一次该代码块。以下是示例代码:
File.open("access_log") do |log_file|
log_file.each_line do |request|
if
超级会员免费看
订阅专栏 解锁全文
876

被折叠的 条评论
为什么被折叠?



