Java利用RandomAccessFile读取文本文件末尾指定行数的文本

场景:

大文本文件,普通的文本编辑器无法直接打开,我们只想知道文本最后的关键几行信息。 

如果直接将文件全部读入内存显然不可取。

可利用RandomAccessFile完成,RandomAccessFile是随机读写类,是可以对文件本身的内容直接随机进行操作的,可以在文件的指定位置的读取和写入内容,这在很多时候都是很方便的。

package com.yx.filedemo;

import java.io.File;
import java.io.IOException;
import java.io.RandomAccessFile;
import java.util.ArrayList;
import java.util.List;

/**
 * FileUtil
 *
 * @author yx
 * @date 2019/12/19 22:00
 */
public class FileUtil {

    public static void main(String[] args) {
        File file = new File("D:\\FileUtil.java");
        List<String> result1 = readLastLines(file, 10);
        if (null != result1 && result1.size() > 0) {
            for (int i = result1.size() - 1; i >= 0; i--) {
                System.out.println(result1.get(i));
            }
        }
    }

    /**
     * 读出文件的最后n行
     *
     * @param file 文件
     * @param num  第几行
     * @return 读取文本文件的最后n行
     */
    public static List<String> readLastLines(File file, int num) {
        if (num == 0) {
            return null;
        }
        // 判断该文件是否存在,可读
        if (!file.exists() || file.isDirectory() || !file.canRead()) {
            return null;
        }

        List<String> result = new ArrayList<String>();
        // 行数
        int count = 0;
        RandomAccessFile rafFile = null;
        try {
            // 选择只读模式
            rafFile = new RandomAccessFile(file, "r");
            // 读取文件长度
            long length = rafFile.length();
            // 判断长度
            if (length == 0L) {
                return null;
            } else {
                // 因为是倒数,所以从最大值开始读起
                long pos = length - 1;
                // 当下一个大于0,则代表文章有内容
                while (pos > 0) {
                    // 开始读取
                    rafFile.seek(pos);
                    // 如果读取到\n代表是读取到一行
                    if (rafFile.readByte() == '\n') {
                        // 使用readLine获取当前行 ,转码,如果存在乱码可以转码
                        String line =
                                new String(rafFile.readLine().getBytes("ISO-8859-1"), "utf-8");
                        // 保存结果
                        result.add(line);
                        // 行数统计,如果到达了指定的行数,就跳出循环
                        count++;
                        if (count == num) {
                            break;
                        }
                    }
                    pos--;
                }
                //next为0,代表长度为1
                if (pos == 0) {
                    rafFile.seek(0);
                    result.add(rafFile.readLine());
                }
            }

        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            if (rafFile != null) {
                try {
                    rafFile.close();
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
        }
        return result;
    }

}

 

<think>好的,用户想了解如何使用多线程读取文件的技术实现或最佳实践,还需要示例代码。首先,我需要回忆不同编程语言中多线程处理文件的方法,比如Java、Python和Golang,因为用户之前提到了这些语言的引用。不过用户这次没有指定语言,可能需要给出多种示例,或者选择最常用的。 用户提到了Java和Golang的引用,可能对这两种语言比较感兴趣。但示例中Python的快速排序代码,用户可能也接受Python的例子。不过多线程在Python中由于GIL的存在,可能不是最佳选择,但可以用多进程或多线程处理I/O密集型任务。不过用户明确说多线程,所以需要说明情况。 首先,要确定多线程读取文件的适用场景。大文件处理,比如日志分析、数据导入等,这时候分割文件到不同线程处理可以提高效率。但需要注意文件是否支持分割,比如文本文件按行可能不太容易,而二进制文件可以按块读取。 接下来,技术要点:文件分块、线程任务分配、线程同步或通信、异常处理。比如在Java中可以使用RandomAccessFile来分块读取,每个线程负责一个块。在Golang中使用goroutine和通道来协调。Python的话,可以用threading模块,但要注意GIL的影响,可能更适合用multiprocessing。 然后,代码示例部分。需要确保代码正确,并且有注释说明。比如Java中使用线程池,分块读取;Golang使用goroutine和sync.WaitGroup;Python可能用线程池处理I/O部分。 还要注意线程安全和资源竞争的问题,比如多个线程同时读取文件是否需要加锁,或者是否每个线程读取不同的块以避免冲突。例如,使用FileChannel的transferTo方法在Java中可能更高效。 用户可能需要最佳实践,比如如何确定合适的线程数,如何避免内存溢出,如何处理文件分割时的边界问题(比如一行被截断)。比如,在分块读取时,可能需要从一个块的末尾继续读取直到下一个换行符,确保每块处理完整的行。 另外,引用之前的资料,用户提供的引用1和2中提到了Java和Golang的多线程文件处理,可能需要参考这些内容,但用户说这些引用只是示例,需要根据实际需求回答。所以需要结合这些引用中的方法,比如Java的线程池和文件分割,Golang的通道和协程。 最后,生成相关问题,可能涉及性能优化、异常处理、不同语言的实现比较等。</think>### 多线程读取文件技术实现与示例 多线程读取文件的核心目标是**提高I/O密集型任务的吞吐量**,需重点关注文件分块策略、线程协调机制和资源管理。以下是具体实现方法及代码示例: --- #### 一、技术要点 1. **文件分块策略** - 按固定大小分块(适合二进制文件) - 按行分块(需处理边界问题,适合文本文件)[^2] 2. **线程协调** - 使用线程池控制并发量 - 通过队列/通道传递数据块 3. **资源安全** - 避免多线程同时操作同一文件指针 - 确保异常处理和资源释放 --- #### 二、Java实现示例(分块读取) ```java import java.io.RandomAccessFile; import java.util.concurrent.ExecutorService; import java.util.concurrent.Executors; public class MultiThreadFileReader { public static void main(String[] args) throws Exception { String filePath = "large_file.txt"; int threadCount = 4; long fileSize = new RandomAccessFile(filePath, "r").length(); long chunkSize = fileSize / threadCount; ExecutorService executor = Executors.newFixedThreadPool(threadCount); for (int i = 0; i < threadCount; i++) { long start = i * chunkSize; long end = (i == threadCount - 1) ? fileSize : start + chunkSize; executor.submit(new FileReadTask(filePath, start, end)); } executor.shutdown(); } static class FileReadTask implements Runnable { private final String filePath; private final long start; private final long end; public FileReadTask(String filePath, long start, long end) { this.filePath = filePath; this.start = start; this.end = end; } @Override public void run() { try (RandomAccessFile raf = new RandomAccessFile(filePath, "r")) { raf.seek(start); byte[] buffer = new byte[1024]; while (raf.getFilePointer() < end) { int bytesRead = raf.read(buffer); // 处理读取的数据 } } catch (Exception e) { e.printStackTrace(); } } } } ``` **关键点**: - 使用`RandomAccessFile`实现文件指针精确定位 - 每个线程处理独立文件块避免竞争[^1] --- #### 三、Python实现示例(按行处理) ```python import threading from queue import Queue def process_chunk(queue): while True: chunk = queue.get() if chunk is None: break # 处理数据块(例如统计行数) print(f"Processed {len(chunk)} lines") queue.task_done() def read_file(file_path, num_threads=4): queue = Queue() threads = [] # 启动工作线程 for _ in range(num_threads): t = threading.Thread(target=process_chunk, args=(queue,)) t.start() threads.append(t) # 主线程读取文件 with open(file_path, 'r') as f: chunk = [] for line in f: chunk.append(line) if len(chunk) >= 1000: # 每1000行为一个块 queue.put(chunk) chunk = [] if chunk: queue.put(chunk) # 发送结束信号 for _ in range(num_threads): queue.put(None) for t in threads: t.join() ``` **优化点**: - 使用生产者-消费者模式降低I/O等待时间 - 批量传递数据减少线程切换开销 --- #### 四、Golang实现示例(通道协调) ```go package main import ( "bufio" "fmt" "os" "sync" ) func main() { file, _ := os.Open("large_file.txt") defer file.Close() scanner := bufio.NewScanner(file) lines := make(chan string, 1000) // 缓冲通道 var wg sync.WaitGroup // 启动4个处理协程 for i := 0; i < 4; i++ { wg.Add(1) go func() { defer wg.Done() for line := range lines { // 处理每行数据 _ = len(line) } }() } // 主协程读取文件 for scanner.Scan() { lines <- scanner.Text() } close(lines) wg.Wait() } ``` **优势**: - 通过通道实现协程间解耦[^2] - 自动处理协程生命周期 --- ###
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

IT_熊

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值