高效地反向逐行读取文件

       在某些时候,我们需要从文本中读取最后几行。这时候如果采用基于流的文件读取方式,在文件大的时候效率十分低下,因为要把整个文本读取一遍才能定位到最后几行。本文提供的实现采用逐块回退读取文件数据的方式,提供快速且内存可控的反向逐行读取功能。上代码吧:
class BackwardLineReader
{
public:
    // 指定文件路径、换行符、每次读取的字节数、最大的缓存大小(用于避免由于一直没有读到换行,导致内存无限增大)
    BackwardLineReader(const std::string& filePath, const std::string& endOfLine_, int singleReadFileBytes_ = 4096, int maxBufSize_ = 4096)
        : fp(NULL)
        , endOfLine(endOfLine_)
        , fileSize(0)
        , currentReadFilePos(0)
        , singleReadFileBytes(singleReadFileBytes_)
        , maxBufSize(maxBufSize_)
        , failedFlag(false)    {
        XASSERT(endOfLine.size() > 0 && singleReadFileBytes > 0 && maxBufSize > 0);
        fileSize = FileUtil::getFileSize(filePath);  // 获取文件的大小
        if (fileSize <= 0) {
            failedFlag = true;
            return;
        }
        currentReadFilePos = fileSize;
        fp = fopen(filePath.c_str(), "rb");
        if (fp) {
            if (fseek(fp, 0, SEEK_END) != 0) { // 将文件指针指向文件的最后
                failedFlag = true;
            }
        } else {
            failedFlag = true;
        }
     
    ~BackwardLineReader() {
        if (fp) {
            fclose(fp);
        }
    }
    bool readLine(std::string& result) {
        if (failedFlag) {
            return false;
        }
        do {
            int pos = findLastEndOfLinePos();    // 在缓存中查找最后一个换行符
            if (pos >= 0) {  // 找到换行符,则返回换行符后的字符串
                extractLineFromBuffer(result, pos + endOfLine.size());
                buf.shrink(pos);     // 收缩缓存,去掉最后一个换行符及之后的数据 (十分高效,只需要修改结束位置即可)
                return true;
            }
        } while (readNextBlockFromFile()); // 如果缓存中查找不到换行符,倒序读取下一块数据

        if (buf.size() > 0 && currentReadFilePos == 0) {    // 处理文件正数第一行
            extractLineFromBuffer(result, 0);         
            buf.reset();               
            return true;
        }
        return false;
    
private:
    FILE* fp;
    std::string endOfLine;  // 换行符
    int fileSize; // 文件的大小
    int currentReadFilePos; // 当前读取文件块的开始位置(假设文件大小8,每次读取4,则:8->4->0)
    int singleReadFileBytes; // 单次读取的字节数,取值大的话可减少读取文件的次数
    int maxBufSize; // 注意:缓存的最大值不是maxBufSize,而是小于maxBufSize的两倍
    Buffer buf; // 文件数据的缓存
    bool failedFlag; // IO错误的Flag

    bool readNextBlockFromFile() {
        if (failedFlag || currentReadFilePos <= 0 || buf.size() > maxBufSize) {
            return false; // IO错误 or 没有更多的数据块可以读取 or 缓存已超过最大值
        }
        int nextBlockSize = std::min(currentReadFilePos, singleReadFileBytes); // 下个数据块的大小
        Buffer newBuf(nextBlockSize + buf.size()); // 新缓存包括文件的下个数据块和目前缓存的剩余数据
        if (buf.size() > 0) {
            ::memcpy((newBuf.get() + nextBlockSize), buf.get(), buf.size()); // 将目前缓存中的剩余数据拷贝到新缓存的尾部           
        }
        if (fseek(fp, (nextBlockSize * -1), SEEK_CUR) != 0) { // 将文件指针往前移
            failedFlag = true;
            return false;
        }
        if (fread(newBuf.get(), 1, nextBlockSize, fp) != nextBlockSize) { // 读取文件的下个数据块
            failedFlag = true;
            return false;
        }
        if (fseek(fp, (nextBlockSize * -1), SEEK_CUR) != 0) { // 再次将文件指针往前移(因为读取数据块将文件指针往后移了)
            failedFlag = true;
            return false;
        }
        currentReadFilePos -= nextBlockSize;
        buf = newBuf;
        return true;
    }
    int findLastEndOfLinePos() { // 类似字符串lastIndexOf 的功能,没啥好说的
        for (int i = buf.size() - endOfLine.size(); i >= 0; -- i) {
            bool matchFlag = true;
            for (size_t j = 0; j < endOfLine.size(); ++ j) {
                if (buf[i + j] != endOfLine[j]) {
                    matchFlag = false;
                    break;
                }
            }
            if (matchFlag) {
                return i; // 找到换行符
            }
        }
        return -1; // 未找到
    }
    void extractLineFromBuffer(std::string& result, int lineStartPos) {
        // 从缓存指定开始位置抽取一行(缓存结束就是行末)
        int lineLength = buf.size() - lineStartPos;
        buffer_t line(lineLength + 1); // 构造一个以0结尾的字符串,拷贝数据
        line[line.size() - 1] = 0; 
        ::memcpy(line.get(), (buf.get() + lineStartPos), lineLength);
        result = line.get();
    }
};
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值