在某些时候,我们需要从文本中读取最后几行。这时候如果采用基于流的文件读取方式,在文件大的时候效率十分低下,因为要把整个文本读取一遍才能定位到最后几行。本文提供的实现采用逐块回退读取文件数据的方式,提供快速且内存可控的反向逐行读取功能。上代码吧:
class BackwardLineReader
{
public:
//
指定文件路径、换行符、每次读取的字节数、最大的缓存大小(用于避免由于一直没有读到换行,导致内存无限增大)
BackwardLineReader(const std::string& filePath, const
std::string& endOfLine_, int singleReadFileBytes_ = 4096, int
maxBufSize_ = 4096)
:
fp(NULL)
,
endOfLine(endOfLine_)
,
fileSize(0)
,
currentReadFilePos(0)
,
singleReadFileBytes(singleReadFileBytes_)
,
maxBufSize(maxBufSize_)
,
failedFlag(false)
{
XASSERT(endOfLine.size() > 0 && singleReadFileBytes >
0 && maxBufSize > 0);
fileSize =
FileUtil::getFileSize(filePath); // 获取文件的大小
if (fileSize
<= 0) {
failedFlag =
true;
return;
}
currentReadFilePos = fileSize;
fp =
fopen(filePath.c_str(), "rb");
if (fp)
{
if
(fseek(fp, 0, SEEK_END) != 0) { // 将文件指针指向文件的最后
failedFlag =
true;
}
} else
{
failedFlag =
true;
}
}
~BackwardLineReader() {
if (fp)
{
fclose(fp);
}
}
bool
readLine(std::string& result) {
if
(failedFlag) {
return
false;
}
do {
int pos =
findLastEndOfLinePos();
// 在缓存中查找最后一个换行符
if (pos
>= 0) { // 找到换行符,则返回换行符后的字符串
extractLineFromBuffer(result, pos + endOfLine.size());
buf.shrink(pos);
// 收缩缓存,去掉最后一个换行符及之后的数据 (十分高效,只需要修改结束位置即可)
return
true;
}
} while
(readNextBlockFromFile()); // 如果缓存中查找不到换行符,倒序读取下一块数据
if
(buf.size() > 0 && currentReadFilePos == 0)
{ //
处理文件正数第一行
extractLineFromBuffer(result,
0);
buf.reset();
return
true;
}
return
false;
}
private:
FILE*
fp;
std::string
endOfLine; // 换行符
int
fileSize; // 文件的大小
int
currentReadFilePos; //
当前读取文件块的开始位置(假设文件大小8,每次读取4,则:8->4->0)
int
singleReadFileBytes; // 单次读取的字节数,取值大的话可减少读取文件的次数
int
maxBufSize; // 注意:缓存的最大值不是maxBufSize,而是小于maxBufSize的两倍
Buffer buf;
// 文件数据的缓存
bool
failedFlag; // IO错误的Flag
bool
readNextBlockFromFile() {
if
(failedFlag || currentReadFilePos <= 0 || buf.size() >
maxBufSize) {
return
false; // IO错误 or 没有更多的数据块可以读取 or 缓存已超过最大值
}
int
nextBlockSize = std::min(currentReadFilePos, singleReadFileBytes);
// 下个数据块的大小
Buffer
newBuf(nextBlockSize + buf.size()); //
新缓存包括文件的下个数据块和目前缓存的剩余数据
if
(buf.size() > 0) {
::memcpy((newBuf.get() + nextBlockSize), buf.get(), buf.size()); //
将目前缓存中的剩余数据拷贝到新缓存的尾部
}
if
(fseek(fp, (nextBlockSize * -1), SEEK_CUR) != 0) { //
将文件指针往前移
failedFlag =
true;
return
false;
}
if
(fread(newBuf.get(), 1, nextBlockSize, fp) != nextBlockSize) { //
读取文件的下个数据块
failedFlag =
true;
return
false;
}
if
(fseek(fp, (nextBlockSize * -1), SEEK_CUR) != 0) { //
再次将文件指针往前移(因为读取数据块将文件指针往后移了)
failedFlag =
true;
return
false;
}
currentReadFilePos -= nextBlockSize;
buf =
newBuf;
return
true;
}
int
findLastEndOfLinePos() { // 类似字符串lastIndexOf 的功能,没啥好说的
for (int i =
buf.size() - endOfLine.size(); i >= 0; -- i) {
bool
matchFlag = true;
for (size_t
j = 0; j < endOfLine.size(); ++ j) {
if (buf[i +
j] != endOfLine[j]) {
matchFlag =
false;
break;
}
}
if
(matchFlag) {
return i; //
找到换行符
}
}
return -1;
// 未找到
}
void
extractLineFromBuffer(std::string& result, int lineStartPos)
{
// 从缓存指定开始位置抽取一行(缓存结束就是行末)
int
lineLength = buf.size() - lineStartPos;
buffer_t
line(lineLength + 1); // 构造一个以0结尾的字符串,拷贝数据
line[line.size() - 1] = 0;
::memcpy(line.get(), (buf.get() + lineStartPos), lineLength);
result =
line.get();
}
};