python中seek和tell加上readline遇到的坑

最新推荐文章于 2023-01-05 20:13:01 发布

原创最新推荐文章于 2023-01-05 20:13:01 发布 · 914 阅读

1 ·

CC 4.0 BY-SA版权

python 专栏收录该内容

6 篇文章

订阅专栏

本文探讨了在不同系统间进行文件读取时遇到的问题，特别是在使用readline和seek方法定位文件行时出现的字节偏差现象。通过分析，发现跨系统文件换行符的不同（与）导致了这一问题，并提出了解决方案：采用rb模式读取文件，避免系统间的自动换行符转换，确保文件读取的一致性和准确性。

------------------------------------制作背景---------------------------------------

在一开始打算写一个记录行号位置的在数据库的一个小方法

方便以后继续读取这个文件时，可以快速找到文件对应位置

主要用于大文件读写

主要思路大概是如下，首先第一次遍历，记录下行号为1W的字节位置，比如1W行字节位置在x，2W行的字节位置在y

那么在数据存储 1 ----x，2---y,然后下一次想读取第2W行，就可以直接seek(y)然后进行读取

【如果要读取比如两万一千行，也可以直接seek(y)，然后一行行readline过去，也可以直接readlines过去，大概就是readlines(3W的字节位置 - 2W的字节位置)，直接读取1W行进内存然后自己选择需要的行】

这个主要是思考用于超大文件读取对应行的思路，一般超大文件要么不再进行改动，要么就是末尾增加字符，对于这种字节存储对应行数，不会有太大影响

------------------------------正篇---------------------------------------

在使用readline遍历行号的时候遇到了一个问题

主要就是readline后tell出地址后，用seek转移到对应位置，然后输出的文字不符合

代码如下

filename = "as.log"
with open(filename, 'r') as logFile:
    f = open(filename, 'r')
    for i in range(10):
        logFile.readline()
        temp = logFile.tell()
        print temp
        print logFile.read(1)
        f.seek(temp)
        temp = f.tell()
        print temp
        print f.read(1)
        print
    f.close()

部分运行结果如下