------------------------------------制作背景---------------------------------------
在一开始打算写一个记录行号位置的在数据库的一个小方法
方便以后继续读取这个文件时,可以快速找到文件对应位置
主要用于大文件读写
主要思路大概是如下,首先第一次遍历,记录下行号为1W的字节位置,比如1W行字节位置在x,2W行的字节位置在y
那么在数据存储 1 ----x,2---y,然后下一次想读取第2W行,就可以直接seek(y)然后进行读取
【如果要读取比如两万一千行,也可以直接seek(y),然后一行行readline过去,也可以直接readlines过去,大概就是readlines(3W的字节位置 - 2W的字节位置),直接读取1W行进内存然后自己选择需要的行】
这个主要是思考用于超大文件读取对应行的思路,一般超大文件要么不再进行改动,要么就是末尾增加字符,对于这种字节存储对应行数,不会有太大影响
------------------------------正篇---------------------------------------
在使用readline遍历行号的时候遇到了一个问题
主要就是readline后tell出地址后,用seek转移到对应位置,然后输出的文字不符合
代码如下
filename = "as.log"
with open(filename, 'r') as logFile:
f = open(filename, 'r')
for i in range(10):
logFile.readline()
temp = logFile.tell()
print temp
print logFile.read(1)
f.seek(temp)
temp = f.tell()
print temp
print f.read(1)
print
f.close()
部分运行结果如下
两者tell的地址相同,但是read的东西不同
我就?????
后来发现每过一行,输出的东西位置都会偏差1字节
当时感觉是换行符没有读取到?
后来多次思考
最后阅读这个博客得出一个结论
https://blog.youkuaiyun.com/peng__dada/article/details/79138171
因为我测试读取的文件的书写系统,和我测试代码的系统是不一样的
因此换行符不同
/r/n与/n之间有差距,在r的模式下,会产生自动的替换,因为这个替换把/r/n替换成/n(或者相反,懒得验证了),因此会每读取一行有1字节的偏差
有这个猜想后,根据上面地址的博客
把模式改成不会自动替换的rb模式
结果如下
果然结果正常了
得出结论,如果是跨系统进行文件读取等,需要留意,采用rb模式,不然不同系统的区别会有一些坑