Python学习笔记——文件操作

原创已于 2023-01-20 09:11:15 修改 · 1.8k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#学习 #python #文件操作

于 2023-01-19 15:03:20 首次发布

Python 专栏收录该内容

12 篇文章

订阅专栏

本文详细介绍了Python中的输入输出方式，包括表达式语句、print()函数和文件对象的write()方法。同时，讨论了如何使用str.format()进行格式化输出，以及repr()和str()函数转换值为字符串。此外，文章还涵盖了input()函数用于键盘输入，以及文件的打开、读写模式，如r,w,a等。最后，文章提到了pickle模块在对象序列化和反序列化中的应用。

输入和输出

Python两种输出值的方式: 表达式语句和 print() 函数。第三种方式是使用文件对象的 write() 方法，标准输出文件可以用 sys.stdout 引用。

如果你希望输出的形式更加多样，可以使用 str.format() 函数来格式化输出值。

如果你希望将输出的值转成字符串，可以使用 repr() 或 str() 函数来实现。

str()：函数返回一个用户易读的表达形式。

repr()：产生一个解释器易读的表达形式。

读取键盘输入

Python 提供了 input() 内置函数从标准输入读入一行文本，默认的标准输入是键盘。

str = input("请输入：");
print ("你输入的内容是: ", str)

读和写文件

open() 将会返回一个 file 对象，基本语法格式如：open(filename, mode)

filename：包含了你要访问的文件名称的字符串值。

mode：决定了打开文件的模式：只读，写入，追加等。所有可取值见如下的完全列表。这个参数是非强制的，默认文件访问模式为只读(r)。

不同模式打开文件的完全列表：

模式	描述
r	以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。
rb	以二进制格式打开一个文件用于只读。文件指针将会放在文件的开头。
r+	打开一个文件用于读写。文件指针将会放在文件的开头。
rb+	以二进制格式打开一个文件用于读写。文件指针将会放在文件的开头。
w	打开一个文件只用于写入。如果该文件已存在则打开文件，并从开头开始编辑，即原有内容会被删除。如果该文件不存在，创建新文件。
wb	以二进制格式打开一个文件只用于写入。如果该文件已存在则打开文件，并从开头开始编辑，即原有内容会被删除。如果该文件不存在，创建新文件。
w+	打开一个文件用于读写。如果该文件已存在则打开文件，并从开头开始编辑，即原有内容会被删除。如果该文件不存在，创建新文件。
wb+	以二进制格式打开一个文件用于读写。如果该文件已存在则打开文件，并从开头开始编辑，即原有内容会被删除。如果该文件不存在，创建新文件。
a	打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。也就是说，新的内容将会被写入到已有内容之后。如果该文件不存在，创建新文件进行写入。
ab	以二进制格式打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。也就是说，新的内容将会被写入到已有内容之后。如果该文件不存在，创建新文件进行写入。
a+	打开一个文件用于读写。如果该文件已存在，文件指针将会放在文件的结尾。文件打开时会是追加模式。如果该文件不存在，创建新文件用于读写。
ab+	以二进制格式打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。如果该文件不存在，创建新文件用于读写。

# 打开一个文件
f = open("/tmp/foo.txt", "w")

f.write( "Python 是一个非常好的语言。\n是的，的确非常好!!\n" )

# 关闭打开的文件
f.close()

文件对象的方法

f.read()：为了读取一个文件的内容，调用 f.read(size), 这将读取一定数目的数据, 然后作为字符串或字节对象返回。

size 是一个可选的数字类型的参数。当 size 被忽略了或者为负, 那么该文件的所有内容都将被读取并且返回。

f.readline() 会从文件中读取单独的一行。换行符为 '\n'。f.readline() 如果返回一个空字符串, 说明已经已经读取到最后一行。

f.readlines()：将返回该文件中包含的所有行。

如果设置可选参数 sizehint, 则读取指定长度的字节, 并且将这些字节按行分割。

f.write()：f.write(string) 将 string 写入到文件中, 然后返回写入的字符数。

f.tell()：返回文件对象当前所处的位置, 它是从文件开头开始算起的字节数。

f.seek()：如果要改变文件指针当前的位置, 可以使用 f.seek(offset, from_what) 函数。

from_what 的值, 如果是 0 表示开头, 如果是 1 表示当前位置, 2 表示文件的结尾，例如：

seek(x,0) ：从起始位置即文件首行首字符开始移动 x 个字符

seek(x,1) ：表示从当前位置往后移动x个字符

seek(-x,2)：表示从文件的结尾往前移动x个字符

f.close()：在文本文件中 (那些打开文件的模式下没有 b 的), 只会相对于文件起始位置进行定位。

当你处理完一个文件后, 调用 f.close() 来关闭文件并释放系统的资源，如果尝试再调用该文件，则会抛出异常。

pickle 模块

python的pickle模块实现了基本的数据序列和反序列化。
通过pickle模块的序列化操作我们能够将程序中运行的对象信息保存到文件中去，永久存储。
通过pickle模块的反序列化操作，我们能够从文件中创建上一次程序保存的对象。

文件操作

文件的基本操作

文件的操作有很多种, 例如：创建、删除、修改权限、写入、读取等。

删除、修改权限：作用于文件本身, 属于系统级操作。

写入、读取：文件最常用的操作, 作用于文件的内容, 属于应用级操作。

文的系统级操作功能单一, 容易实现。编码时, 可以导入Python中的专用模块Cos、sys等）, 并调用模块中的指定函数来实行。

读写文件的一般步骤

一个文件, 必须在打开之后才可以对其进行操作, 井在操作结束之后将其关闭。

(1）打开文件：用open函数, 返回的是一个文件对象。

(2）具体读写：使用该文件对象的read、write等方法。

(3）关闭文件：用该文件对象的close方法。

打开文件：open()

函数open的返回值是一个文件对象。该对象中封装了文件的各种操作。

open（文件名, mode)

函数中有两个参数：

文件名：属于字符串类型。使用时要注意转义问题, 尽可能使用源字符串（以r开头的字符串）。

Mode：是指打开文件的方式, 包括只读、只写、读写、二进制等。如果不指定mode参数, 文件将默认以“只读模式打开”。

1、open中的模式介绍

在open函数中, 参数mode起主要作用。它决定了文件的打开模式。具体如下：

r：只读。文件必须存在。

w：只写。如果文件己存在, 则将其覆盖。如果该文件不存在, 则创建新文件。

＋：读写（不能单独使用〉。

a：以只写的方式打开文件, 用于在文件后追加内容。如果文件不存在, 则创建新文件。

b：以二进制模式打开（不能单独使用〉。

mode值可以组合使用, 即同时使用多种模式来操作文件。调用open函数时, 传入mode的常用值有r、w、r+、w＋、rb、wb,rb＋、wb＋、a、a＋、ab、ab＋。

注意：r十、w＋、a＋都是可读写的意思。三者的区别是：

r+：读写。文件必须存在。当写入时, 会清空原内容。

w＋：读写。如果该文件不存在, 则创建新文件。如果文件已存在, 则清空原有内容。

a＋：读写。如果文件不存在, 则创建新文件。如果文件已存在, 则在文件后面追加内容。

2、文件读取模式

通常情况下, 文件都是以文本模式（textmode）打开的。即, 从文件中读写的是以一种特定的编码格式（默认的是UTF-8）进行编码的字符串。如果文件以二进制模式（binarymode)打开, 则数据将以宇节对象的形式进行读写。

在Windows系统中，文本模式下行末标识符为\r\n，读取时会转换成\n，写入时，会转换成\r\n，以二进制模式打开会有问题

在Unix/Linux中，行末标识符为\n，文本模式与二进制模式无区别。

3、函数open返回的对象

函数open的返回值是由打开模式决定的, 具体如下：

文本模式：返回TextlOWrapper对象。

读取二进制模式：即“r+b模式, 返回BufferedReader对象。

写入和追加二进制模式：即“w+b“a+b模式, 返回BufferedWriter对象。

读／写模式：即含有符号“＋的打开模式, 返回BufferedRandom对象。

读写文件

通过调用文件对象的read方法可获得文件的内容；调用对象的write方法可以将字符串写入文件。

注意：如果文件是以二进制形式打开的, 则只能以二进制形式写入, 否则会报错。例如：

f=open('a.txt','wb+')                #以二进制形式打开一个文件
f.write('字符串')                     #以文本形式向该文件写入数据, 会报错

关闭文件

直接使用文件对象的close方法可关闭文件。文件在打开并操作完事之后, 需要及时关闭, 否则会给程序带来好多无法预知的错误。

文件对象的方法

file.close()：关闭文件。关闭后文件不能再进行读写操作。

file.flush()：刷新文件内部缓冲，直接把内部缓冲区的数据立刻写入文件, 而不是被动的等待输出缓冲区写入。

file.fileno()：返回一个整型的文件描述符(file descriptor FD 整型), 可以用在如os模块的read方法等一些底层操作上。

file.isatty()：如果文件连接到一个终端设备返回 True，否则返回 False。

file.next()：返回文件下一行。Python3 中的 File 对象不支持 next() 方法。

file.read([size])：从文件读取指定的字节数，如果未给定或为负则读取所有。

file.readline([size])：读取整行，包括 "\n" 字符。

file.readlines([sizeint])：读取所有行并返回列表，若给定sizeint>0，返回总和大约为sizeint字节的行, 实际读取值可能比 sizeint 较大, 因为需要填充缓冲区。

file.seek(offset[, whence])：移动文件读取指针到指定位置

file.tell()：返回文件当前位置。

file.truncate([size])：从文件的首行首字符开始截断，截断文件为 size 个字符，无 size 表示从当前位置截断；截断之后后面的所有字符被删除，其中 windows 系统下的换行代表2个字符大小。

file.write(str)：将字符串写入文件，返回的是写入的字符长度。

file.writelines(sequence)：向文件写入一个序列字符串列表，如果需要换行则要自己加入每行的换行符。

with语句

with语句可以让文件对象使用后正常关闭。

语法格式：with 表达式 as 变量其中, 表达式就是open函数, as后面的变量就是open返回的文件类型。

在Python中, 支持with语法的对象必须有一个enter方法和一个exit一方法。

在with语法执行过程中, 紧跟with后面的语句被求值后, 返回对象的enter方法被调用, 这个方法的返回值将被赋值给as后面的变量。当with后面的代码块全部被执行完后, 将调用前面返回对象的exit方法。

with open('a.tx t', 'wb+') as f:            #以二进制模式打开文件
    try:
        f.write ('I  like  Python ! ')       #以文本格式写入二进制文件会报错
    except Exception  as  e:                 #捕获错误
        print(e)    
        f.write(b' I like  Python !')        #以bytes对象的形式读写

with open('a.t xt ','r+') as f:             #打开文件
    for line in f:                          #打印文件内容
        print(line)

注意：with语句也是有作用域的, 作用域的代码同样通过缩进的方式来表示当WI仕1作用域内的语句执行完毕后, 就会自动调用f的close方法将文件关闭。

字符串与二进制数相互转换

二进制数比字符串占用更少的空间

1、字符串转二进制数bytes函数

bytes（字符串，编码格式）

使用bytes函数时，必须提供一种编码格式

b1=b'I like Python'                    #在字符串前加b, 将其转为二进制
b2=bytes('I like Python', 'UTF-8')     #使用bytes将其转为二进制
print(b1, b2, sep＝';'）              #将结采打印出来, 输出：b’I like Python’;b’I like Python’

2、二进制数转换字符串

调用二进制对象的decode方法并传入指定的解码格式，可将二进制数转化为字符串

b = bytes('I like Python ', 'UTF-8')
print(b ,  b.decode() , sep＝';')                #decode没有转入解码格式，默认UTF-8
print(b ,  b.decode('UTF-8') , sep＝';')

在linux平台下, 生成的文件默认是UTF-8格式, 所以需指定解码格式为UTF-8。

在Windows平台下, 生成的文件默认是GB2312、GBK等格式, 所以需将其指定为对应的解码格式才可以正地显示字符串。

对象序列化

Python中有个序列化过程叫作pickle。它能够实现任意对象与文本之间的相互转化, 也可以将任意对象与二进制之间的相互转化。即, 可以透明地实现Python对象的存储及恢复。

用Python的pickle操作, 可以将对象序列化成字符串、磁盘上的文件等类似于文件的任何对象；也可以将这些字符串、文件或任何类似于文件的对象unpickle原来的对象。

dumps：

将Python中的对象序列化成二进制对象, 并返回。

dumps(obj , protocol=None, *, fix_imports=True)

参数说明如下：

obj：要转换的Python对象。protocol:pickle的码协议, 取值为0、1、2、3、4。0为ASCII码表示；2为旧版本的二进制协议；3为新的二进制协议；4为更新的二制协议。未指定情况下, 默认为。

其他参数：是为了兼容以前Python2版本而保留的参, 可以不管。。

loads：

从给定的pickle数据中读取并返回对象，即将二进制对象转换为Python对象

load s (data, *, fix_ imports=True, encoding ='ASCII', errors ='strict')

参数说明如下：

data：要转换的二进制对象。

其他参数：是为了兼容以前Python2版本而保留的参数, 可以不管。

在将二进制对象反序列化成Python对象时, 会自动识别转码协议, 所以不需要将转码协议当作参数传入。当待转换的二进制对象的字节数超过pickle的Python对象时, 多余的字节将被忽略。

dump：

将Python中的对象序列化成二进制对象, 井写入文件。

dump ( obj, file, protocol =None, *, fix_imports=True)

参数说明如下：

obj：要转换的Python对象。

file：文件必须有write方法, 并且支持写入二进制数据。

protocol：pickle的转码协议, 取值为0、1、2、3、4。其中, 0为ASCII码表示：2为旧版本的二进制协议：3为新的二进制协议：4为更新的二进制协议。未指定情况下, 默认为3。

其他参数：是为了兼容以前Python2版本而保留的参数, 可以不管。

load：

读取指定的序列化数据文件, 并返回对象。

load(file, *, fix_imports=True, encoding ='ASCII', errors ='strict')

参数说如下：

File：对象必须有两个方法——read(）和readline。

其他参数：是为了兼容以前Python2版本而保留的参数, 可以不管。

OS 文件/目录方法

os.access(path, mode)：检验权限模式

os.chdir(path)：改变当前工作目录

os.chflags(path, flags)：设置路径的标记为数字标记。

os.chmod(path, mode)：更改权限

os.chown(path, uid, gid)：更改文件所有者

os.chroot(path)：改变当前进程的根目录

os.close(fd)：关闭文件描述符 fd

os.closerange(fd_low, fd_high)：关闭所有文件描述符，从 fd_low (包含) 到 fd_high (不包含), 错误会忽略

os.dup(fd)：复制文件描述符 fd

os.dup2(fd, fd2)：将一个文件描述符 fd 复制到另一个 fd2

os.fchdir(fd)：通过文件描述符改变当前工作目录

os.fchmod(fd, mode)：改变一个文件的访问权限，该文件由参数fd指定，参数mode是Unix下的文件访问权限。

os.fchown(fd, uid, gid)：修改一个文件的所有权，这个函数修改一个文件的用户ID和用户组ID，该文件由文件描述符fd指定。

os.fdatasync(fd)：强制将文件写入磁盘，该文件由文件描述符fd指定，但是不强制更新文件的状态信息。

os.fdopen(fd[, mode[, bufsize]])：通过文件描述符 fd 创建一个文件对象，并返回这个文件对象

os.fpathconf(fd, name)：返回一个打开的文件的系统配置信息。name为检索的系统配置的值，它也许是一个定义系统值的字符串，这些名字在很多标准中指定（POSIX.1, Unix 95, Unix 98, 和其它）。

os.fstat(fd)：返回文件描述符fd的状态，像stat()。

os.fstatvfs(fd)：返回包含文件描述符fd的文件的文件系统的信息，Python 3.3 相等于 statvfs()。

os.fsync(fd)：强制将文件描述符为fd的文件写入硬盘。

os.ftruncate(fd, length)：裁剪文件描述符fd对应的文件, 所以它最大不能超过文件大小。

os.getcwd()：返回当前工作目录

os.getcwdb()：返回一个当前工作目录的Unicode对象

os.isatty(fd)：如果文件描述符fd是打开的，同时与tty(-like)设备相连，则返回true, 否则False。

os.lchflags(path, flags)：设置路径的标记为数字标记，类似 chflags()，但是没有软链接

os.lchmod(path, mode)：修改连接文件权限

os.lchown(path, uid, gid)：更改文件所有者，类似 chown，但是不追踪链接。

os.link(src, dst)：创建硬链接，名为参数 dst，指向参数 src

os.listdir(path)：返回path指定的文件夹包含的文件或文件夹的名字的列表。

os.lseek(fd, pos, how)：设置文件描述符 fd当前位置为pos, how方式修改: SEEK_SET 或者 0 设置从文件开始的计算的pos; SEEK_CUR或者 1 则从当前位置计算; os.SEEK_END或者2则从文件尾部开始. 在unix，Windows中有效

os.lstat(path)：像stat(),但是没有软链接

os.major(device)：从原始的设备号中提取设备major号码 (使用stat中的st_dev或者st_rdev field)。

os.makedev(major, minor)：以major和minor设备号组成一个原始设备号

os.makedirs(path[, mode])：递归文件夹创建函数。像mkdir(), 但创建的所有intermediate-level文件夹需要包含子文件夹。

os.minor(device)：从原始的设备号中提取设备minor号码 (使用stat中的st_dev或者st_rdev field )。

os.mkdir(path[, mode])：以数字mode的mode创建一个名为path的文件夹.默认的 mode 是 0777 (八进制)。

os.mkfifo(path[, mode])：创建命名管道，mode 为数字，默认为 0666 (八进制)

os.mknod(filename[, mode=0600, device])：创建一个名为filename文件系统节点（文件，设备特别文件或者命名pipe）。

os.open(file, flags[, mode])：打开一个文件，并且设置需要的打开选项，mode参数是可选的

os.openpty()：打开一个新的伪终端对。返回 pty 和 tty的文件描述符。

os.pathconf(path, name)：返回相关文件的系统配置信息。

os.pipe()：创建一个管道. 返回一对文件描述符(r, w) 分别为读和写

os.popen(command[, mode[, bufsize]])：从一个 command 打开一个管道

os.read(fd, n)：从文件描述符 fd 中读取最多 n 个字节，返回包含读取字节的字符串，文件描述符 fd对应文件已达到结尾, 返回一个空字符串。

os.readlink(path)：返回软链接所指向的文件

os.remove(path)：删除路径为path的文件。如果path 是一个文件夹，将抛出OSError; 查看下面的rmdir()删除一个 directory。

os.removedirs(path)：递归删除目录。

os.rename(src, dst)：重命名文件或目录，从 src 到 dst

os.renames(old, new)：递归地对目录进行更名，也可以对文件进行更名。

os.rmdir(path)：删除path指定的空目录，如果目录非空，则抛出一个OSError异常。

os.stat(path)：获取path指定的路径的信息，功能等同于C API中的stat()系统调用。

os.stat_float_times([newvalue]):决定stat_result是否以float对象显示时间戳

os.statvfs(path)：获取指定路径的文件系统统计信息

os.symlink(src, dst)：创建一个软链接

os.tcgetpgrp(fd)：返回与终端fd（一个由os.open()返回的打开的文件描述符）关联的进程组

os.tcsetpgrp(fd, pg)：设置与终端fd（一个由os.open()返回的打开的文件描述符）关联的进程组为pg。

os.tempnam([dir[, prefix]])：Python3 中已删除。返回唯一的路径名用于创建临时文件。

os.tmpfile()：Python3 中已删除。返回一个打开的模式为(w+b)的文件对象 .这文件对象没有文件夹入口，没有文件描述符，将会自动删除。

os.tmpnam()：Python3 中已删除。为创建一个临时文件返回一个唯一的路径

os.ttyname(fd)：返回一个字符串，它表示与文件描述符fd 关联的终端设备。如果fd 没有与终端设备关联，则引发一个异常。

os.unlink(path)：删除文件路径

os.utime(path, times)：返回指定的path文件的访问和修改的时间。

os.walk(top[, topdown=True[, οnerrοr=None[, followlinks=False]]])：输出在文件夹中的文件名通过在树中游走，向上或者向下。

os.write(fd, str)：写入字符串到文件描述符 fd中. 返回实际写入的字符串长度

os.path 模块：获取文件的属性信息。

os.pardir()：获取当前目录的父目录，以字符串形式显示目录名。

os.replace()：重命名文件或目录。