文件的编码
思考:计算机只能识别:0和1,那么我们丰富的文本文件是如何被计算机识别,并存储在硬盘中呢?
答案:使用编码技术(密码本)将内容译成0和1存入
编码技术即:翻译的规则,记录了如何将内容翻译成二进制,以及如何将二进制翻译回可识别内容。
如:
以什么编码书写的文件得使用什么编码打开,不然就会出现错误
计算机中有许多可用编码:
- UTF-8
- GBK
- Big5
- 等
不同的编码,将内容翻译成二进制也是不同的。
UTF-8是目前全球通用的编码格式
除非有特殊需求,否则,一律以UTF-8格式进行文件编码即可。
文件的读取
什么是文件:
内存中存放的数据在计算机关机后就会消失。要长久保存数据,就要使用硬盘、光盘、U 盘等设备。为了便于数据的管理和检索,引入了“文件”的概念。
一篇文章、一段视频、一个可执行程序,都可以被保存为一个文件,并赋予一个文件名。操作系统以文件为单位管理磁盘中的数据。一般来说,文件可分为文本文件、视频文件、音频文件、图像文件、可执行文件等多种类别。
文件操作包含哪些内容呢?
在日常生活中,文件操作主要包括打开、关闭、读写等操作。
文件的操作步骤
想想我们平常对文件的基本操作,大概可以分为三个步骤(简称文件操作三步走):
- 打开文件
- 读写文件
- 关闭文件
注意事项:
注意:可以只打开和关闭文件,不进行任何读写。
open()打开函数
在Python,使用open函数,可以打开一个已经存在的文件,或者创建一个新文件,语法如下:
open(name, mode, encoding)
name: 是要打开的目标文件名的字符串(可以包含文件所在的具体路径)。
mode: 设置打开文件的模式(访问模式): 只读、写入、追加等。
encoding:编码格式(推荐使用UTF-8)
模式 | 描述 |
r | 以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。 |
w | 打开一个文件只用于写入。如果该文件已存在则打开文件,并从开头开始编辑,原有内容会被删除,如果该文件不存在,创建新文件。 |
a | 打开一个文件用于追加。如果该文件已存在,新的内容将会被写入到已有内容之后,如果该文件不存在,创建新文件进行写入。 |
示例代码:
f = open('python.txt,"r' ,encoding=”UTF-8)
# encoding的顺序不是第三位,所以不能用位置参数,用关键字参数直接指定
f = open("D:/测试.txt", "r", encoding="Utf-8")
print(type(f))
print(f)
结果:
<class '_io.TextIOWrapper'>
<_io.TextIOWrapper name='D:/测试.txt' mode='r' encoding='Utf-8'>
注意事项
注意:此时的“f“是“open”函数的文件对象,对象是Python中一种特殊的数据类型,拥有属性和方法,可以使用对象.属性或对象.方法对其进行访问。
read()方法:
文件对象.read(num)
# 程序中多次调用read的结果是:第二次读取是在第一次读取的结果下续接继续往下读
f = open("D:/测试.txt", "r", encoding="Utf-8")
print(f"读取10个字节的结果:{f.read(6)}")
print("______________")
print(f"read方法读取全部内容的结果:{f.read()}")
结果:
读取10个字节的结果:中华人民共和
______________
read方法读取全部内容的结果:国1
中华人民共和国2
中华人民共和国3
中华人民共和国4
中华人民共和国5
中华人民共和国6
进程已结束,退出代码0
num表示要从文件中读取的数据的长度(单位是字节),如果没有传入num,那么就表示读取文件中所有的数据。
readlines()方法:
readlines可以按照行的方式把整个文件中的内容进行一次性读取,并且返回的是一个列表,其中每一行的数据为一个
元素。
f = open('python.txt)
content = f.readlines()
#[hello world\n','abcdefg\n',' aaa\n','bbb\n',' ccc']print(content)
# 关闭文件f.close()
f = open("D:/测试.txt", "r", encoding="Utf-8")
lines = f.readlines() # 读取文件的全部行,封装到列表中
print(f"lines对象的类型是:{type(lines)}\nlines对象的内容是:{lines}")
结果: # \n 是换行
lines对象的类型是:<class 'list'>
lines对象的内容是:['中华人民共和国1\n', '中华人民共和国2\n', '中华人民共和国3\n', '中华人民共和国4\n', '中华人民共和国5\n', '中华人民共和国6'
readlin()方法:一次读取一行内容
f = open('python.txt')
content = f.readline()print(f'第一行: {content}')
content = f.readline()print(f'第二行: {content}')
# 关闭文件f.close()
f = open("D:/测试.txt", "r", encoding="Utf-8")
content = f.readline()
print(f'第一行: {content}')
content = f.readline()
print(f'第二行: {content}')
结果:
第一行: 中华人民共和国1
第二行: 中华人民共和国2
close()关闭文件对象
f= open("python.txt","r")
f.close()
# 最后通过close,关闭文件对象,也就是关闭对文件的占用# 如果不调用close,同时程序没有停止运行,那么这个文件将一直被Python程序占用。
with open 语法
with open("python.txt", "r") as f:
f.readlines()
# 通过在with open的语句块中对文件进行操作# 可以在操作完成后自动关闭close文件,避免遗忘掉close方法
with open("D:/测试.txt", "r", encoding="UTF-8") as f:
for line in f:
print(f"每一行数据是:{line}")
# with open 语句执行完后相当于自动执行了close()方法
结果:
每一行数据是:中华人民共和国1
每一行数据是:中华人民共和国2
每一行数据是:中华人民共和国3
每一行数据是:中华人民共和国4
每一行数据是:中华人民共和国5
每一行数据是:中华人民共和国6
文件的写入
# 1.开件
f = open('pythontxt, 'w’)
# 2.文件写入
f.write("hello world") # 写入内存,缓存区
# 3.内容刷新f.flush() # 写入硬盘
注意:
- 直接调用write,内容并未真正写入文件,而是会积攒在程序的内存中,称之为缓冲区
- 当调用flush的时候,内容会真正写入文件
- 这样做是避免频繁的操作硬盘,导致效率下降(攒一堆,一次性写磁盘)
# 打开文件,不存在的文件
f = open("D:/test.txt", "w", encoding="UTF-8") # 有则打开,无则创建
# write 写入
f.write("Hello World!!!") # 内容写入到内存中
# flush 刷新
f.flush() # 将内存中积攒的内容,写入到硬盘中
# close 关闭
f.close() # 关闭文件,close方法内置了flush的功能
# 打开一个存在的文件
f = open("D:/test.txt", "w", encoding="UTF-8") # 文件存在,会清空原有内容
# write 写入,flush 刷新
f.write("你好!!!") # 内容写入到内存中
f.flush()
# close 关闭
f.close() # 有close方法,可以省略flush方法
文件的追加
# 1.开件
f = open('pythontxt, 'a’)
# 2.文件写入
f.write("hello world") # 写入内存,缓存区
# 3.内容刷新f.flush() # 写入硬盘
注意:
- a模式,文件不存在会创建文件
- a模式,文件存在会在最后,追加写入文件
# 打开文件,不存在的文件
f = open("D:/test.txt", "a", encoding="UTF-8") # 有则打开,无则创建
# write 写入
f.write("Hello World!!!") # 内容写入到内存中
# flush 刷新
f.flush() # 将内存中积攒的内容,写入到硬盘中
# close 关闭
f.close() # 关闭文件,close方法内置了flush的功能
# 打开一个存在的文件
f = open("D:/test.txt", "a", encoding="UTF-8") # 文件存在,会清空原有内容
# write 写入,flush 刷新
f.write("\n你好!!!") # 内容写入到内存中
f.flush()
# close 关闭
f.close() # 有close方法,可以省略flush方法
文件操作综合案
要求:
代码:
# 打开文件得到文件对象,准备读取
fr = open("D:/bill.txt", "r", encoding="UTF-8")
# 打开文件得到文件对象,准备写入
fw = open("D:/bill.txt.bak", "w", encoding="UTF-8")
# for循环读取文件
for line in fr:
line = line.strip() # 去除换行符
# 断内容,将满足的内容写出
if line.split(",")[4] == "测试":
continue
# 将内容写出去
fw.write(line) # continue进入下一次循环,这一次后面的内容就跳过了
# 由于前面对内容进行了strip()的操作,所以要手动的写出换行符
fw.write("\n")
# close2个文件对象
fr.close()
fw.close()