python文件操作（Windows路径，内置os库）+ 正则表达式（语法与re库）

Python文件操作与正则表达式

原创已于 2024-12-24 21:44:42 修改 · 1.6k 阅读

25 ·

CC 4.0 BY-SA版权

文章标签：

#python #windows #正则表达式

于 2024-06-15 16:55:36 首次发布

python 基础（语法以及多线程等操作）专栏收录该内容

15 篇文章

订阅专栏

文章目录

前言
- 1 Windows路径
- - （1）绝对路径 (Absolute Path)
  - （2）相对路径 (Relative Path)
一、python文件的读写操作
二、os 内置路径操作库
三、正则表达式
总结

前言

先介绍本部分的前置知识 ---- Windows路径知识。

1 Windows路径

在 Windows 操作系统中，处理文件和目录时，绝对路径和相对路径是两个非常重要的概念。理解和正确使用它们有助于高效地管理文件系统。以下是对 Windows 绝对路径和相对路径的详细说明以及在 Python 中的用法。

（1）绝对路径 (Absolute Path)

绝对路径是指从磁盘的根目录开始，完整地指向文件或目录的路径。它不依赖于当前的工作目录，无论在哪个位置，绝对路径始终指向同一个文件或目录。

Windows 中的绝对路径格式

在 Windows 中，绝对路径通常以驱动器号开头，后跟路径中的每个目录，使用反斜杠 (\) 分隔。例如：

C:\Users\JohnDoe\Documents\example.txt

C: 是驱动器号。
\Users\JohnDoe\Documents\example.txt 是从驱动器根目录到目标文件的完整路径。

在 Python 中，绝对路径可以直接使用。例如：

file_path = r"C:\Users\JohnDoe\Documents\example.txt"
with open(file_path, 'r') as file:
    content = file.read()
    print(content)

注意：

使用 r 字符串前缀，表示原始字符串，避免反斜杠作为转义字符（如 \n）。
也可以使用双反斜杠 (\\) 来避免转义问题：

file_path = "C:\\Users\\JohnDoe\\Documents\\example.txt"

（2）相对路径 (Relative Path)

相对路径是相对于当前工作目录的路径。它表示文件或目录相对于某个参考点的位置。

Windows 中的相对路径格式

在 Windows 中，相对路径通常不包括驱动器号，而是从当前工作目录或参考点开始。例如，如果当前工作目录是 C:\Users\JohnDoe，相对路径 .\Documents\example.txt 实际上表示 C:\Users\JohnDoe\Documents\example.txt。

. 表示当前目录。
.. 表示上一级目录。
相对路径的使用主要就是这两个点点的使用，下面用一个具体的文件结构来说明：

C:\
│
├── Users\
│   ├── JohnDoe\
│   │   ├── Documents\
│   │   │   ├── Project\
│   │   │   │   ├── report.txt
│   │   │   │   ├── data\
│   │   │   │   │   ├── analysis1.csv
│   │   │   │   │   ├── analysis2.csv
│   │   │   │   └── results\
│   │   │   │       ├── summary.docx
│   │   │   │
│   │   │   ├── Notes.txt
│   │   │
│   │   └── Pictures\
│   │       ├── vacation.jpg
│   │
│   ├── JaneDoe\
│   │   └── Downloads\
│   │       └── movie.mp4
│
└── Program Files\
    └── App\
        └── app.exe

假设我们当前的工作目录是 C:\Users\JohnDoe\Documents\Project\data
那么：

C:\Users\JohnDoe\Documents\Project\data\analysis1.csv的相对路径就可以写为 .\analysis1.csv，当前工作目录下面的文件路径也可以直接文件名就是相对路径analysis1.csv
C:\Users\JohnDoe\Documents\Project\report.txt的相对路径就可以写为 ..\report.txt
C:\Users\JohnDoe\Documents\Notes.txt的相对路径就可以写为..\..\Notes.txt
C:\Users\JohnDoe\Pictures\vacation.jpg的相对路径就可以写为 ..\..\..\Pictures\vacation.jpg

【注】：python中获取当前工作目录的函数 os 库里面含有。

一、python文件的读写操作

先介绍本节会用到的常见参数：
常用参数有：

file: 文件的路径或名称。
mode: 打开文件的模式，如只读(‘r’)、写入(‘w’)、追加(‘a’)、读写(‘r+’)等。
encoding: 文件的编码方式，如 ‘utf-8’。

常见模式说明：

‘r’：只读模式，文件必须存在。
‘w’：写入模式，文件不存在则创建，存在则清空。
‘a’：追加模式，文件不存在则创建。
‘b’：二进制模式，与其他模式结合使用，例如 ‘rb’ 表示以二进制读取。

1 读写

假设有以下txt文本在test1.txt中：
在这里插入图片描述

（1）打开文件

file = open(‘test1.txt’,‘r’,encoding=‘utf-8’) — 打开文件

（2）读取文件内容

content = file.read() — 读取全部内容，返回字符串

f = open('test1.txt','r',encoding='utf-8')
data = f.read()
f.close()
print(type(data))
# 可以看到返回的类型是str
print(data)

输出：
在这里插入图片描述

lines = readlines（）：读取所有行并返回一个包含每行内容的列表（逐行读取）

with open('test1.txt','r',encoding='utf-8') as f:
    data = f.readlines()
print(type(data))
# 可以看到返回的类型是 list
print(data)

输出：
在这里插入图片描述

（3）写入内容

写入新文件或覆盖文件 (write) - w

with open('example.txt', 'w', encoding= 'utf-8') as file:
    file.write('Hello, World!')

追加内容 (append) - a

with open('example.txt', 'a', encoding= 'utf-8') as file:
    file.write('Hello, World!')

（4）file.close() : 关闭文件

（5）with open（‘test1.txt’,‘r’,encoding=‘utf-8’）as f 语句

with open('example.txt', 'r',encoding= 'utf-8') as file:
    content = file.read()
    print(content)
# 文件自动关闭，不需要显式调用 file.close()

2 二进制读写模式

下面为什么要介绍，rb，wb这种二进制模式，具体原因等到最后面的项目在说明。

with open('test1.txt','rb') as f:
    # 这里 rb以二进制读取就不用考虑encoding了，这个是后面解码才干的事情
    data_byte = f.read()
print(type(data_byte))
# 可以看到返回的类型是 byte
print(data_byte)
data = data_byte.decode('utf-8')
# 解码后才能返回真正的文本
print(data)

输出：
在这里插入图片描述

二、os 内置路径操作库

这个库主要是各种路径处理函数，在涉及到硬盘交互时常用到。

os.path.realpath(file):获取当前执行的脚本文件的绝对路径。

os.path.abspath(path): 把相对路径转成绝对路径。

os.getcwd()：获取当前工作目录的绝对路径。

os.path.dirname(path): 返回path上一级的绝对路径

print(os.path.dirname(r'E:\Python project\demos\aea_iads'))    #  E:\Python project\demos

os.path.basename(path):返回路径path中的文件名或者目录名

print(os.path.basename(r'E:\Python project\demos\aea_iads'))    # aea_iads

os.listdir(path): 返回指定目录中的文件和子目录列表。

返回下面这里列表
['.git', '.idea', '.venv', 'demo.py', 'demo222.ipynb', 'demo223.ipynb', 'demo224.ipynb', 'demo6.10.ipynb', 'demo6.10.ipynb.tmp', 'draw.ipynb', 'hello算法', 'hh.html', 'matplotlib', 'optimization', 'partition', 'read_data.ipynb', 'task1.ipynb', 'test', 'WEZ_judge2.py', 'WEZ_judge_401.py', 'XML_note']

os.makedirs(path,exist_ok=True) — 在给定路径创建目录

一般这个用的更多，exist_ok=True参数含义是如果目录已经创建就直接用这个，不报错。就不用在判断目录有没有被创建了

os.path.join(path1, path2，…): 将多个个路径组合成一个完整的路径。

# 示例 1: 组合两个路径
path1 = r'C:\usr'
path2 = r'local\bin'
full_path = os.path.join(path1, path2)
print(full_path)  # 输出：C:\usr\local\bin
# 示例 2: 多个路径组合
path3 = 'file.txt'
full_path = os.path.join(path1, path2, path3)
print(full_path)  # 输出：C:\usr\local\bin\file.txt

os.path.exists(path): 检查路径是否存在。

os.path.isfile(path): 检查是否为文件。

os.path.isdir(path): 检查是否为目录。

os.remove(path): 删除指定文件。

os.rmdir(path): 删除指定空目录，必须是空目录；不是递归的删除，所以者函数屁用没有

【注】：递归删除和文件删除：如果需要递归删除目录及其内容（包括子目录和文件），可以使用 shutil.rmtree() 函数，它可以递归地删除整个目录树。

三、正则表达式

1 正则表达式语法

关于正则表达式各种用法，请参考我这篇Java系列里面的博客正则表达式，里面基本将所有细节都涉及到了，并且有大量具体示例演示究竟是在干什么

2 re 正则表达式处理库

re库很多方法返回的都是一个匹配对象的obj,因此首先要学习怎么从这个obj里面拿出信息的方法。
有两个注下面一直要注意
【注1】：这里pattern就是正则表达式
【注2】：匹配成功返回一个匹配对象，匹配失败就返回None

（1）匹配对象obj获取信息的方法

匹配成功就可以对匹配对象使用下面方法：

• group(): 返回匹配的字符串。

• start(): 返回匹配的起始位置。

• end(): 返回匹配的结束位置。

• span(): 返回一个元组，包含匹配的起始和结束位置。

（2）返回第一个匹配到的信息

re.search(pattern, string): 在字符串中搜索模式，如果成功匹配，则返回第一个匹配对象obj。

【注1】：这里pattern就是正则表达式
【注2】：匹配成功返回一个匹配对象，匹配失败就返回None

match1 = re.search('hello','hello world')
print(match1)           # <re.Match object; span=(0, 5), match='hello'>      # 匹配成功，返回一个匹配对象


match2 = re.search('world','hello world')
print(match2)           # <re.Match object; span=(6, 11), match='world'>


match3 = re.search('你好？','hello world')
print(match3)           # None     匹配失败返回None


# 获取匹配对象里面信息的方法
print(match2.group())   # world
print(match2.start())   # 6
print(match2.end())     # 11
print(match2.span())    # (6, 11)

（3）返回所有匹配结果

re.findall(pattern, string) ：返回的是包含所有匹配字符串组成的列表

re.finditer(pattern, string)：返回的是包含所有匹配项信息的迭代器，迭代器里面每一项都是一个匹配对象obj

pattern = r'\d+'  
# 匹配连续的数字
# re库的功能就是能够匹配正则表达式

string = 'I have 123 apples and 456 oranges and 789 bananas.'

# 使用 re.findall() 返回匹配的所有非重叠部分的列表
result_findall = re.findall(pattern, string)
print(result_findall)  # 输出：['123', '456', '789']

# 使用 re.finditer() 返回一个迭代器，每次迭代产生一个匹配对象
result_finditer = re.finditer(pattern, string)
print(result_finditer)                           # 输出：<callable_iterator object at 0x000001F3D3D3D4C0>    # 可看到返回迭代器

print(list(result_finditer))                     
# 输出：[<re.Match object; span=(7, 10), match='123'>, <re.Match object; span=(24, 27), match='456'>, <re.Match object; span=(41, 44), match='789'>]
# 可看到返回的是一个列表，列表中的元素是匹配对象object

（4）替换文本

re.sub(pattern, repl, string): 在字符串中查找匹配的模式，并用替换字符串替换它们。并返回替换后的文本

参数说明：

pattern:匹配的字符
repl:用repl替换pattern
string: 匹配的文本。

pattern = r'\d+'  # 匹配连续的数字

string = 'I have 123 apples and 456 oranges and 789 bananas.'

new_string = re.sub(pattern,'aaa',string)
print(new_string)             # I have aaa apples and aaa oranges and aaa bananas.

（5）根据匹配拆分

re.split(pattern, string): 根据模式将字符串拆分为列表。返回拆分的列表

pattern = r'\d+'  # 匹配连续的数字
string = 'I have 123 apples and 456 oranges and 789 bananas.'

lst = re.split(pattern,string)
print(lst)         # ['I have ', ' apples and ', ' oranges and ', ' bananas.']