文章目录
1、OS模块的应用
话不多说了,直接po码`,OS模块下常用功能
import os
os.path.exists(a)
# 是否存在a文件或者a路径
os.path.listdir(path)
# path 返回path路径下所有文件或文件夹的名字
os.path.join(a, b)
#将两个路径拼接, a/b
os.path.isfile(a)
# 判断a是否是一个文件
os.path.isdir(a)
# 判断a是否一个目录
os.path.abspath(a)
# 返回文件a的绝对路径
os.path.getsize(a)
# 获取文件a的大小,1024k
os.path.splitext(a)
# 将文件路径分割成文件名与文件后缀名 ['name', '.txt']
os.path.curdir
# 当前路径
结合之前学的遍历,if结构,我们可以做一个判断文件夹大写,或者读取一个文件夹下所有内容。这里以文件夹大小为例:
import os
size = 0
def get_dir_size(target_dir):
# 声明一个计数变量
global size
# 列出当前文件所在的目录下的所有的文件
d_list = os.listdir(target_dir)
print(d_list)
# 遍历文件和文件夹列表, 获取所有文件的大小
for f in d_list:
# 把每个文件跟绝对路径进行拼接
f = os.path.join(target_dir, f)
# 判断变量f是不是文件
if os.path.isfile(f):
# 是文件进行累加
print(f,os.path.getsize(f))
size += os.path.getsize(f)
# 是文件夹,重新调用本函数继续深入文件计算
if os.path.isdir(f):
# 递归,但该方法慎用,有限制
get_dir_size(f)
return size
dir_size = get_dir_size(r'test')
#获取文件的大小
print('总的大小:',dir_size)
好了,来一个工作中实际案例,甲方给了一个文件,里面全是doc文件,每个文件是一条内容,我们需要统计所有内容最后汇总成csv文件。
import os
import docx
import xlrd
import time
import pythoncom
import pandas as pd
import win32com.client as wc
for i,file in enumerate(os.listdir('C:/Intel/files')):
word = wc.Dispatch("Word.Application")
word.Visible = 0 # 后台运行,不显示
word.DisplayAlerts = 0 # 不警告
file = 'C:/Intel/files' + '/' +file
doc = word.Documents.Open(FileName=file, Encoding='gbk')
con = ''
"""转存
doc.SaveAs(file.docx, 12)
"""
for para in doc.paragraphs:
con += para.Range.Text.strip()
con = con.replace('\r','')
data3.loc[i, :] = {'dept':folders[i], 'text':con}
print('======== 结束 ========')
doc.Close()
word.Quit
2、不定长参数的函数
当参数长度不确定时,我们可以使用args来接收数字或者字符串变量, 输出的是元组类型,kargs接收key=value,返回的是字典类型,这样携带的信息更加清晰。
def sum2(a, b):
print(a, b)
sum2(11,22)
def sum1(a,b,*args):
print(a)
print(b)
print(args)
sum2(11,22,33,44,55)
def sum3(a,b,c=100,**kwargs):
print(a)
print(b)
print(c)
print(kwargs)
sum3(11,22,89,task=100,done=85)
"""
11
22
89
{'task': 100, 'done': 85}
"""