os模块下关于读写文件的操作;以python直接读取doc文件,转存为docx文件为例。

1、OS模块的应用

话不多说了,直接po码`,OS模块下常用功能

import os
os.path.exists(a)
# 是否存在a文件或者a路径
os.path.listdir(path)
# path 返回path路径下所有文件或文件夹的名字
os.path.join(a, b) 
#将两个路径拼接, a/b
os.path.isfile(a)
# 判断a是否是一个文件
os.path.isdir(a)
# 判断a是否一个目录
os.path.abspath(a)
# 返回文件a的绝对路径
os.path.getsize(a)
# 获取文件a的大小,1024k
os.path.splitext(a) 
# 将文件路径分割成文件名与文件后缀名 ['name', '.txt']
os.path.curdir 
# 当前路径

结合之前学的遍历,if结构,我们可以做一个判断文件夹大写,或者读取一个文件夹下所有内容。这里以文件夹大小为例:

import os
size = 0
def get_dir_size(target_dir):
    # 声明一个计数变量
    global size
    # 列出当前文件所在的目录下的所有的文件
    d_list = os.listdir(target_dir)
    print(d_list)
    # 遍历文件和文件夹列表, 获取所有文件的大小
    for f in d_list:
        # 把每个文件跟绝对路径进行拼接
        f = os.path.join(target_dir, f)
        # 判断变量f是不是文件
        if os.path.isfile(f):
            # 是文件进行累加
            print(f,os.path.getsize(f))
            size += os.path.getsize(f)
            
        # 是文件夹,重新调用本函数继续深入文件计算
        if os.path.isdir(f):
        # 递归,但该方法慎用,有限制
            get_dir_size(f)
    return size
dir_size = get_dir_size(r'test')
#获取文件的大小
print('总的大小:',dir_size)

好了,来一个工作中实际案例,甲方给了一个文件,里面全是doc文件,每个文件是一条内容,我们需要统计所有内容最后汇总成csv文件。

import os
import docx
import xlrd
import time
import pythoncom
import pandas as pd
import win32com.client as wc

for i,file in enumerate(os.listdir('C:/Intel/files')):
    word = wc.Dispatch("Word.Application")
    word.Visible = 0        # 后台运行,不显示
    word.DisplayAlerts = 0  # 不警告
    file = 'C:/Intel/files' + '/' +file
    doc = word.Documents.Open(FileName=file, Encoding='gbk')
    con = ''
    """转存
    doc.SaveAs(file.docx, 12)
    """
    for para in doc.paragraphs:
        con += para.Range.Text.strip()
    con = con.replace('\r','')
    data3.loc[i, :] = {'dept':folders[i], 'text':con}
    print('======== 结束 ========')
    doc.Close()
    word.Quit

2、不定长参数的函数

当参数长度不确定时,我们可以使用args来接收数字或者字符串变量, 输出的是元组类型,kargs接收key=value,返回的是字典类型,这样携带的信息更加清晰。

def sum2(a, b):
	print(a, b)
	
sum2(11,22)

def sum1(a,b,*args):
	print(a)
	print(b)
	print(args)
	
sum2(11,22,33,44,55)
	
def sum3(a,b,c=100,**kwargs):
	print(a)
	print(b)
	print(c)
	print(kwargs)
	
sum3(11,22,89,task=100,done=85)
"""
11
22
89
{'task': 100, 'done': 85}
"""


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值