glob读取某个文件夹下的多个文件

本文介绍了一种使用Python批量读取指定路径下所有txt文件的方法。通过导入必要的模块如os和sys,并利用glob进行文件匹配,可以实现对输入路径中所有txt文件的内容逐行打印。这种方法适用于需要处理大量文本文件的场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 import os
 import sys
 import glob
 from datetime import date, time, datetime, timedelta
 from operator import itemgetter
 from math import exp, log, sqrt
  
  inputPath = sys.argv[1]
  for input_file in glob.glob(os.path.join(inputPath,'*.txt')):
      with open(input_file, 'r') as filereader:
          for row in filereader:
             print row

  

转载于:https://www.cnblogs.com/slhs/p/9493255.html

### 使用Pandas读取文件夹中的多个CSV文件 为了处理位于同一目录下的多个CSV文件,可以编写一段Python脚本来遍历该目录并逐个加载这些文件到Pandas DataFrame中。下面是一个具体的实现方法: ```python import os import glob import pandas as pd def load_multiple_csv_files(folder_path): all_files = glob.glob(os.path.join(folder_path , "*.csv")) df_list = [] for filename in all_files: df = pd.read_csv(filename, index_col=None, header=0) df_list.append(df) big_df = pd.concat(df_list, axis=0, ignore_index=True) return big_df ``` 此函数`load_multiple_csv_files()`接受一个参数`folder_path`表示存储CSV文件文件夹路径[^1]。 通过使用`glob`模块来匹配指定模式的所有文件名,在这里是指定目录下所有的`.csv`文件。对于找到的每一个CSV文件,都调用一次`pd.read_csv()`将其转换成DataFrame对象,并追加至列表`df_list`之中。最后利用`pd.concat()`沿着垂直方向连接这个列表里的所有数据框成为一个大型的数据集`big_df`返回给调用者。 当面对的是HDFS上的分布式文件系统时,则可能需要用到Spark框架所提供的API来进行操作,例如可以通过如下方式获取特定前缀命名的一系列CSV文档的内容[^2]: ```python from pyspark import SparkContext sc = SparkContext() distFile = sc.textFile("/hdfs/path/to/folder/fixed_file_name_*.csv") ``` 然而这超出了单纯依靠Pandas库所能完成的任务范围;如果仅限于本地环境的话,上述基于Pandas的方式已经足够满足需求了。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值