Python读取文件小结(csv,txt)

本文总结了Python读取csv和txt文件的方法,包括使用open函数、csv模块以及np.loadtxt()。通过示例介绍了如何按行读取内容,并提到了header的处理。参考了相关博客资源。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

搞了半天终于把Python读取文件的方式搞定了,这里简单说下


1. 使用open

<span style="font-size:18px;">f = open("E:\\ML\\machine-learning-ex2\\machine-learning-ex2\\ex2\\ex2data1.csv")
line = f.readline()
while line:
    print line
    line = f.readline()
    
f.close()</span>

不过这里需要注意的是,line的格式为str,所以我其实并不喜欢这种方式,而且我感觉这种

我觉得应该有其他的方式把txt读取成list,但暂时不想搞了,所以就不整了


2. 使用csv(强行把txt改成csv文件)

<span style="font-size:18px;"></span><pre style="font-family: 宋体; font-size: 11.3pt; background-color: rgb(255, 255, 255);"><pre name="code" class="python">import csv
import numpy as np
data = []
with open("E:\\ML\\machine-learning-ex2\\machine-learning-ex2\\ex2\\ex2data1.csv") as f:
    temp = csv.reader(f)
    #headers = next(temp)
    for row in temp:
        data.append(row)





我觉得这样才是我比较喜欢的方式,

1. 读取csv文件

2. temp为csv.reader类型

3. 按row读取temp中的东西

4. 注意这里header,如果csv中直接都是数据(相当于header已知),则可以不用header,否则需要加header 


3. np.loadtxt()

<span style="font-size:18px;">import numpy as np
data = np.loadtxt("E:\\ML\\machine-learning-ex2\\machine-learning-ex2\\ex2\\ex2data1.csv",delimiter = ',')</span>

感觉这种方法强无敌好吧,一步到位,不过需要注意的是逗号。


参考博客:

1. http://python3-cookbook.readthedocs.io/zh_CN/latest/c06/p01_read_write_csv_data.html

2. http://www.cnblogs.com/sysuoyj/archive/2012/03/14/2395789.html


### 使用 Python 和 Pandas 读取和处理 CSV 文件 Pandas 是一种强大的数据分析工具库,在 Python 中广泛用于数据操作和分析。以下是关于如何使用 Pandas 来读取 CSV 文件以及一些基本的数据处理方法。 #### 导入库 为了能够利用 Pandas 的功能,首先需要导入该库。通常情况下,还会一并加载其他常用的科学计算库以便后续可能的操作: ```python import pandas as pd import numpy as np ``` 此部分代码展示了基础的库引入过程[^1]。 #### 数据读取 通过 `pd.read_csv()` 函数可以从本地或者网络路径中读取 CSV 文件的内容至 DataFrame 对象之中。下面是一个简单的例子展示如何完成这一任务: ```python data = pd.read_csv('./example.csv') ``` 上述命令将名为 'example.csv' 的文件中的数据载入变量 `data` 中作为 DataFrame 结构存储起来[^2]。 #### 基础数据查看 一旦成功读取了数据之后,可以通过多种方式快速浏览数据集的整体情况: - **head() 方法**: 显示前五行记录,默认显示头五条。 ```python print(data.head()) ``` - **info() 方法**: 提供有关每列的信息,包括非空值的数量及其类型。 ```python print(data.info()) ``` 这些函数有助于初步理解所获取的数据结构与质量状况[^3]。 #### 数据清洗 实际应用过程中经常遇到不完整的数据表单,因此有必要执行一定的预处理步骤来提高数据可用性。比如填充缺失值或删除含有缺失项的整行/列: - 替代丢失数值: ```python data.fillna(value=0, inplace=True) # 将所有NA替换为零 ``` - 移除特定条件下的行: ```python clean_data = data.dropna(subset=['important_column']) # 删除重要字段为空白的所有实例 ``` 这里介绍了两种常见的数据清理手段之一——填补空白单元格或是剔除非必要样本[^4]。 #### 统计描述 除了直观观察外,还可以借助内置统计汇总功能获得更加精确的结果反馈: ```python summary_stats = data.describe() print(summary_stats) ``` 这段脚本生成了一个包含平均数、标准差等指标的小结表格,适用于定量型属性评估。 综上所述,运用 Pandas 不仅能便捷高效地实现 CSV 文档解析工作,而且提供了丰富的接口支持进一步深入探索挖掘隐藏模式规律等功能需求。 ```python def process_and_summarize(file_path): """综合示例:从指定位置加载CSV文档,简单净化后再给出概览报告""" df = pd.read_csv(file_path) # 清理阶段 df.fillna(0, inplace=True) cleaned_df = df.drop_duplicates() # 输出基本信息 summary = cleaned_df.describe() return summary if __name__ == "__main__": result = process_and_summarize('your_file.csv') print(result) ``` 以上提供了一种封装好的流程模板,方便重复调用实施标准化作业链路设计思路实践案例分享.
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值