【Python】mat npy npz 文件格式

1、简介

MAT 文件和 NP(.npy 或 .npz)文件是两种不同的格式,用于存储数组数据。它们分别由 MATLAB 和 NumPy 开发,主要用于各自环境中的数据存储和交换。以下是这两种格式的主要区别:

1.1 格式和用途

  • MAT 文件:这是 MATLAB 使用的二进制文件格式,通常用于保存变量、矩阵以及其他类型的数据。它支持多种数据类型,并且可以包含多个变量。MAT 文件有两种主要版本:v4 (Level 1.0), v6 and v7 to v7.2 (up to HDF5 based)。
  • NPY/ NPZ 文件
    • .npy:NumPy 的单文件格式,设计用来高效地存储单一的同构数组(即具有相同数据类型的数组)。
    • .npz:这是一个 ZIP 存档,里面可以包含多个 .npy 文件,每个文件对应一个数组。这允许在一个 .npz 文件中存储多个命名数组。

1.2 兼容性

  • MAT 文件:主要用于 MATLAB 环境,但可以通过其他软件(如 Python 的 SciPy 模块)读取。
  • NPY/NPZ 文件:专门为 Python 和 NumPy 设计,但在其他编程语言中也有相应的库可以读写这些格式。

1.3 加载方法

  • MAT 文件:在 Python 中使用 scipy.io.loadmat() 函数来加载 MAT 文件。
  • NPY/NPZ 文件:使用 numpy.load() 函数,对于 .npz 文件,返回的是一个类似于字典的对象,需要通过键名访问其中的数组。

1.4 性能与特性

  • MAT 文件:由于其设计目的是为了与 MATLAB 配合使用,因此它支持 MATLAB 特有的数据类型,比如结构体和单元格数组等复杂数据类型。
  • NPY/NPZ 文件:专注于提供高效的数值数组存储解决方案,支持直接存储 Python 基础数据类型以及复杂的多维数组,但不直接支持像 MATLAB 结构体这样的复杂数据结构。

1.5 扩展性和灵活性

  • MAT 文件:适合于需要与 MATLAB 兼容的应用场景,尤其是当你需要处理 MATLAB 特定的数据结构时。
  • NPY/NPZ 文件:非常适合于纯 Python/NumPy 工作流,特别是在科学计算和数据分析领域中。

1.6 总结

选择哪种格式取决于你的具体需求。如果你的工作流程主要围绕 MATLAB 进行,那么 MAT 文件可能是更合适的选择。然而,如果你主要使用 Python 和 NumPy 来进行数据分析或机器学习任务,那么 NPY 或 NPZ 文件将是更好的选择。此外,如果你希望跨平台共享数据并且保持良好的性能,NPY/NPZ 文件也提供了非常有效的解决方案。

2、案例

2.1 mat

from scipy.io import loadmat
data = loadmat('arr1')

# 查看字典keys
keys = list(data.keys())
print(keys)

print(data[keys[3]].shape)

2.2 npy

import numpy as np
data = np.load('arr1.npy')
print(data.shape)

2.3 npz

import numpy as np
data = np.load('out.npz')

# 查看所有可用变量名的两种方式
keys = data.files
print(keys)
keys = list(data.keys())
print(keys)

print(data[keys[0]])
print(data[keys[2]].shape)

2.4 其它

目标正确代码
加载 .npy.npz 文件(普通数组)numpy.load('filename.npy')
加载含 pickle 数据的 .npy/.npz 文件numpy.load('filename.npy', allow_pickle=True)

如果有不确定的文件类型,可以运行file命令查看内容,例如file out,文件out为mat:

file out
out: Matlab v5 mat-file (little endian) version 0x100, platform posix, created Thu May  8 11:24:24 2025

代码运行结果:
在这里插入图片描述

<think>我们被要求回答如何使用Python读取和查看.npz文件中的数据。根据引用[1]和引用[3],我们知道可以使用`numpy`库中的`np.load`函数来加载`.npz`文件。`.npz`文件是多个NumPy数组的压缩存储格式,通常用于保存多个数组。步骤:1.导入numpy库。2.使用`np.load`函数加载.npz文件。3.检查文件中的数组名称(因为.npz文件可以包含多个数组)。4.读取数组并查看其内容。引用[1]中提到:>12.np.eye()/np.identify():但更重要的是,引用[1]和引用[3]都提到了`np.load`函数。引用[3]中给出了`np.load`的函数签名:>11.numpynp.load@set_module('numpy')defload(file,mmap_mode=None,allow_pickle=False,fix_imports=True,encoding='ASCII'):因此,我们可以使用`np.load`函数,并注意参数`allow_pickle`在默认情况下为`False`,如果需要加载pickle序列化的对象,可能需要设置为`True`(但通常对于纯数组数据不需要,而且出于安全考虑,建议保持为`False`)。另外,引用[4]虽然主要讲的是医学图像数据集的目录结构,但其中也提到了数据对齐的要求,这间接提醒我们在查看数组时要注意其形状(shape)和数据类型(dtype)等信息。示例代码:```pythonimportnumpyasnp#加载npz文件data=np.load('example.npz')#查看npz文件中包含哪些数组(类似于字典的keys)print(list(data.keys()))#假设文件中有两个数组:'arr_0'和'arr_1'#我们可以通过数组名来获取arr0=data['arr_0']arr1=data['arr_1']#或者使用文件对象的属性(注意:数组名作为属性存在,但仅适用于不包含特殊字符的数组名)#例如,如果数组名是'arr_0',则可以使用:data.arr_0#但是更安全的方式是通过键来访问。#查看数组的形状和数据类型print('arr0shape:',arr0.shape)print('arr0dtype:',arr0.dtype)print('arr0values:')print(arr0)#如果数组很大,我们可能只想查看部分内容,例如前5个元素print(arr0[:5])```注意事项:-`.npz`文件可以包含多个数组,每个数组都有一个名字。在保存时,如果没有指定名称,则默认名称为"arr_0","arr_1",...。-在读取后,我们可以通过`data.files`或`data.keys()`获取所有数组的名称。-读取后的数组是numpy数组,我们可以使用numpy提供的各种方法进行查看和分析。相关问题:1.如何保存多个数组到一个.npz文件?2.除了.npz,numpy还支持哪些数据格式?3.如何查看数组的统计信息(如最大值、最小值、平均值)?</think> ### 如何使用Python读取和查看.npz文件数据 在Python中,`.npz`文件是NumPy专用的压缩存档格式,用于存储多个数组。以下是完整的操作步骤: #### 1. **导入NumPy库** ```python import numpy as np ``` #### 2. **加载.npz文件** 使用`np.load()`加载文件(引用[1]和引用[3]): ```python data = np.load('example.npz') # 替换为实际文件路径 ``` - 📌 注意:`.npz`文件本质上是键值对存储(类似字典),包含多个`.npy`文件 #### 3. **查看文件内容** ```python # 查看所有存储的数组名称 print("包含的数组:", list(data.keys())) # 获取单个数组示例 arr1 = data['arr_0'] # 使用实际键名替换 arr_0 print("数组形状:", arr1.shape) print("数据类型:", arr1.dtype) print("首5个元素:", arr1[:5]) # 避免打印大数组 ``` #### 4. **完整操作示例** ```python import numpy as np # 创建示例数据并保存 np.savez('sample.npz', array1=np.arange(10), matrix=np.eye(5)) # 引用[1]中np.eye() # 加载并查看 with np.load('sample.npz') as data: print("存档包含:", data.files) # 查看第一个数组 arr = data['array1'] print("array1 类型:", type(arr)) print("array1 内容:", arr) # 查看矩阵 mat = data['matrix'] print("矩阵形状:", mat.shape) print("矩阵内容:\n", mat) ``` #### 5. **关键注意事项** 1. **延迟加载**:`.npz`文件不会立即加载所有数据,只有在访问具体数组时才加载(类似内存映射) 2. **安全关闭**:使用上下文管理器(`with`语句)确保文件正确关闭 3. **大文件处理**:使用`mmap_mode`参数处理大型文件(引用[3]): ```python big_data = np.load('large.npz', mmap_mode='r') ``` 4. **兼容性**:可通过`allow_pickle=True`加载包含Python对象的旧格式文件 ### [扩展应用] - **医学影像处理**:处理`.nii.gz`文件时可将预处理结果保存为`.npz`(引用[4]) - **数据集打包**:用`.npz`合并多个特征矩阵和标签数组 - **模型参数存储**:保存神经网络权重(比pickle更高效) --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值