numpy,pandas,tensor，mat等数据类型互转（更新中）

原创已于 2022-04-30 20:56:01 修改 · 2k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#数据分析

于 2022-04-01 21:31:03 首次发布

脑电信号分析专栏收录该内容

3 篇文章

订阅专栏

pandas转pd

data_np = data_pd.to_numpy()
#输出np.array

最近在数据处理阶段，用到了常见的数据类型，鉴于对某种数据类型处理方式不够熟练，会转成其他格式数据来使用，开个博客记录一下。

mat转np

使用matlab的save函数保存文件

save result_type1

输出result_type1.mat文件

使用python对其读取

from scipy.io import loadmat
import numpy as np
import scipy.io as io
a = loadmat('retult_type1.mat')
np1 = a['变量名']

原始.mat文件包含了你存储的所有变量，在np中读取相应的变量名即可

np转mat

思路：在python中将np类型数据转为mat文件，之后在matlab中进行读取

from scipy.io import loadmat
import numpy as np
import scipy.io as io
mat_path = 'savepath/'
mat = np.zeros([4, 20])
sequence = 1
type1 = 'mi_Data_1.npy'
type2 = 'mi_Data_2.npy'
data_type2 = np.load('../../np/CH/{0}/{1}'.format(sequence,type2))
mat_name = "mi_Data2.mat"
io.savemat('{0}/{1}'.format(mat_path,mat_name),{'name': data_type2})

使用io.savemat将np文件改成mat形式，format对应的参数是存储后的位置以及文件名，'name'对应的参数是保存的数据

之后有空再更新下npy文件

将numpy文件保存下来

先看一下numpy自带的save函数和例子

np.save ('G:/data/labels{0}{1}.npy'.format(参数2, 参数1), numpy变量)

前面一个参数是保存的位置及文件名，后面是保存的变量

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

BEST_XIAOAI

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

NumPy 推动 Python 领域的深度学习数据准备

Python编程之道的博客

05-21

867

本文旨在全面解析NumPy在深度学习数据准备中的关键作用，涵盖从基础概念到高级应用的各个方面。我们将重点探讨NumPy如何解决深度学习中的数据预处理、转换和优化问题，以及它与其他深度学习框架的无缝集成。文章首先介绍NumPy的基本概念和核心功能，然后深入探讨其在深度学习数据准备中的具体应用。接着通过实际案例展示NumPy的使用方法，最后讨论相关工具、资源和发展趋势。NumPy: Numerical Python的简称，是Python中用于科学计算的基础库ndarray。

pytorch 数据转cuda 数据增强

jacke121的专栏

09-24

2835

pytorch 数据增强

参与评论您还未登录，请先登录后发表或查看评论

Python之numpy

weixin_38428439的博客

11-13

2412

Python之numpy

python to_numpy()方法 AttributeError: ‘tuple‘ object has no attribute ‘to_numpy‘

sinat_39027078的博客

04-11

1万+

最近在使用reportlib库生成PDF，表格部分使用该函数对数据进行转换，转换成指定格式以生成PDF中的表格。对数据产生以下错误： AttributeError: 'tuple' object has no attribute 'to_numpy' to_numpy()方法将数据转换为一个Numpy 数组该方法中有三个参数： 1、dtype:传递的数据类型，这个类型一般使用的是 DataFrame、Series 格式 2、copy:是否保存数据副本 3、na_value:可选用于缺失值

Python-----numpy函数库基础

zhourunan

04-23

1012

1. 安装numpy库：pip install numpy 2. 将numpy函数库中的所有模块引入：from numpy import *3. 构造一个4*4的随机数组：randArray = random.rand(4,4) print(randArray)4.mat()函数：将数组转化为矩阵：randMat = mat(random.rand(4,4)) print(randMat)5. ...

Python学习笔记5 【转载】基本矩阵运算_20170618

06-18

3448

需要 numpy 库支持保存链接 http://www.cnblogs.com/chamie/p/4870078.html 1.numpy的导入和使用 from numpy import *;#导入numpy的库函数 import numpy as np; #这个方式使用numpy的函数时，需要以np.开头。 2.矩阵的创建由一维或二维数据创建矩阵 ...

Python中Numpy数组转换成C++中OpenCV的Mat类型（超少代码，超快速度）

weixin_52101154的博客

02-17

8175

最近在做项目需要用python调用C++中的OpenCV源码，必须要将numpy类型的数组传到C++中才行，在网上找了一大圈方法，特别是这个大佬的代码： https://github.com/Algomorph/pyboostcvconverter 刚开始用这位大佬的代码，得经过重重编译才能使用，起初一直编译不成功，要么就编译成功了调用失败，折腾了三天，终于成功调用它的实例代码了，但是当我想改C++代码中的函数来实现自己的需求时，又失败了，在反复折磨下，我放弃了。后面自己还是慢慢摸索别的方法，终于！！

python常用模块(一) 数据处理 matplotlib numpy pandas

damonlearning的博客

01-09

902

如果要批量安装库的话，可以建立一个requirements.txt文件，里面写上 matplotlib==2.2.2 numpy==1.14.2 pandas==0.20.3 TA-Lib==0.4.16 tables==3.4.2 hdf5 jupyter==1.0.0 然后执行 pin install -r requirements.t...

前沿技术领域预训练模型的大数据分析助力

AI天才研究院

05-24

992

在当今科技飞速发展的时代，前沿技术领域如人工智能、机器学习、自然语言处理等取得了巨大的进展。预训练模型作为其中的关键技术，已经在多个领域展现出强大的性能。然而，预训练模型的训练和优化需要大量的数据支持，大数据分析则为其提供了从海量数据中提取有价值信息的手段。本文的目的是全面探讨大数据分析如何助力前沿技术领域的预训练模型，包括模型的训练、评估和应用等方面。范围涵盖了常见的预训练模型架构，如Transformer、BERT等，以及大数据分析的主要方法和技术。

《28天玩转TensorFlow2》第7天：TensorFlow2构建数据管道—Numpy array格式

AnFany

07-04

477

tf.data提供了快速、灵活、易于使用的数据管道，同时还提供同步的训练，所谓同步训练就是利用CPU处理数据，供给GPU或者TPU(如果有的话)来训练数据。将数据集转变为数据管道的形式，有助于提升训练的效率。下面通过实例Numpy array格式数据集如何构建数据管道，以及数据的预处理、模型的训练和最终结果的展示。实例：数字0-9和字母A-Z识别数据集说明：该数据集有36个类别标签：数字0-9，字母A-Z；每个类别对应一个数组，数组的长度为39，也就是说每个类别有39个样本；数组的元素是一个维度

mat文件和numpy 文件相互转换：

qwx1314的博客

05-20

6971

import scipy.io as io matr = io.loadmat('file_name.mat') #假设字典中'data'是你要的数据： data = matr['data'] #转换为.npy文件： import numpy as np numpy_data = np.transpose(data) #保存为numpy数组文件（.npy文件） np.save('numpy_data.npy',numpy_data) # .npy 文件转换为.mat文件： #加载.npy文件： numpy_

numpy之python矩阵(mat)操作

开飞机的小毛驴儿

01-23

2282

转载自：https://blog.youkuaiyun.com/qq_38150441/article/details/79893747，本文只做个人记录学习使用，版权归原作者所有。 1.numpy的导入和使用 from numpy import * #导入numpy的库函数 import numpy as np 2.矩阵的创建 from numpy import * a1=array([1,...

python将numpy.ndarray数据保存为.mat格式，和.mat数据的读取(附代码)

最新发布

07-14

<think>我们正在讨论如何在PyCharm中加载和使用数据集。根据引用内容，我们可以看到几个不同的例子： 1. 引用[1]展示了如何加载图片和JSON标注文件的数据集（CIFAR10格式），使用torchvision.datasets。 2. 引用[2]展示了如何加载.mat文件（MATLAB格式）的数据集，使用h5py库。 3. 引用[3]和[4]则提到了一些与Git和Spark相关的操作，但并不是直接关于数据集加载的。因此，我们需要根据不同的数据集类型（如图片、文本、MATLAB文件等）来采取不同的加载方法。步骤： 1. 确定数据集的格式（如：图片、CSV、JSON、MATLAB的.mat等）。 2. 根据格式选择合适的库和加载方法。 3. 在PyCharm中编写代码加载数据集。下面我将分别介绍几种常见数据集的加载方法： ### 1. 加载图片数据集（如CIFAR10格式）通常，对于图片数据集，我们可以使用`torchvision.datasets`（PyTorch）或`tensorflow.keras.preprocessing.image_dataset_from_directory`（TensorFlow）来加载。以PyTorch为例，如果数据集已经按照类别分文件夹存放（每个类别的图片在一个文件夹中），可以使用`torchvision.datasets.ImageFolder`。 ```python import torchvision from torchvision import transforms # 定义数据转换 transform = transforms.Compose([ transforms.Resize((32, 32)), # 调整图片大小 transforms.ToTensor(), # 转换为Tensor ]) # 加载数据集 train_dataset = torchvision.datasets.ImageFolder(root='path/to/train_data', transform=transform) test_dataset = torchvision.datasets.ImageFolder(root='path/to/test_data', transform=transform) ``` 如果数据集是像CIFAR10那样已经打包好的，可以直接使用`torchvision.datasets.CIFAR10`。 ```python train_dataset = torchvision.datasets.CIFAR10(root='./data', train=True, download=True, transform=transform) ``` ### 2. 加载.mat文件（MATLAB格式）使用`h5py`或`scipy.io`库来加载.mat文件。如果.mat文件是使用MATLAB 7.3格式保存的（即HDF5格式），则使用`h5py`（如引用[2]所示）： ```python import h5py import numpy as np with h5py.File('path/to/EEG_data.mat', 'r') as f: EEG_data = f['EEG_data'][:] # 假设数据集中有一个名为'EEG_data'的变量 EEG_data = np.array(EEG_data) ``` 如果.mat文件是旧版MATLAB格式，则可以使用`scipy.io`： ```python from scipy.io import loadmat mat_data = loadmat('path/to/your_file.mat') EEG_data = mat_data['EEG_data'] # 假设数据集中有一个名为'EEG_data'的变量 ``` ### 3. 加载CSV文件使用`pandas`库加载CSV文件非常方便。 ```python import pandas as pd df = pd.read_csv('path/to/data.csv') ``` ### 4. 加载JSON文件使用Python内置的`json`模块。 ```python import json with open('path/to/data.json', 'r') as f: data = json.load(f) ``` ### 5. 加载文本文件（如TXT）直接使用Python的文件操作。 ```python with open('path/to/data.txt', 'r') as f: lines = f.readlines() ``` ### 在PyCharm中的操作步骤 1. 在PyCharm中创建一个Python项目。 2. 将数据集文件放在项目目录中（或指定路径）。 3. 根据数据集格式编写加载代码。 4. 运行代码进行测试。 ### 注意事项 - 确保安装了必要的库（如`torchvision`, `h5py`, `scipy`, `pandas`等），可以通过PyCharm的终端使用`pip install`安装。 - 注意文件路径的正确性，可以使用绝对路径或相对路径（相对于项目根目录）。 ### 示例：加载自己的图片数据集假设我们有一个猫狗分类的数据集，目录结构如下： ``` data/ train/ cat/ cat001.jpg ... dog/ dog001.jpg ... test/ ... (类似train) ``` 则加载代码为： ```python import torchvision from torchvision import transforms transform = transforms.Compose([ transforms.Resize((224, 224)), transforms.ToTensor(), ]) train_dataset = torchvision.datasets.ImageFolder(root='data/train', transform=transform) ``` ### 总结在PyCharm中加载数据集，首先需要知道数据集的格式，然后选择相应的库和方法。常见的格式包括图片、CSV、JSON、.mat等，每种格式都有对应的处理库。 §§相关问题§§ 1. PyCharm中如何加载CSV格式的数据集？ 2. 如何使用PyTorch在PyCharm中加载自定义图片数据集？ 3. 在PyCharm中加载.mat文件时遇到错误怎么办？ 4. 如何将加载的数据集用于机器学习模型的训练？</think>在PyCharm中加载和使用数据集的方法取决于数据集格式和用途。以下是常见场景的解决方案： ### 1. 加载图片数据集（如CIFAR10格式） ```python from torchvision import datasets, transforms # 定义数据转换 transform = transforms.Compose([ transforms.ToTensor(), transforms.Normalize((0.5,), (0.5,)) ]) # 加载数据集 train_dataset = datasets.ImageFolder( root='path/to/train_data', # 训练集路径 transform=transform ) test_dataset = datasets.ImageFolder( root='path/to/test_data', # 测试集路径 transform=transform ) ``` > 适用场景：图像分类任务，目录结构应为 `类别/图片.jpg`[^1] ### 2. 加载.mat文件（MATLAB格式） ```python import h5py import numpy as np def load_mat_file(file_path): with h5py.File(file_path, 'r') as f: # 假设数据存储在'EEG_data'字段 data = np.array(f['EEG_data'][:]) return data # 使用示例 eeg_data = load_mat_file("E:/DEAP_matlab/data_preprocessed_matlab/EEG_data.mat") print(eeg_data.shape) # 输出数据维度 ``` > 注意：MATLAB 7.3格式需用h5py，旧版用scipy.io.loadmat[^2] ### 3. 加载CSV/TXT数据集 ```python import pandas as pd # 加载CSV df = pd.read_csv('dataset.csv') # 加载文本数据 with open('text_data.txt', 'r') as f: text_data = f.readlines() ``` ### 4. 使用PyTorch DataLoader ```python from torch.utils.data import DataLoader # 创建数据加载器 train_loader = DataLoader( train_dataset, batch_size=32, shuffle=True ) # 使用示例 for images, labels in train_loader: # 训练模型 pass ``` ### 5. 处理JSON标注文件 ```python import json with open('annotations.json') as f: annotations = json.load(f) # 提取标注信息 for item in annotations['items']: image_path = item['image_path'] label = item['label'] ``` ### 最佳实践 1. **路径处理**：使用绝对路径或项目相对路径 ```python import os dataset_path = os.path.join(os.getcwd(), 'data', 'dataset') ``` 2. **数据预处理**：使用`torchvision.transforms`进行图像增强 3. **内存管理**：大数据集使用生成器或分块加载 4. **版本控制**：将数据路径添加到.gitignore，避免上传大文件[^3]