2.2。数据预处理

最新推荐文章于 2023-10-19 21:51:30 发布

Monte0539

最新推荐文章于 2023-10-19 21:51:30 发布

阅读量397

点赞数

分类专栏：数据预处理深度学习数据操作

深度学习同时被 3 个专栏收录

11 篇文章

订阅专栏

数据操作

2 篇文章

订阅专栏

数据预处理

1 篇文章

订阅专栏

2.2。数据预处理

2.2.1。读取数据集

例如，我们首先创建一个人工数据集，该数据集存储在csv（逗号分隔值）文件中../data/house_tiny.csv。以其他格式存储的数据可以用类似的方式处理。以下 mkdir_if_not_exist功能确保该目录../data 存在。注释是一个特殊标记，其中以下函数，类或import语句也保存在包中，以便我们以后可以直接调用。

# Saved in the d2l package for later used2ld2l.mkdir_if_not_exist()

import os

# Saved in the d2l package for later use
def mkdir_if_not_exist(path):
    if not isinstance(path, str):
        path = os.path.join(*path)
    if not os.path.exists(path):
        os.makedirs(path)

下面，我们将数据集逐行写入csv文件。

data_file = '../data/house_tiny.csv'
mkdir_if_not_exist('../data')
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n')  # Column names
    f.write('NA,Pave,127500\n')  # Each row is a data point
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

为了从创建的csv文件加载原始数据集，我们导入 pandas包并调用该read_csv函数。该数据集具有44 行和 33 列，每行描述房间的the number of rooms (“NumRooms”), the alley type (“Alley”), and the price (“Price”

# If pandas is not installed, just uncomment the following line:
# !pip install pandas
import pandas as pd

data = pd.read_csv(data_file)
print(data)

   NumRooms Alley   Price
0       NaN  Pave  127500
1       2.0   NaN  106000
2       4.0   NaN  178100
3       NaN   NaN  140000

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Monte0539

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

动手深度学习笔记（二）2.2 数据预处理

juluwangriyue的博客

02-02

2100

动手深度学习笔记（二）2.2 数据预处理2. 预备知识2.2. 数据预处理2.2.1. 读取数据集2.2.2. 处理缺失值2.2.3. 转换为张量格式2.2.4. 小结2.5. 练习 2. 预备知识 2.2. 数据预处理 为了能用深度学习来解决现实世界的问题，我们经常从预处理原始数据开始，而不是从那些准备好的张量格式数据开始。在Python中常用的数据分析工具中，我们通常使用pandas软件包。像庞大的Python生态系统中的许多其他扩展包一样，pandas可以与张量兼容。本节我们将简要介绍使用pa

大规模语言模型从理论到实践数据预处理

AI天才研究院

05-28

220

在过去的几年里，大规模语言模型（LLM）已经取得了显著的进步。这些模型可以用于各种语言处理任务，例如机器翻译、文本摘要、问答系统、对话系统等。然而，构建这些模型需要进行大量的数据预处理。数据预处理是构建高效、准确的语言模型的关键步骤之一。它涉及到数据清洗、数据分割、数据增强等多个方面。在本文中，我们将探讨大规模语言模型从理论到实践的数据预处理过程。文本摘要是一种常见的语言处理任务，它涉及到将长文本简化为短文本。在大规模语言模型中，数据预处理可以提高文本摘要的准确性和效率。

参与评论您还未登录，请先登录后发表或查看评论

kc_house_data.csv.zip

01-05

jupyter机器学习房价预测的dataset数据

python学习1.1--将数据集写入csv文档中，从csv文档读取数据集，数据值缺失处理，转换为张量格式

qq_46617150的博客

10-14

2654

将数据集写入csv中，从csv中读取数据集

深度学习之数据操作

weixin_58824567的博客

10-19

get_dummies() 函数，它通常用于进行独热编码（One-Hot Encoding）将分类数据转换为数值数据，以便在机器学习模型中使用。这个维度的理解在处理多维数据时非常重要，因为它有助于你正确理解和操作数组的结构。对于一个 (2, 3, 4) 的数组，可以将它看作是一个三维数组，其中 dim=0。这是一个 Python 中用于创建目录（文件夹）的函数，它属于标准库中的。表示也会为缺失值（NaN）创建一个独立的列，以标记哪些行存在缺失值。它可以递归地创建多层目录，如果目录已经存在，它不会引发错误。

【动手学习深度学习】数据预处理知识补充——Pandas库

sumshine_的博客

09-14

776

Pandas 库是最常见的工具，提供了能够便捷地完成选取、重塑、切片、聚合等复杂精细的操作，对于深度学习来说，得到数据后要先进行数据预处理(数据清洗或做一些数据分析等)，认识数据。文中总结了一些我见过、用过的函数。

PyTorch学习：使用pytorch进行数据预处理

weixin_61838030的博客

09-17

858

本文基于jupiter，将从如何读取数据集、对数据集处理缺失值、将数据转为张量形式来完成对数据的预处理。其中用到的数据集有：house_tiny.csv、boston_house_prices.csv、Iris.txt。

动手学深度学习PyTorch版2.2数据预处理-笔记&练习详解-jupyter源代码

03-25

李沐老师动手学深度学习PyTorch版2.2数据预处理-笔记&练习详解-jupyter源代码

第二章：预备知识整理——2.2数据预处理

dtjgp92613的博客

05-12

702

数据预处理的课后习题为： 2.2.5.练习创建包含更多行和列的原始数据集。删除缺失值最多的列。将预处理后的数据集转换为张量格式。 1.该问题的解决，感谢https://blog.csdn.net/qq_42363032/article/details/106802178?ops_request_misc=&request_id=&biz_id=102&utm_term=csv%E6%96%87%E4%BB%B6%E6%AF%94%E8%BE%83%E6.

python transforms_2.2 图像预处理——transforms（笔记）

weixin_42537831的博客

01-28

2905

目录任务简介：熟悉数据预处理transforms方法的运行机制详细说明：本节介绍数据的预处理模块transforms的运行机制，数据在读取到pytorch之后通常都需要对数据进行预处理，包括尺寸缩放、转换张量、数据中心化或标准化等等，这些操作都是通过transforms进行的，所以本节重点学习transforms的运行机制并介绍数据标准化(Normalize)的使用原理。一、transforms运...

house_data.csv-数据集

03-28

太原理工大学，数据可视化作业

动手学习深度学习——2.2 数据预处理

DAOCHI

11-29

1731

2.2. 数据预处理 到目前为止，我们已经介绍了一些数据操作的技术，它们都被存为张量格式。为了应用深度学习解决现实世界的问题，我们需要处理原始数据，而不是被很好的存于张量之中的数据。在 Python 中流行的数据分析工具中，pandas 包是最常用的。像 Python 庞大的生态系统中的许多其他扩展包一样，pandas 可以处理张量数据。因此，我们将简要地介绍使用 pandas 预处理原始数据并将其转换为张量格式的步骤。我们将在后面的章节中介绍更多的数据预处理技术。 2.2.1. 读取数据集作为一个.

动手学深度学习-----数据预处理

qq_46446253的博客

07-23

358

区别于os.mkdir(path, mode=0o777, *, dir_fd=None)，只创建最后一层的目录。str：表示为分隔符，默认为空格，但是不能为空串。若字符串中没有分隔符，则把整个字符串作为列表的一个元素。语法：str.split(str=" ",num=string.count(str))[n]如果该文件不存在，创建新文件。如果存在参数num，则仅分隔成 num+1 个子字符串。，将join（）里面得参数拼接成一个完整得路径。递归创建目录,即路径中哪一层不存在，则自动创建。

【学习笔记（四）：《动手学深度学习 Pytorch版》线性代数】

qq_31514061的博客

03-21

388

【学习笔记（四）：《动手学深度学习 Pytorch版》线性代数】

Python 如何在创建.csv文件，并读取.csv文件

薰珞婷紫小亭子的博客

05-31

951

## 创建一个人工数据集，并存储在csv（逗号分割值）文件 import os os.makedirs(os.path.join('../LI MU','data'),exist_ok = True) #在相应的文件夹下，创建新的文件夹 data_file = os.path.join('../LI MU','data',"house_tiny.csv") with open(data_file,"w") as f: f.write('NumRooms, Alley,Price\n') #列名 .

动手学习深度学习pytorch最新版-数据处理

tangzhaotz的博客

06-16

214

#!H:\pytorch # -*- coding:utf-8 -*- #Author: Tangzhao #content:pytorch """ we begin by creating an artificial dataset that is stored in a csv (comma-separated values) file ../data/house_tiny.csv. Data """ import os def mkdir_if_not_exist(path): #@save

错误命令“if not exist "\Dll" mkdir "\Dll" xcopy "\bin\Debug\*.*" "F:\647\VS项目\EtrolMes2014SY\Framework\...

weixin_34013044的博客

08-18

571

分析错误第一步：观察错误，发现plugin文件夹中未生成对应的编译文件。第二步：XCOPY命令无法执行，百度xcopy为何无法执行第三步，搜索，发现环境变量未配置正确。就是环境变量path(大小写都可以，找到就行)进行添加“c:\windows\system32”！具体步骤为：我的电脑---右键---属性----高级----环境变量----在系统变量中找到path(不分大小写）--...

学习笔记-动手学深度学习-数据预处理

boomboomda2的博客

08-01

487

个人学习笔记

python 下利用os模块创建目录以及巧妙使用if not os.path.exits()创建

最新发布

03-31

### Python信号数据预处理方法与教程在Python中进行信号数据预处理是一项重要的技能，尤其是在涉及时间序列、传感器数据或其他动态测量的应用场景中。以下是几种常见的信号数据预处理技术及其对应的实现方式。 #### 1. 缺失值处理信号数据可能由于设备故障或传输错误而存在缺失值。可以利用`pandas`库填充这些缺失值。常用的方法包括前向填充（forward fill）、后向填充（backward fill）和插值法（interpolation）。 ```python import pandas as pd # 创建带有缺失值的时间序列数据 data = {'time': [0, 1, 2, 3, 4, 5], 'signal': [1.1, None, 2.2, None, 3.3, 4.4]} df = pd.DataFrame(data) # 前向填充 df_filled_ffill = df.fillna(method='ffill') # 插值法 df_interpolated = df.interpolate() print(df_filled_ffill) print(df_interpolated) ``` 这种方法适用于连续型信号数据的修复[^1]。 #### 2. 异常值检测与修正异常值可能会显著影响模型性能。可以通过统计学方法（如标准差范围外剔除）或者基于机器学习的技术来识别并修正它们。以下是一个简单的示例： ```python import numpy as np def detect_outliers_zscore(signal_data, threshold=3): mean_signal = np.mean(signal_data) std_signal = np.std(signal_data) z_scores = [(x - mean_signal) / std_signal for x in signal_data] outliers = [i for i, z in enumerate(z_scores) if abs(z) > threshold] return outliers outliers_indices = detect_outliers_zscore(df['signal'].dropna()) cleaned_signal = df.loc[~df.index.isin(outliers_indices), :] print(cleaned_signal) ``` 此部分借鉴了异常值处理的相关经验[^2]。 #### 3. 数据平滑化为了减少噪声干扰，通常会对信号应用滤波器。常用的有移动平均滤波和平滑指数加权移动平均（Exponential Weighted Moving Average, EWMA）。 ```python # 移动平均滤波 window_size = 3 smoothed_signal_ma = df['signal'].rolling(window=window_size).mean().fillna(method='bfill') # 指数加权移动平均 alpha = 0.8 smoothed_signal_ewma = df['signal'].ewm(alpha=alpha).mean() ``` 上述代码实现了两种不同的平滑算法[^3]。 #### 4. 特征工程——频率域变换许多情况下，原始时域特征不足以描述复杂模式。因此可采用傅里叶变换将信号转化为频谱表示形式。 ```python from scipy.fftpack import fft fft_result = fft(df['signal']) frequencies = np.fft.fftfreq(len(fft_result)) magnitude = np.abs(fft_result[:len(frequencies)//2]) plt.plot(frequencies[:len(magnitude)], magnitude) plt.xlabel('Frequency') plt.ylabel('Magnitude') plt.show() ``` 这一步骤能够揭示隐藏于高频分量中的规律性信息[^4]。 --- ###