pandas随机抽取数据和打乱数据

本文介绍了如何使用pandas的DataFrame.sample方法进行数据随机抽样,以及在机器学习中如何通过reset_index(drop=True)打乱数据,并进行数据切割。同时提到了sklearn库中的shuffle方法作为补充。

一,pandas.DataFrame.sample 随机选取若干行

1 数据切片选取

1.1    pandas.DataFrame.sample 随机选取若干行

1.1.1 功能说明
有时候我们只需要数据集中的一部分,并不需要全部的数据。这个时候我们就要对数据集进行随机的抽样。pandas中自带有抽样的方法。

功能相似:numpy.random.choice
Generates a random sample from a given 1-D numpy array.

1.1.2 使用说明
1 函数名及功能
2.

DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)[source]
  
n是要抽取的行数。(例如n=20000时,抽取其中的2W行)

frac是抽取的比列。(有一些时候,我们并对具体抽取的行数不关系,我们想抽取其中的百分比,这个时候就可以选择使用frac,例如frac=0.8,就是抽取其中80%)

replace:是否为有放回抽样,取replace=True时为有放回抽样。

weights这个是每个样本的权重,具体可以看官方文档说明。

random_state这个在之前的文章已经介绍过了。

axis是选择抽取数据的行还是列。axis=0的时是抽取行,axis=1时是抽取列(也就是说axis=1时,在列中随机抽取n列,在axis=0时,在行中随机抽取n行)

参数说明见链接:https://blog.youkuaiyun.com/zhengxu25689/article/details/87347700

  1. 返回值说明
    返回选择的N行元素的DataFrame对象。
  2. </
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值