对DataFrame进行随机抽样(有放回的随机抽样,replacement): 使用pandas中的sample函数
在数据分析中,对于大规模的数据集,我们需要进行随机抽样以获得代表性的样本。Pandas库提供了一个名为sample()的方法,能够方便地实现DataFrame的随机抽样。
使用sample()方法的基本语法如下:
df.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)
参数 | 描述 |
---|---|
n | 抽取的行数 |
frac | 抽取的比例 |
replace | 是否放回抽样 |
weights | 随机采样权重 |
random_state | 随机种子 |
axis | 抽取的轴方向 |
其中,n和frac参数只需选择其中一个即可,用于指定抽取的行数或比例。replace参数默认为False,表示不放回抽样;如果设置为True,表示进行有放回的随机抽样。
下面是