Perfect Sampling in SPH (完美采样)

Original post: https://forum.taichi-lang.cn/t/pcisph/2092/3

介绍下背景:SPH中粒子半径和支撑半径是有关系的,一般取粒子半径的4倍为支撑半径。其依据就是下面所谓的完美采样。由于SPH是靠粒子携带数据,再通过粒子平均得到场数据的。但粒子有时多有时少,就会出现欠采样和过采样的问题。而过采样或欠采样,总要有个衡量的标杆吧?完美采样说的就是认为采样充足的时候,粒子该是什么样的一个密度。

PS:背景中画出的网格(实际上SPH本质上不需要网格,但用网格加速邻域搜索的时候也可以用网格),可以看成是MPM等方法借助的背景网格的一个间距,取粒子直径大小。

参照SPLISHSPLASH那个库,又学习了一下它的代码,于是发现所谓perfect sampling是这样的:

PCI

(画出来结果和mzhang 助教 所说一致)

蓝色小圈代表邻居粒子

橙色小圈是当前粒子

黑色大圈是核半径

这里取粒子半径为0.025

核半径是粒子半径的四倍

只要比较各个蓝色小圆的中心点是不是在黑色大圈里面就行了

于是这就是perfect sampling(SplishSPlasH的)

画图的代码如下

# https://forum.taichi-lang.cn/t/pcisph/2092/3

import numpy as np
import math
import matplotlib.pyplot as plt

def circle(x,y,r,color='k',count=1000):
    xarr=[]
    yarr=[]
    for i in range(count):
        j = float(i)/count * 2 * np.pi
        xa
<think>好的,用户想了解欠采样(under-sampling算法的种类,特别是机器学习中的相关方法。首先,我需要回忆一下常见的欠采样技术,并参考之前提供的引用内容来确保准确性。根据引用[2],里面提到了一些具体的欠采样函数,比如RandomUnderSampler、CondensedNearestNeighbour、TomekLinks等。这些应该都是不同的算法。另外,引用[4]和[5]也提到了EasyEnsemble、BalanceCascade、NearMiss等集成或更高级的方法。我需要将这些分类整理,可能分成传统方法和集成方法,或者基于不同的策略来分类。首先,列出每个算法的名称和简要描述。例如,随机欠采样是最基础的,直接随机删除多数类样本。然后,像Tomek Links可能是清除重叠样本,而NearMiss可能基于距离选择样本。集成方法如EasyEnsemble使用多个子集来保留更多信息。需要注意引用中的具体内容,如引用[4]详细解释了EasyEnsemble和BalanceCascade的工作原理,而引用[5]提到了CondensedNearestNeighbour和Tomek Links。需要确保每个算法的描述准确,并正确引用对应的来源。然后,用户可能需要了解每个算法的基本思想,所以需要简明扼要地解释每个方法的核心机制。例如,TomekLinks是移除与少数类样本相近的多数类样本,以减少类别间的重叠。另外,用户可能想知道如何在实际中使用这些算法,所以可以提到对应的Python库,如imbalanced-learn(imblearn),并引用相关的代码示例,如引用[1]、[2]、[5]中的代码片段。最后,生成相关问题时要考虑用户可能的后续需求,比如比较不同算法、选择合适的场景、处理信息丢失的问题等。需要确保问题能够引导用户进一步深入学习。</think>### 欠采样算法种类详解 欠采样(Under-sampling)是处理类别不平衡问题的重要技术,通过减少多数类样本数量实现类别平衡。以下是常见算法分类及核心原理: --- #### **一、基础随机方法** 1. **随机欠采样(RandomUnderSampler)** - 直接随机删除多数类样本,使其数量与少数类接近。 - **优点**:简单高效;**缺点**:可能丢失重要信息[^1]。 ```python from imblearn.under_sampling import RandomUnderSampler rus = RandomUnderSampler(random_state=42) X_resampled, y_resampled = rus.fit_resample(X_train, y_train) ``` --- #### **二、基于样本筛选的改进方法** 2. **Tomek Links** - 移除与少数类样本形成Tomek Link(即最近邻属于不同类别)的多数类样本,减少类别重叠[^2]。 ```python from imblearn.under_sampling import TomekLinks tl = TomekLinks() X_res, y_res = tl.fit_resample(X, y) ``` 3. **NearMiss** - 根据距离选择多数类样本: - **NearMiss-1**:保留与少数类样本最近的多数类样本。 - **NearMiss-2**:保留与少数类样本最远的多数类样本。 - **NearMiss-3**:动态平衡距离和分布[^2][^4]。 4. **CondensedNearestNeighbour (CNN)** - 迭代删除被1-NN分类器正确分类的多数类样本,保留边界样本[^5]。 ```python from imblearn.under_sampling import CondensedNearestNeighbour cnn = CondensedNearestNeighbour(random_state=42) X_res, y_res = cnn.fit_resample(X, y) ``` --- #### **三、集成学习方法** 5. **EasyEnsemble** - 将多数类样本划分为多个子集,每个子集与少数类组合训练基分类器,最终集成结果,避免信息丢失[^4]。 6. **BalanceCascade** - 结合Boosting机制,每一轮剔除被正确分类的多数类样本,逐步优化样本选择[^4]。 --- #### **四、聚类与原型生成** 7. **Cluster Centroids** - 对多数类进行聚类,用聚类中心代替原始样本,减少冗余[^1]。 8. **InstanceHardnessThreshold** - 基于分类模型预测概率删除易分类的多数类样本,保留难样本[^2]。 --- #### **五、其他高级方法** 9. **EditedNearestNeighbours (ENN)** - 删除被K近邻分类器误分类的样本,清理噪声[^2]。 10. **NeighbourhoodCleaningRule** - 结合ENN和Tomek Links,优先删除噪声和边缘样本[^2]。 --- ### 关键选择建议 - **高维度数据**:优先使用NearMiss或Cluster Centroids。 - **避免信息丢失**:选择集成方法如EasyEnsemble。 - **类别重叠严重**:使用Tomek Links或ENN。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值