- 博客(5)
- 收藏
- 关注
原创 【欠采样方法】Condensed Nearest Neighbor Rule for Undersampling (CNN)
CNN 的目的是生成原数据集的子集,该子集可以让分类器正确对原始数据集中的所有数据点进行分类。
2025-02-20 15:23:13
969
原创 【机器学习】sklearn和scikit-learn
sklearn和有什么关系?有些资料里写的是sklearn,有些地方写的是scikit-learn,这让我有点困惑。
2025-02-12 09:49:35
234
原创 【机器学习】样本不均衡问题解决策略(欠采样方法总结)
在选择欠采样方法时,没有一个方法可以在所有情况下都普遍适用并效果最好。不同的欠采样方法在实际应用中的效果取决于数据的具体特征类分布情况噪声水平以及实际任务要求。不过,以下是对这些方法的优缺点和适用场景的综合分析,结合它们的特点,找出可能在不同场景下表现更突出的几种方法。如果数据包含噪声或边界模糊,推荐从ENN、NCR入手;如果少数类边界样本很重要,可尝试NearMiss 或 IHT;如果复杂度和计算资源不是问题,OSS、IHT是全方位的选择;
2025-02-11 16:59:25
1951
原创 【SQL】窗口函数
窗口函数是 SQL 中的一个高级功能,它可以在不对表的结果集进行分组的情况下,对查询结果中的每一行执行分析操作。窗口函数的作用范围是“窗口”(一组有逻辑意义的行)。通过窗口函数,可以实现排名、累计求和、移动平均等复杂的数据分析功能。
2025-02-07 18:37:00
2041
原创 【机器学习】样本不均衡问题解决策略(过采样方法总结)
样本不均衡在机器学习分类问题中常见,尤其是在二分类场景。比如欺诈检测、疾病诊断等,少数类样本数量远少于多数类。这种情况下,模型可能会偏向多数类,导致对少数类的预测效果差。980 条正常交易(负类,多数类)20 条欺诈交易(正类,少数类)此时正负类比例为 1:49,即典型的样本不均衡问题。如果模型将所有样本预测为正常交易,准确率高达 98%,但对欺诈交易的识别完全失败(召回率 0%)。这就是样本不均衡带来的陷阱。
2025-02-07 11:33:39
2293
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人