数据挖掘方法与右删失数据插补策略研究
在当今数字化时代,数据的重要性不言而喻。无论是金融领域的风险评估,还是生物统计学中的研究分析,数据都扮演着关键角色。然而,数据的质量和完整性却常常面临挑战,如金融数据中的欺诈检测问题以及生物统计数据中的右删失数据问题。本文将深入探讨多种数据挖掘方法在信用卡欺诈检测中的应用,以及一种新的右删失数据插补策略。
常见数据挖掘方法介绍
- 贝叶斯网络(Bayes Net) :也被称为图形模型,可从数据集中构建模型,还能通过有向无环图处理随机检查及其条件和一致性问题。
- K 近邻算法(K - NN) :基于 k 值差异来衡量样本数据点所在类别中最近邻的数量。数据样本需存储在内存中,并根据样本信息范围分配权重。当给定一个未知样本时,k 分类近邻会在模式空间中寻找与该未知样本最接近的 k 个样本,“接近性”通过欧几里得距离来确定。
- 逻辑回归(Logistic Regression,LR) :一种监督评级方法,用于返回二元因变量的概率。它基于逻辑回归独立数据集进行估计,预测结果为两个值(如 0 或 1、是或否、假或真)的相似性。与线性回归类似,但线性回归得到的是直线,而逻辑回归呈现的是曲线。
- 随机森林(Random Forest,RF) :由多个决策树组成。建立多个决策体并汇总结果以得到最终结果。当标记一个新样本时,将其作为一棵树放入森林中,所有树分别对类别进行评级,选择效率最高的对象。该分类器在处理具有不同特征的大型不均衡数据集时,具有良好的计算速
超级会员免费看
订阅专栏 解锁全文
21

被折叠的 条评论
为什么被折叠?



