
数据挖掘
xudonglovedandan
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Pycaret使用教程
文档链接:https://pycaret.org/setup/模块介绍:1.数据导入#Importing data using pandasimport pandas as pd data = pd.read_csv('c:/path_to_data/file.csv’) #Loading data from pycaretfrom pycaret.datasets import get_datadata = get_data('juice’) 2.导入模型模块#原创 2020-06-21 22:24:13 · 9443 阅读 · 6 评论 -
过拟合和欠拟合处理方法
过拟合和欠拟合处理方法1.过拟合和欠拟合过拟合是指模型对于数据拟合过当的情况,模型在训练集上的表现很好,但在测试集和新数据集上表现较差。而欠拟合指的是在训练和预测时表现都不好的情况。2.解决过拟合的方法(1)从数据入手,增加更多的训练数据,这是解决过拟合问题最有效的手段,一方面是直接增加数据,二是通过一定的规则来扩充训练数据,例如,在图像分类的问题中,可以通过图像的平移、旋转、缩放等方式来...原创 2020-03-26 19:07:26 · 894 阅读 · 0 评论 -
浅谈标签传播算法:LPA
标签传播算法:LPA1.半监督学习让学习器不依赖外界交互,自动的利用未标记样本来提升学习性能,这种就是半监督学习,主要用来处理现实中有标记数据少、未标记数据多的问题,要利用未标记的数据,必须要做一些将未标记样本所揭示的数据分布信息与类别标签相联系的假设。它基于三大假设:a)Smoothness平滑假设:相似的数据具有相同的label。b)Cluster聚类假设:处于同一个聚类下的数据具有相...原创 2020-03-26 15:54:21 · 1095 阅读 · 0 评论 -
Apriori算法:关联分析算法
Apriori算法Agrawal与Srikant于1994年提出,为布尔关联规则挖掘频繁项集的原创性算法,使用一种称为逐层搜索的迭代方法,其中k项集用于探索k+1项集。主要思想是找出存在于事务数据集中的最大的频繁项集,再利用得到的最大频繁项集和预先设定的最小置信度阈值生成强关联规则1. 重要概念(1)关联规则支持度和置信度项集A、B同时发生的概率称为关联规则的支持度Support(A−...原创 2020-03-25 01:52:46 · 1720 阅读 · 0 评论 -
类别不平衡问题处理方法
类别不平衡问题处理方法1.基础概念类别不均衡是指在分类学习算法中,不同类别样本的比例相差悬殊,它会对算法的学习过程造成重大的干扰。比如在一个二分类的问题上,有1000个样本,其中5个正样本,995个负样本,在这种情况下,算法只需将所有的样本预测为负样本,那么它的精度也可以达到99.5%,虽然结果的精度很高,但它依然没有价值,因为这样的学习算法不能预测出正样本。这里我们可以知道不均衡问题会导致样...原创 2020-03-24 18:09:23 · 2961 阅读 · 0 评论