
数据挖掘学习
文章平均质量分 89
总结数据挖掘课程中的重点
kaka_hikun
这个作者很懒,什么都没留下…
展开
-
集成学习算法
训练完成后,它会计算错误分类的样本的权重,并提高这些错误分类样本的权重,以便下一轮迭代中更关注它们。训练过程中,会调整区域的权重,使错误分类的区域在下一轮中得到更多的关注。集成学习的核心思想是,通过组合多个模型,可以弥补单个模型的局限性,减少模型的偏差和方差,从而获得更稳定、更准确的预测。计算基本模型的权重:对于每个基本模型,Adaboost 会计算一个权重,表示这个模型在最终预测中的重要性。加权组合:在最终的预测中,Adaboost 将每个基本模型的预测结果按照其权重进行组合,从而得到最终的分类结果。原创 2023-12-20 15:17:02 · 864 阅读 · 0 评论 -
进化算法(遗传算法)
遗传算法(GA)是一种进化算法,其基本原理是仿效生物界中的“物竞天择、适者生存”的演化法则。原创 2023-12-20 14:47:19 · 746 阅读 · 0 评论 -
推荐算法Recommended Algorithms
然后,在每次迭代中,网页根据其出链(指向其他网页的链接)和这些链接指向的网页的权重来更新自己的权重。其中,U矩阵表示词语和隐含语义的关系,Σ矩阵是一个对角矩阵,表示奇异值的重要性,V矩阵表示文档和隐含语义的关系。词-文档矩阵:LSA 的输入是一个词-文档矩阵,其中每一行代表一个文档,每一列代表一个词语,矩阵中的元素表示词在文档中的出现频率或权重。链接图(Link Graph):PageRank 算法将互联网视为一个巨大的链接图,其中每个网页表示为图中的一个节点,每个超链接表示为图中的一条边。原创 2023-12-20 14:05:52 · 934 阅读 · 0 评论 -
关联规则Apriori算法
由项组成的集合,如{A,B,E,F},{A,B.C}就是一个项集。:所有的流水记录构成的集合。理解为B在A发生的基础上再发生的概率与B单独发生概率的比值。: 用来生成频繁K项集的K项集。( 不等价与所有K项集):项集中元素的个数为K,如{A,B,E,F}就是4项集。:如果X是一个频繁K项集,则它的所有子集一定也是频繁的。:如果X不是K-1项频繁,则它一定不是频繁K项集。如X={A,C} 则 Sup (X)=:ABCD 叫做一条记录(事务)如X={A},Y={C)则。: 满足最小支持度的K项集。原创 2023-12-20 10:24:49 · 860 阅读 · 0 评论 -
支持向量机SVM
数据集:(X1,Y1)(X2,Y2)…(Xn,Yn)二分类问题:在二分类问题中,Y为样本的类别通常定义为1+11和−1-1−1。1+11表示一个类别,−1-1−1表示另一个类别。SVM 的目标是找到一个超平面,使得两个类别的数据点被正确地分开。多分类问题:对于多分类问题,可以使用一对一(One-vs-One)或一对多(One-vs-All)的策略,将多分类问题转化为多个二分类问题。决策方程在 SVM 中,决策方程基于支持向量和分离超平面定义。给定一个训练数据集x1。原创 2023-12-19 17:26:06 · 1530 阅读 · 0 评论 -
数据挖掘体系介绍
特别是在这个大数据时代,当数据多到一定程度,统计学原理会让一些内在的、不易察觉的规律慢慢放大、展示出来,而数据挖掘,就是希望在这种大数据背景下,以一种更加高效的方式,找到这些潜在的规律。F1分数(F1 Score):精确性和召回率的调和平均值,是一个综合考虑精确性和召回率的指标。这些步骤将非结构化的文本数据转换为结构化的数值格式,便于进一步的分析和建模。数据预处理是数据挖掘流程中至关重要的环节,其目的在于将原始数据转换成更适合分析的形式,以提高后续建模的效果和准确性。原创 2023-12-18 15:52:39 · 1337 阅读 · 0 评论 -
聚类算法-kmeans
密度可达:若有一个点的序列q0、q1、…qk,对任意qi-gi-1是直接密度可达的则称从q0到qk密度可达,这实际上是直接密度可达的“传播”基本概念: ( Density-Based Spatial Clustering of Applications with Noise)直接密度可达:若某点p在点g的 r 邻域内,且q是核心点则p-q直接密度可达。(即r邻域内点的数量 ≥ minPts)e-邻域的距离阈值:设定的半径r。核心对象:若某个点的。原创 2023-11-09 00:34:34 · 89 阅读 · 0 评论 -
神经网络算法
K近邻计算流程1.计算已知类别数据集中的点与当前点的距离2.按照距离依次排序3.选取与当前点的K个点4.确定点所在类别的出现概率5.返回前K个点出现的类别作为当前点预测分类k近邻不知道图像中哪一部分是主体,哪一部分是背景,因为这个算法不会学习不适合做图像分类数据库样例:CIFAR-10 笔记本可以运行的数据集线性函数:从输入–>输出的映射f(x,W)=Wx+b类比于y=kx+bW:权重参数,起决定性b:偏置参数,微调这是分类任务,W是10。原创 2023-11-08 12:24:26 · 621 阅读 · 0 评论 -
从贝叶斯到决策树
定义:两个随机变量 X 和 Y 是独立的,当且仅当对于所有的 x 和 y,它们的联合概率分布等于它们各自边缘概率分布的乘积例子假设我们有两个骰子:一个红色的和一个绿色的。我们把红色骰子掷出的点数记作随机变量 X,绿色骰子掷出的点数记作随机变量 Y。在这个例子中,X 和 Y 是独立的,因为红色骰子掷出某个点数的概率不依赖于绿色骰子掷出的点数,反之亦然。举例:假如调查出的比率直观上表明男性的肺癌的概率是大于女性的,你会认为得肺癌和性别是不独立的。原创 2023-10-16 13:07:25 · 262 阅读 · 0 评论 -
数据处理+贪婪算法+主成分分析PCA+线性判别分析 (LDA)+Fisher 判别准则
数据脏:数据不完整,数据太多。原创 2023-10-12 13:54:44 · 218 阅读 · 0 评论