
机器学习
文章平均质量分 88
记录机器学习算法相关的心得和学习记录
颜妮儿
学不完,根本学不完
展开
-
输出数值类型的算法评价指标
predict_prob_matrix是模型预测的数值结果,test_target是测试集对应的真正值。由于算法的输出数值类型的,所以阈值的确定影响着算法的效果。由二分类问题中的分类结果混淆矩阵引申,得到。以后直接上这儿粘贴了,为偷懒打下基础。直接从算法的代码中粘贴过来了。在该算法中的最大值称为。原创 2022-10-17 15:22:41 · 461 阅读 · 1 评论 -
论文笔记:多标签学习——LIFT算法
原文见 Zhang, M.-L., & Wu, L. (2015). LIFT: Multi-label learning with label-specific features. IEEE Transactions on Pattern Analysis and Machine Intelligence, 37, 107–120.在线地址特点把多标签问题转换成了多个二分类问题。关键步骤符号系统主要过程:Step1: 将数据集分为标签含有lk(k∈[0,q])l_k(k\in[0,q])lk(k∈原创 2022-06-26 22:16:01 · 1485 阅读 · 1 评论 -
机器学习——ALEC
ALEC是老师和师兄师姐发布的一篇关于主动学习的源代码,论文地址。主动学习:是介于监督学习和非监督学习之间的一种特殊情况。由于标记样本需要耗费大量的人力和时间,所以提出了主动学习,获取部分样本的标签,期望能得到不弱于监督学习的效果。与半监督学习的联系与区别:联系:主动学习和半监督学习都是从未标记的样本实例中挑选部分价值量高的样例标注后补充到已标记样例集中来提高分类器精准度,降低标注样本的工作量。区别:主动学习需要人工进行精准标注,不会引入错误类标;半监督学习是通过具有一定分类精度的基准分类器实现对未原创 2022-06-22 20:47:59 · 633 阅读 · 3 评论 -
机器学习——AdaBoosting
AdaBoosting算法是一种集成算法。集成算法是通过构建并结合多个学习器来完成学习任务,就是“三个臭皮匠赛过诸葛亮”的思想。原创 2022-06-08 15:38:50 · 1237 阅读 · 2 评论 -
机器学习——朴素贝叶斯算法
概率论相关知识点条件概率:A,B为两个事件,且P(A)>0P(A)\gt 0P(A)>0,称P(B∣A)=P(AB)P(A)P(B|A)=\frac{P(AB)}{P(A)}P(B∣A)=P(A)P(AB)为在事件A发生的条件下事件B发生的条件概率。事件的独立性:若A,B两个事件相互独立,则P(AB)=P(A)P(B)P(AB)=P(A)P(B)P(AB)=P(A)P(B),。贝叶斯公式:设B1,B2,⋯ ,BnB_1,B_2,\cdots,B_nB1,B2,⋯,Bn为样本空间中概原创 2022-05-13 21:33:06 · 1454 阅读 · 1 评论 -
机器学习——kMeans聚类
相关概念无监督学习无监督学习是从无标注的数据中学习数据的统计规律或者说内在结构的机器学习,主要包括聚类、降维、概率估计。无监督学习可以用于数据分析或者监督学习的前处理。聚类聚类(clustering)是针对给定的样本,一句他们特征的相似或距离,将其归并到若干个簇的数据分析问题。直观上,相似的样本聚集在相同的簇,不相似的样本分散在不同的簇。因此,样本之间的相似度或距离起着重要作用。相似度和距离的衡量:样本矩阵XXX的表示:X=[xij]m×n=[x11x12⋯x1nx21x22⋯x2n⋮⋮⋮xm原创 2022-05-11 23:42:25 · 456 阅读 · 1 评论 -
机器学习——决策树(ID3)的实现
相关定义的补充:熵在信息论与概率统计中,熵(entropy)是表示随机变量不确定性的度量。设XXX是一个取有限个值的离散随机变量,其概率分布为:P(X=xi)=pi,i=1,2,⋯ ,nP(X=x_i)=p_i,i=1,2,\cdots ,nP(X=xi)=pi,i=1,2,⋯,n,则随机变量XXX的熵定义为:H(X)=−∑i=1npi log pi,(其中,对数以2为底或e为底)H(X)=-\sum\limits_{i=1}^np_i\ log\ p_i,(其中,对数以2为原创 2022-05-09 19:24:37 · 1657 阅读 · 0 评论 -
机器学习——基于M-distance的推荐
算法出处:导师和师姐发表的一篇论文场景:让我们根据当前的评分表预测?\color{Red}??的值。数据描述:U={u0,u1,u2,u3,u4}U=\{u_0,u_1,u_2,u_3,u_4\}U={u0,u1,u2,u3,u4}表示参与评分的用户数据集;M={m0,m1,m2,m3,m4,m5}M=\{m_0,m_1,m_2,m_3,m_4,m_5\}M={m0,m1,m2,m3,m4,m5}表示被评阅的电影数据集;矩阵RRR表示评分矩阵:R=(ri,j)n×m,0≤原创 2022-05-06 23:14:07 · 824 阅读 · 1 评论 -
机器学习——k-NN思想及实现(基于Java)
k近邻法(k-nearest neighbors,k-NN)是一种基本分类与回归方法。输入:实例的特征向量,对应于特征空间的点;输出:实例的类别。在分类时,对新的实例,根据其k个最近邻的训练实例的类别,通过多数表决等方式进行预测。在回归时,对新的实例,根据其k个最近邻的训练实例的平均值决定。两者的代码大同小异,当前实现的分类问题中的k近邻算法。数据准备:下载地址类的构造函数及实现数据的读入public KnnClassification(String paraFilename) { tr原创 2022-05-05 22:22:53 · 937 阅读 · 1 评论 -
理发师悖论、算法笔记
理发师悖论悖论描述:岛上唯一的理发师是只给那些不会给自己理发的人理发。悖论的产生:如果理发师只给别人理发,那么他就成了不会给自己理发的人,与他会给那些不会给自己理发的人理发相矛盾;如果理发师给自己理发,但他自己是会理发的人,与他只给不会给自己理发的人理发相矛盾。集合表示:每个人都是一个集合,其元素是不能给自己理发,理发师的元素是岛上所有不属于自身的所有集合,如果理发师的元素不包括自己,那么违背了“理发师的元素包括了所有不属于自身的集合”,如果包括了自己,就说明理发是包括了属于自身的原创 2022-03-30 13:40:01 · 2170 阅读 · 2 评论 -
Python糖尿病人预测是否患癌症
Python糖尿病人预测是否患癌症统计回归分析的任务,就在于根据x1.x2,x3...xp线性回归和Y的观察值,去估计函数f,寻求变量之间近似的函数关系。我们常用的是,假定f函数的数学形式已知,其中若干个参数未知的观察值去估计未知的参数值。这叫“参数回归”。其中应用最广泛的是f为线性函数的假设:这种情况叫“线性回归”。自变量只有一个时,叫一元线性回归:自变量有多个时,叫做端元线...原创 2018-12-16 19:10:51 · 1574 阅读 · 1 评论 -
机器学习——逻辑回归(Logistic Regression)
逻辑回归用于二分类问题,用于判断一个离散性的特征得到的标签类型的概率。, 被称为sigmoid函数,Logistic Regression 算法是将线性函数的结果映射到了sigmoid函数中。sigmoid的函数图形如下:我们可以看到,sigmoid的函数输出是介于(0,1)之间,中间值是0.5。所以我们可以用sigmoid函数来表示样本数据的概率密度。1.读取数据...原创 2018-11-25 12:25:44 · 997 阅读 · 0 评论 -
一元线性回归
线性回归也被称为最小二乘法回归(Linear Regression,also called Ordinary LeastSquares(OLS)Regression).它的数学模型是这样的:y=a+b*x+e,其中,a被称位常熟项或截距、b被称为模型的回归系数或斜率、e为误差项。a和b是模型的参数,当然,,模型的参数只能从样本中估计出来:y’=a’+b’*x,我们的目标是选择合适的参数,让这一...原创 2018-11-23 17:18:07 · 1357 阅读 · 0 评论 -
机器学习——多元线性回归
线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个分成为回归系数的模型参数的现行组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。回归结果度量(针对回归问题的评价测度):平均绝对误差(Mean Absolute Error,NAE),对应方法:metrics...原创 2018-11-20 17:24:34 · 1561 阅读 · 0 评论