
机器学习基础
文章平均质量分 84
闵帆
机器学习算法 Java 程序员
展开
-
基于序的评价指标 (特别针对推荐系统和多标签学习)
一些学习器为推荐系统或多标签学习输出的是实型预测. 如, 预测第 $i$ 个用户对第 $j$ 个项目的评分为 $4.2$, 或者预测第 $i$ 的样本的第 $j$ 个标签为正标签的概率为 $0.46$. 应如何评价预测的有效性? 本文描述几种基于序的评价指标 (Ranking-based evaluation measures) 的动机及物理意义....原创 2022-07-24 16:32:55 · 690 阅读 · 0 评论 -
机器学习训练与参数优化的一般过程 (讨论)
摘要: 在实际机器学习应用中, 不但要进行模型的训练, 还要进行输入参数的控制. 本文描述了一般性的过程, 仅供参考.原创 2022-07-03 06:19:34 · 577 阅读 · 0 评论 -
实际数据为什么难于处理?
在处理已经清洗好的数据, 特别是常见 UCI 数据时, 很多学习器都能获得挺好的效果. 然而, 一旦用于实际数据, 我们就会面对很多困难. 某些困难已经成为机器学习的核心问题, 但有些还得自己去根据实际情况想办法.1. 类别不平衡在二分类问题上, 类别不平衡是指正样本、负样本所占比例相差很大, 参见 误分类代价与类不均衡数据. 生物数据, 微生物数据, 医学数据等经常是类别不平衡的.在多标签学习问题上, 类别不平衡也称 “标签稀疏性”, 如有 1000 种可能的动物, 但某一张图片里面只有少数几种.原创 2022-04-01 11:08:58 · 1485 阅读 · 0 评论 -
NB 算法 (包括符号型与数值型, 结合 Java 程序分析)
摘要: 本贴结合例子与程序分析 NB 算法.原创 2022-03-10 17:43:13 · 911 阅读 · 0 评论 -
半监督学习之白话版 (图示)
用两张图来说明半监督学习有效的本质原因.原创 2022-01-15 20:06:31 · 1106 阅读 · 1 评论 -
多标签学习之数学语言版
使用数学语言描述多标签学习.原创 2022-01-04 23:10:14 · 597 阅读 · 0 评论 -
多标签学习之白话版
让妈妈和小白理解多标签学习.原创 2022-01-03 11:16:05 · 4513 阅读 · 2 评论 -
误分类代价与类不均衡数据
1. 例子先找一个百度百科的例子并进行适当修改.例 1 假如某个班级有男生 80 人, 女生 20 人, 共计 100 人. 目标是找出所有女生. 如何构建分类器?2. 二分类问题与准确率例 1 可以看作是一个二分类问题, 假设学习器 L1L_1L1 挑选出 30 个人, 其中 18 人是女生, 另外还错误的把 12 个男生也当作女生挑选出来了.其混淆矩阵为:Predicted \ actualYesNoYesTP=18TP = 18TP=18FP=12FP = 12原创 2021-09-15 20:33:39 · 1726 阅读 · 2 评论 -
F-measure 与代价敏感评价指标
以前都是直接使用 Accuracy, Precision, Recall, F1-measure 这些评价指标, 没有深究其原因, 更没有与误分类代价放在一起分析. 本贴就来杠这个事情.1. 例子先找一个百度百科的例子并进行适当修改.例 1 假如某个班级有男生 80 人, 女生 20 人, 共计 100 人. 目标是找出所有女生. 一号学习器 L1L_1L1 挑选出 30 个人,其中 18 人是女生, 另外还错误的把 12 个男生也当作女生挑选出来了. 作为评估者的你需要来评估(evaluation原创 2021-08-26 09:59:53 · 648 阅读 · 0 评论 -
如何度量变量之间的相关性
在百度中搜索 “如何度量两个实数变量之间的相关性?” 可得到如下链接:https://jingyan.baidu.com/article/fd8044facdc8d25030137a44.html. 可见相关性分析已经有一些成熟的方法. 本贴不考虑这些方法, 而是从我的已有知识来进行模型的构建.1. 相关性度量令输入为 X=[xij]n×m∈Rn×m\mathbf{X} = [x_{ij}]_{n \times m} \in \mathbb{R}^{n \times m}X=[xij]n×m∈Rn原创 2021-08-04 05:30:05 · 2964 阅读 · 0 评论 -
机器学习研究套路: 数据、场景、问题、方法
本文描述机器学习的一些研究套路, 仅代表个人比较偏激的观点.1. 场景、问题、方法在机器学习领域, 同一个名词可能同时代表了场景、问题和方法. 但我们还是应该尽可能把这几者区分开来.1.1 场景 Scenario用一个例子来说明几个场景.无监督学习 (unsupervised learning). 上午医院内科来了 nnn 个人就诊, 按照流程进行了 mmm 项检查. 需要根据检查指标将这些人分成几堆 (簇, cluster), 同一个簇的人越相似越好, 不同簇的人越不相似越好.说明: 无监督原创 2021-07-06 08:24:36 · 1258 阅读 · 0 评论 -
Rademacher复杂度极简例子
Rademacher复杂度极简例子动机例子分析(警告:本人为初学者,不保证本贴的正确性. 如有异议请留言, 感激不尽!)动机随机噪音对模型的影响.所谓随机噪音,就是把正例、负例进行随机的改变.例子图1. 样本与模型示意图如图1所示:X=[0,1]\mathcal{X} = [0, 1]X=[0,1].Y={−1,+1}\mathcal{Y} = \{-1, +1\}Y={−1,+1} 对应于两个决策类, 分别用三角型(负例)和圆圈(正例)标注.3个数据点: 0.03,3.5,6.00.原创 2020-07-14 11:56:16 · 1264 阅读 · 4 评论 -
L1正则项极简例子
L1正则项理解正则项动机物理含义例1 极端例子例2 一般情况正则项动机优化目标:minJ=J0+L=J(w)+α∣w∣\min J = J_0 + L = J(w) + \alpha |w|minJ=J0+L=J(w)+α∣w∣其中,J0J_0J0是指本身的最小化目标,它是关于www函数;LLL控制参数,避免过拟合。物理含义如图1所示,蓝色圆表示J0J_0J0等值线(等高线),每往外多一个圈,其值就增加δ\deltaδ;黑色棱型表示LLL等值线,每往外多一层,其值就增加α\alphaα.原创 2020-07-10 20:20:14 · 630 阅读 · 0 评论 -
PAC增长函数与VC维极简例子
PAC增长函数与VC维极简例子动机例1:一个分割点例2:两个分割点动机从组合的方式,计算学习模型的表达能力。表达能力越强的模型越复杂。例1:一个分割点如图1所示,输入空间为实数轴。假设学习模型为一个分割点(一维上的分割超平面),将负类(三角形)与正类(圆形)分开。计算增长函数:对于m个数据而言,分割点d有m + 1个位置可选(两邻两个数据之间只能算一个位置)。分割点d左右可以是正/负,也可以是负/正,因此有2(m+1)种分类方式d在最左边和最右边,均表示所有的样本预测为同一类,因此有2种重复原创 2020-07-10 15:40:53 · 862 阅读 · 0 评论 -
PAC极简例子
PAC极简例子PAC动机例子问题分析算法A算法分析PAC动机给定一个分类器,它在训练集中的误差可以知道,但在未见实例中的误差(即泛化误差)却是未知的。一旦训练出分类器,则其在测试集中的表现就是“听天由命”。但有人还是想把命运掌握在自己手中。思考这样一个事实:如果训练集够大,分类器“见多识广”,即使用kNN这种简单的模型,都可以获得很小的泛化误差。进一步地,能否从定量的角度,获得训练集大小与分类器泛化误差之间的关系?而PAC干的就是这件事情。使用PAC,我们可以获得这类结论:为了以99%的以上的可能性原创 2020-07-10 14:27:26 · 2019 阅读 · 0 评论 -
决策树快问快答
决策树是数据挖掘的一个重要分支,这里分享一下学习心得。什么是决策?决策是人类天天干的事情,如中午吃啥,股票买啥。什么是决策树?为决策而构建的树。它是人类知识的一种体现,因此具有天然的可解释性优势。如图1所示,出门前先看天气,如果出太阳,就走第1个分支。如果湿度为正常,则走接下来的第2个分支。最终决定去打网球。图1. 决策树例决策树的有哪些获得方式?别人(老师、师父)教,自己从实际工作中总结,利用机器从实际数据中学习。决策树生成算法的核心是什么?确定当前数据使用哪个属性来分原创 2020-11-04 12:39:40 · 588 阅读 · 2 评论 -
对于数据属性类型的一些认识
我们通常用数据来对现实世界的对象进行抽象、刻画。为此,需要建立数据模型。本贴讨论相关内容。1. 对象与属性在基本的结构化数据中,对象与属性构成了二维表。如:编号为15的对象,其质量为1.6千克。2. 属性的值域3. 属性的附加信息...原创 2020-11-03 17:19:50 · 617 阅读 · 0 评论