机器学习算法
文章平均质量分 78
reept
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
学习笔记—契比雪夫多项式和契比图过滤器
对于一般的多项式过滤器,虽然有各种各样的优点,仍具有局限性,最主要的是各个项彼此不正交,所以各项对应的系数相互相关,(类似多变量回归上的多重共线性)。为了解决这个问题,具有彼此正交的项的线性多项式:契比雪夫多项式被提出来。原创 2025-10-30 17:04:07 · 198 阅读 · 0 评论 -
ICA独立成分分析
典型问题:在同一房间的不同位置放着两个麦克风,同时又两个说话,两个麦克风能同时记录两个时间信号,如果仅用这两个记录的信号来估计原来的两个语音信号,那将是一件非常又意义的事情。这也是“鸡尾酒会”问题。盲源分离正式定义: 根据源信号的统计特性,仅由观测的混合信号恢复(分离)出未知原始源信号的过程。式中a为权重参数,在鸡尾酒会问题中为举例,x 为两个话筒得到信号,s为两个表演者的声音,这两个人的声音相对独立并且忽略所有的其他因素比如声音的时间延迟。的情况下一种估计的算法,也就是说的盲信号分离的一种算法。原创 2025-06-26 19:10:02 · 343 阅读 · 0 评论 -
谱聚类与Python代码实现
谱聚类是一种基于图论的聚类方法,通过构建数据相似度矩阵并分析拉普拉斯矩阵的特征结构来实现聚类。该算法将数据点视为图节点,利用节点间的相似度构建权重矩阵,通过特征分解获得低维嵌入空间后进行聚类(如K-means)。相比传统方法,谱聚类能识别非凸分布数据(如环形、流形结构),但对参数选择敏感且计算复杂度较高(O(n^3)),适用于中小规模数据。典型应用包括图像分割和社交网络分析。实现过程包含相似度矩阵构建、拉普拉斯矩阵计算、特征分解及最终聚类等关键步骤。原创 2025-06-09 16:13:45 · 664 阅读 · 0 评论 -
狄利克雷过程与代码实现
当狄利克雷分布的变量维度K扩展到无限维时,对应地支撑空间X变成连续空间,依据 Kolmogorov 一致性定理,分布就被扩展成一个随机过程,这个过程就叫狄利克雷过程。由于无限维空间上的分布很难形式化表示,可以用迪利克雷分布的累加一致性来定义,思想就是在这个连续空间无论如何划分,每个划分都一致地符合同一个狄利克雷分布(这里的同一个是指同一个基础分布H,和相同的中心因子α),那么可以判定在连续空间X上,变量维度K扩展到的无限维狄利克雷分布成为了狄利克雷过程。设想一个K非常大的狄利克雷分布Dir(a,H)。原创 2025-02-25 10:18:59 · 445 阅读 · 0 评论 -
高斯过程回归与sklearn代码实现
高斯过程回归是一个强大而灵活的非参回归工具,在机器学习和统计中经常应用。在处理输入和输出是连续变量且关系不明确的问题中尤其有用。高斯过程回归是一种贝尔斯方法,能用于预测概率建模,这使得其在优化、时间序列预测等方面成为重要工具。高斯过程回归有关于高斯过程,高斯过程本质是一系列的随机变量,其中任何有限的变量组合都有相同的高斯分布。高斯过程可以被视为一种函数的分布。总之,高斯过程回归是一种在需要理解、预测不确定性的情况下进行数据分析和预测的有价值工具。通过利用概率建模和核函数,可以提供准确且易于解释的结果。翻译 2025-01-17 19:02:54 · 136 阅读 · 0 评论 -
XGBOOST代码实现解读
XGBOOST推导请详见《机器学习公式推导与代码实现》(鲁伟,2022年)第12章P162~P168,书中有该算法的Numpy实现,本文对照公式推导部分和算法代码部分做注解,以方便理解。算法实现部分一个重要实现是把每条数据的标签部分分成了真实标签和预测标签,并且对二者进行one-hot编码,如下面代码中 " y = cat_label_convert(y)",如果分类有3类,就有3列等等,其他有关标签的一阶导数和二阶导数部分均是在one-hot编码上进行。原创 2025-01-14 17:28:06 · 320 阅读 · 0 评论 -
核方法总结(四)——高斯过程回归学习笔记
本文是学习《机器学习导论》(清华大学出版社,中文版,王东,2021年)的摘录总结或笔记。原创 2024-06-29 18:35:14 · 1655 阅读 · 0 评论 -
核方法总结(三)———核主成分(kernel PCA)学习笔记
本文是学习《机器学习导论》(清华大学出版社,中文版,王东,2021年)的摘录总结或笔记。原创 2024-06-28 17:40:49 · 1062 阅读 · 0 评论 -
核方法总结———(二)
本文是学习《机器学习导论》(清华大学出版社,王东,2021年)的摘录总结或笔记。原创 2024-05-16 16:24:46 · 1584 阅读 · 0 评论 -
EM算法和Python代码实现
EM算法是一种迭代算法,用于含有隐变量的概率模型参数的极大似然估计或极大后验概率估计。用Y表示观测随机变量的数据,Z表示隐随机变量的数据。Y和Z都具备,则称为完全数据,观测数据Y又称为不完全数据,假设给定观测数据Y,其概率分布是P(Y|θ),其中θ是要估计的模型参数,那么不完全数据Y的似然函数是logP(Y|θ),假设Y和Z的联合概率分布是P(Y,Z|θ),则完全数据的对数似然函数是logP(Y,Z|θ)。原创 2024-02-01 17:10:07 · 1922 阅读 · 1 评论 -
核方法总结————(一)
本文是学习《机器学习导论》(清华大学出版社,王东,2021年)的总结或笔记。原创 2024-04-30 20:22:08 · 946 阅读 · 1 评论 -
CatBoost 原理解释及主要算法图分析
CatBoost 与 XGBoost 、LightGBM是主流的三大Boosting框架,都是高效的GBDT算法工程化实现框架。CatBoost 则因长于处理类别特征而取名为CatBoost(Categorical + Boosting)。算法的理论特色,包括用于处理类别变量的目标变量统计和排序提升算法。CatBoost算法论文。原文结构如下:1、Introduction(简介)2、Background(算法提出背景)3、Categary Features(处理类别特征)(修正排版、文字等错误)原创 2024-01-11 14:22:22 · 8983 阅读 · 0 评论 -
支持向量机(Supporting Vector Machine)SMO(Sequential Minimal Optimization)算法
SMO算法的基本想法是:如果所有变量的解都满足此最优化问题的KKT条件,那么此时的所有变量就对应这个最优化问题的一个解。否则,选择这些变量中的两个变量,固定其他变量,针对这两个变量构建一个二次规划问题。这样的凸二次规划问题,具有全局最优解,有许多优化算法可以用于这一问题的求解,但是当样本容量很大时,很多算法的时间复杂度和空间复杂度都会迅速增加,以致无法使用。当遍历完间隔边界样本集后,再次回到遍历整个样本集中寻找,即在整个样本集与间隔边界样本集上来回切换,寻找违反KKT条件的。原创 2023-12-24 10:08:46 · 558 阅读 · 0 评论 -
极度梯度提升树(eXtreme Gradient Boosting)算法推导
式的极值,得到未分裂前的最优权重和最优损失函数值,w1 和 L1, 然后继续分裂(分裂成w2,w3),按某个特征某个值分裂后 的 叶子(预定的节点数)结点的最优权重(一般为二分树)和对应损失函数,就是求分裂后的节点的。,前者 可以裂解为叶子结点所包含样本的一阶偏导数(对应于t-1 步模型预测值的偏导数)累加之和,后者可以理解为相应的二阶偏导数之和,对应于待分裂的某个结点的集合而言,两者均为常数。因为前 t-1 棵树的结构已确定,所以前 t-1 棵树的复杂度之和也可以表示为常数,所以上式后面可分为。原创 2023-11-17 15:36:20 · 1166 阅读 · 0 评论
分享