
ML理论系列
文章平均质量分 94
主要记录和分享机器学习的各种算法知识。
tyhj_sf
职业从事ML System研发和管理多年,业余从事AGI研究,跟进AI各流派新观点、学说,致力于实现类人通用智能系统。
展开
-
变分自动编码器(VAE)深入理解与总结
我们从自编码器(AutoEncoder,AE)出发,逐步深入严谨地解析VAE建模过程和原理,并试图对大家普遍的疑惑给出解答。如果你想掌握VAE,那么这篇文章就是你需要的。原创 2024-05-26 22:58:11 · 2997 阅读 · 2 评论 -
【Hinton论文精读】The Forward-Forward Algorithm: Some Preliminary Investigations-202212
本文的目的是介绍一种新的神经网络学习方法,并证明它在几个小问题上工作得足够好,值得进一步研究。正向算法用两个正向通道代替反向传播的前向和向后传递,一个用正(即真实)数据,另一个用网络本身可以产生的负数据。每一层都有自己的目标函数,即对正数据有较高的优度(goodness),对负数据有较低的优度。一层中激活的平方和可以用作优点,但还有许多其他的可能性,包括减去激活的平方和。原创 2024-03-16 21:42:50 · 2408 阅读 · 1 评论 -
语言模型(Language Modeling)中的评估指标理解与总结
本文试图理清Language Modeling的评估指标基本计算过程和指标含义,目的有二:(1)本文介绍的评估指标对于机器学习或者NLP从业人员来说是比较常用,但未必系统学习过、未必能说清楚这些指标之间的关系和指标本身的含义,掌握这些知识不管是对工作、求职面试都是有帮助的。原创 2023-06-14 01:36:13 · 3081 阅读 · 0 评论 -
近期关于Transformer结构有潜力的改进方法总结
标准Transformer在最新的实际大模型中并没有被采用了,而是使用其相关的改进版本,原因是标准Transformer的实现有比较显著的缺点:1. Attention的时间复杂度较高,为$O(n^2)$,导致输入token序列长度较无法设置得过大。2. 显存占用大,是因为Attention、多头、FFN导致的参数量大。以下总结了几个较受关注及个人认为比较有潜力的改进,帮助快速了解,同时推荐大家仔细研读原论文。原创 2023-05-21 16:40:41 · 5184 阅读 · 0 评论 -
基于梯度的优化问题中不可导操作的处理方法总结
系统总结了基于梯度的优化方法中对不可导函数近似为可导函数的方法、梯度的近似方法。原创 2023-03-19 21:24:07 · 2595 阅读 · 0 评论 -
【经典论文翻译与解析】Attention is all you need
该论文提出了一个新的、简单的网络架构,Transformer。它只基于单独的attention机制,完全避免使用循环和卷积。目前在各个任务上表明,模型在性能上更好,同时具有更高的并行性,且训练所需要的时间更少。Transformer已经基本实现了CV、NLP等方向模型大一统。因此应当仔细研读原文。翻译 2023-01-15 00:27:17 · 1504 阅读 · 0 评论 -
度量方法总结
不管是机器学习还是运筹优化方向,数学建模中的一个重要任务就是量化。不同任务中对分析对象的度量方法也是多样的,建模者可以恰当地选取常用的度量方法,也可以针对性地设计特殊的度量方法。本文总结工作学习中接触到的常用度量方法,熟悉这些方法和适用场景对于大家数学建模工作及启发设计新的度量方法是非常帮助的。内容会不定期持续更新,建议先**收藏+关注**。原创 2022-12-04 21:26:16 · 2807 阅读 · 0 评论 -
注意力(Attention)机制的数学建模_总结
导读:笔者相信注意力建模思想及现有的建模方法一定可以在更广泛的领域中借鉴和应用,所以有必要系统学习和总结,如果你也认为如此,本文的内容对你是有帮助的,建议先订阅和收藏。1 引言视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像,获得需要重点关注的目标区域,也就是一般所说的注意力焦点,而后对这一区域投入更多注意力资源,以获取更多所需要关注目标的细节信息,而抑制其他无用信息。这是人类利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段,是人类在长期进化中形成的一种生存机制原创 2022-10-16 03:12:49 · 2434 阅读 · 2 评论 -
卷积神经网络(CNN)技术总结
0.CNN发展历史1.CNN主要概念及知识点2.一些经典CNN网络的简单总结3.一些看法原创 2021-11-03 00:46:34 · 2084 阅读 · 0 评论 -
【Hinton论文翻译与理解】How to represent part-whole hierarchies in a neural network_202102
本论文没有实现代码,仅仅描述 一个想法 ,集多种优势到一个假想系统GLOM。 这些优势包括 transformer、神经场(neural field)、对比表示学习、知识蒸馏 、胶囊网络。GLOM 回答以下问题: 一个固定结构的神经网络怎么把图像解析成每个图像都有不同结构的部分-整体层次关系? 想法很简单,用id向量表示解析树的节点。 如果 GLOM 能运行,应用到视觉或语言, 它应该能显著地改善由 transformer类系统产生的表示的可解释性。翻译 2021-10-06 18:55:59 · 2004 阅读 · 0 评论 -
LSTM模型相关技术的总结
最近在用TensorFlow2做营收预测项目,由于数据具有明显的时序特性,想利用RNN类模型试一下效果,当然首先使用LSTM、GRU之类的。今天来总结下LSTM相关知识吧。原创 2021-05-05 00:20:34 · 1492 阅读 · 5 评论 -
从线性回归到广义线性回归知识系统总结
系统总结线性回归模型、logistic回归模型、广义线性模型相关知识。...原创 2019-09-15 22:38:44 · 4836 阅读 · 0 评论 -
决策树系列算法详解与经验总结
详细讲解了决策树算法ID3、C4.5、CART,各算法做了对比,并给出了使用建议。原创 2019-04-22 02:12:45 · 1461 阅读 · 0 评论 -
XGBoost原理详解
XGBoost是在GBDT、RGF等算法的基础上改进而来,其性能优异,已经在各大竞赛中广泛使用,尤其这是陈天奇大神主导的研究成果,不管是算法原理还是算法的实现都值得仔细研读。原创 2018-12-18 02:45:37 · 4389 阅读 · 1 评论 -
遗传算法详解及java实现
结合一个求函数最大值的例子详细说明了遗传算法的原理及运算过程,每一步都附带了图和代码帮助理解,文章最后附带了eclipse平台的源码工程并贴出了部分源码,帮助在项目中使用。原创 2016-11-24 16:04:25 · 21984 阅读 · 69 评论 -
人工神经网络基本原理
最近谷歌升级版AlphaGo打败众多国内外围棋高手,那狗又火了一把,再次引起大家的关注。作为一个对技术有追求的人,嗯,是时候好好学习当前最火的人工智能与机器学习的相关技术了。学习一项技术,仅仅了解其技术原理是远远不够的,从技术实践中建立感性认识,才能对技术原理有深入的理解。因此,本文先介绍神经网络基本原理,后面系列文章将详细介绍神经网络的成熟算法及网络结构(比如:BP神经网络、RBF、CNN等)并编程实现之。原创 2017-01-06 09:53:41 · 64756 阅读 · 14 评论 -
禁忌搜索算法详解
引言对于优化问题相关算法有如下分类: 禁忌搜索是由局部搜索算法发展而来,爬山法是从通用局部搜索算法改进而来。在介绍禁忌搜索之前先来熟悉下爬山法和局部搜索算法。局部搜索算法算法的基本思想在搜索过程中,始终选择当前点的邻居中与离目标最近者的方向搜索。算法过程(1)随机选择一个初始的可能解x0 ∈D,xb=x0,P=N(xb); //D是问题的定义...原创 2017-01-08 17:47:43 · 70458 阅读 · 52 评论 -
BP神经网络-总结
本文讲解BP网络学习算法的实质、最速下降算法、BP算法,并总结了BP神经网络在实用中的设计经验。原创 2017-02-11 15:28:12 · 8980 阅读 · 3 评论 -
蝙蝠算法_总结
蝙蝠算法(Bat Algorithm,缩写 BA),是2010年诞生的一种元启发式优化算法。本文讲解BA算法的过程,文末附带了BA算法的MATLAB程序链接。转载 2017-02-14 16:50:08 · 11462 阅读 · 0 评论 -
常用激活函数(激励函数)理解与总结
引言学习神经网络的时候我们总是听到激活函数这个词,而且很多资料都会提到常用的激活函数,比如Sigmoid函数、tanh函数、Relu函数。那么我们就来详细了解下激活函数方方面面的知识。本文的内容包括几个部分:什么是激活函数?激活函数的用途(为什么需要激活函数)?有哪些激活函数,都有什么性质和特点?应用中如何选择合适的激活函数?如果你对以上几个问题不是很清楚,下面的内容对你是有...原创 2018-05-13 23:07:19 · 351169 阅读 · 40 评论 -
机器学习实践----workflow
机器学习在产业界的应用目前正如火如荼,本文从workflow的角度介绍机器学习在解决工业界问题时所需的基本技术、经验和技巧。本文主要结合实际问题,概要地介绍机器学习解决实际问题的整个流程,包括对问题建模、数据准备、特征抽取、模型训练和模型优化等关键环节。下文分为1)机器学习概述,2)问题建模,3)模型选择 4)数据准备,5)特征抽取,6)模型训练,7)模型优化,8)总结, 共8节进行介绍。原创 2018-11-04 19:12:51 · 1196 阅读 · 0 评论 -
损失函数、风险函数及正则化知识系统总结
做机器学习项目的时候总是遇到经验风险、结构风险、正则化项等这些概念,还有损失函数最小化问题,今天我们就来详细地总结下这些概念。原创 2018-11-25 19:27:03 · 3966 阅读 · 0 评论 -
交叉熵、相对熵(KL散度)的数学原理及在机器学习中应用
最近频繁使用交叉熵,虽然之前学习过,但感觉对交叉熵的认识还是不够全面,打算再详细的总结一下交叉熵、KL散度等方面的知识。原创 2018-12-10 01:34:45 · 2373 阅读 · 0 评论 -
模拟退火算法原理及求解TSP问题的Java实现
详细讲解了模拟退火的物理原理、组合优化问题建模、模拟退火算法的分析、TSP问题的建模、TSP问题求解的Java实现。其中程序部分还附带实现了算法收敛过程的可视化。原创 2016-12-03 21:18:29 · 7865 阅读 · 2 评论