
机器学习
文章平均质量分 84
机器学习、深度学习笔记
顾道长生'
时人不识凌云木,直待凌云始道高。
展开
-
“天作之合”softmax与CrossEntropy
本文从max到logsumexp,再到softmax进行了一个简单推导,最后说明了softmax与CrossEntropy的关系。希望帮助大家理解多分类损失函数CrossEntropy。原创 2023-12-04 16:44:09 · 293 阅读 · 0 评论 -
“天作之合”softmax与CrossEntropy
文章目录maxsoftmaxsoftmax的作用softmax的实现以及数值稳定性softmax与CrossEntropyCrossEntropy参考博客本文从max\text{max}max到logsumexp\operatorname{logsumexp}logsumexp,再到softmax\text{softmax}softmax进行了一个简单推导,最后说明了softmax\text{softmax}softmax与CrossEntropy的关系。希望帮助大家理解多分类损失函数CrossEnt原创 2022-04-14 20:29:42 · 786 阅读 · 0 评论 -
【机器学习实战】线性支持向量机Python实现
文章目录支持向量机前言从逻辑回归引出SVMSVM直观解释线性SVM建模决策面方程分类间隔方程约束条件线性SVM优化问题描述求解凸优化问题知识补充拉格朗日函数KKT条件对偶问题求解SMO算法Platt的SMO算法SMO算法的解法SMO算法求解步骤编程求解线性SVM可视化数据集应用简化版SMO算法处理小规模数据集支持向量机由于理解支持向量机(Support Vector Machines,SVM)需要掌握一些理论知识,而这对读者来说有一定难度,于是建议读者直接下载LIBSVM使用。好,SVM讲解完毕.原创 2021-12-05 20:06:00 · 2578 阅读 · 1 评论 -
【机器学习实战】Logistic回归Python代码实现
文章目录理论推导Logistic回归的一般过程基于 Logistic 回归和 Sigmoid 函数的分类训练算法:使用梯度上升找到最佳参数画出决策边界训练算法:随机梯度上升示例:从疝气病症预测病马的死亡率理论推导参考我的博客(吴恩达)3.逻辑回归、正则化Logistic回归的一般过程收集数据: 采用任意方法收集数据。准备数据: 由于需要进行距离计算, 因此要求数据类型为数值型。另外, 结构化数据 格式则最佳。分析数据: 采用任意方法对数据进行分析。训练算法: 大部分时间将用于训练, 训练的.原创 2021-11-30 09:03:13 · 4626 阅读 · 2 评论 -
【机器学习实战】朴素贝叶斯Python实现
文章目录基于贝叶斯决策理论的分类方法使用条件概率来分类条件概率使用朴素贝叶斯进行文档分类使用 Python 进行文本分类示例:垃圾邮件过滤数据集下载基于贝叶斯决策理论的分类方法朴素贝叶斯优点: 在数据较少的情况下仍然有效, 可以处理多类别问题。缺点: 对于输入数据的准备方式较为敏感。适用数据类型: 标称型数据。使用条件概率来分类条件概率如果对条件概率不理解,可以查看我的知乎文章条件概率贝叶斯决策理论要求计算两个概率 p1(x,y)\mathrm{p} 1(\mathrm{x},.原创 2021-11-28 17:00:05 · 1222 阅读 · 2 评论 -
【机器学习实战】决策树Python实现
文章目录决策树的构造测试分类器决策树的构造决策树优点: 计算复杂度不高, 输出结果易于理解, 对中间值的缺失不敏感, 可以处理不相关特 征数据。缺点: 可能会产生过度匹配问题。 适用数据类型: 数值型和标称型。创建分支的伪代码函数createBranch () 如下所示:检测数据集中的每个子项是否属于同一分类:If so return 类标签;Else寻找划分数据集的最好特征划分数据集创建分支节点for 每个划分的子集 调用函数createBranch并增加.原创 2021-11-25 10:16:46 · 1797 阅读 · 0 评论 -
【机器学习实战】k-近邻算法Python实现
文章目录K-近邻算法概述工作原理实施KNN算法示例:手写识别系统数据集下载K-近邻算法概述简单地说, kkk-近邻算法采用测量不同特征值之间的距离方法进行分类。k-近邻算法优点:精度高、对异常值不敏感、无数据输入假定。缺点: 计算复杂度高、空间复杂度高。适用数据范围: 数值型和标称型。工作原理存在一个样本数据集合, 也称作训练样本集, 并且样本集中每个数据都存在标签, 知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后, 将新数据的每个特征与样本集中数据对应的特征进.原创 2021-11-24 10:49:49 · 1639 阅读 · 0 评论 -
【基础回顾】位运算
文章目录位运算1. 原码、反码和补码2. 按位运算3. 利用位运算实现快速计算4. 利用位运算实现整数集合位运算1. 原码、反码和补码二进制有三种不同的表示形式:原码、反码和补码,计算机内部使用补码来表示。原码:就是其二进制表示(注意,有一位符号位)。00 00 00 11 -> 310 00 00 11 -> -3反码:正数的反码就是原码,负数的反码是符号位不变,其余位取反(对应正数按位取反)。00 00 00 11 -> 311 11 11 00 -> -3.原创 2021-11-21 21:15:14 · 185 阅读 · 0 评论 -
李宏毅(2020)作业10:异常检测(Anomaly Detection)
文章目录数据集目标数据作业KNNPCAAutoencoder评估数据集数据集下载test数据集下载train目标Semi-supervised anomaly detection: 在只给定干净的(无anomaly)training data的情况下,分辨 testing data 中哪些 data 是来自 training 或是从未见过的类别数据Training: 某个 image dataset 的 training data (大小32323) 中的属于某些 label的d.原创 2021-11-15 19:56:55 · 882 阅读 · 0 评论 -
【五万字总结PCA】【李航|PRML】统计学习方法--16.主成分分析(详细推导)
本文略微有点长,请大家耐心观看,你一定会有收获文章目录PCA数学原理数据的向量表示及降维问题向量的表示及基变换内积与投影基基变换的矩阵表示协方差矩阵及优化目标方差协方差协方差矩阵协方差矩阵对角化算法进一步讨论主成分分析(李航)16.1 总体主成分分析16.1.1 基本想法16.1.2 定义和导出16.1.3 主要性质16.1.4 主成分的个数16.1 .5 规范化变量的总体主成分16.2 样本主成分分析16.2.1 样本主成分的定义与性质16.2.2 相关矩阵的特征值分解算法16.2.3 数据矩阵的..原创 2021-11-06 21:24:32 · 1133 阅读 · 0 评论 -
李宏毅(2020)作业9:无监督学习降维、聚类、自编码
文章目录作业任务1任务2任务3数据下载数据集准备训练数据一些工具函数模型训练降维和聚类问题1(作图)问题2问题3作业任务1请至少使用两种方法 (autoencoder 架构、optimizer、data preprocessing、后续降维方法、clustering 算法等等) 来改进 baseline code 的 accuracy。记录改进前、后的 accuracy 分别为多少。使用改进前、后的方法,分别将 val data 的降维结果 (embedding) 与他们对应的 label 画.原创 2021-11-04 19:13:53 · 1787 阅读 · 0 评论 -
【初理解】Transformer中的Positional Encoding
文章目录泰勒展开浅显解读首先,给出文章中的公式解读:{pk,2i=sin(k/100002i/d)pk,2i+1=cos(k/100002i/d)\left\{\begin{array}{l}\boldsymbol{p}_{k, 2 i}=\sin \left(k / 10000^{2 i / d}\right) \\\boldsymbol{p}_{k, 2 i+1}=\cos \left(k / 10000^{2 i / d}\right)\end{array}\right.{pk.原创 2021-10-31 14:35:41 · 2167 阅读 · 3 评论 -
【深入理解】再看Transformer-Attention Is All You Need
文章目录前言模型特点从宏观看encoder and decoder的解释模型原理解读总体结构Multi-Head AttentionPosition-wise Feed ForwardLayer NormalizationPositional EncodingResidual Network 残差网络Linear & Softmax训练与测试训练测试总结补充Decoder参考前言自从前两天搞懂self-attention机制后,attention is all you need 萦绕耳畔,a.原创 2021-10-29 17:23:02 · 484 阅读 · 0 评论 -
【手撕Transformer】Transformer输入输出细节以及代码实现(pytorch)
文章目录举例讲解transformer的输入输出细节encoderpaddingPadding MaskPositional EmbeddingattentionFeedForwardadd/Normencoder输入输出decoderSequence Mask测试Transformer pytorch代码实现数据预处理Positional EncodingPad MaskSubsequence MaskScaledDotProductAttentionMultiHeadAttentionFeedFor.原创 2021-10-29 15:02:42 · 31608 阅读 · 23 评论 -
(2021李宏毅)机器学习-Transformer
文章目录Transformer模型EncoderResidual Connection & Layer normalizationlayer-NormEncoder总结DecoderAuto regressive(AT)Decoder具体结构Masked Multi-Head attentionEncoder-Decoder数据传输Transformer模型Transformer模型是一个基于多头自注意力的序列到序列模型 (seq2seq model),整个网络结构可以分为 编码器 (En.原创 2021-10-28 15:45:42 · 1253 阅读 · 1 评论 -
【深入理解】再看Attention
文章目录Attention 的本质是什么AI 领域的 Attention 机制Attention 的3大优点深入理解键值对注意力`Q` `K` `V`矩阵dk\sqrt{d_{k}}dk 的意义代码实现参考Attention 的本质是什么Attention(注意力)机制如果浅层的理解,跟他的名字非常匹配。他的核心逻辑就是「从关注全部到关注重点」。Attention 机制很像人类看图片的逻辑,当我们看一张图片的时候,我们并没有看清图片的全部内容,而是将注意力集中在了图片的焦点上。大家看一下下面.原创 2021-10-27 11:03:45 · 1754 阅读 · 1 评论 -
【手撕Self-Attention】self-Attention的numpy实现和pytorch实现
import numpy as npfrom numpy.random import randnd = 256 #dimensionn = 32 #32个序列x = randn(d,n)x.shape(256, 32)w_q = randn(d,d)w_k = randn(d,d)w_v = randn(d,d)q = w_q @ xk = w_k @ xv = w_v @ xq.shape(256, 32)A = k.T @ qA.shape,v.sha原创 2021-10-27 10:56:17 · 8669 阅读 · 3 评论 -
(2021李宏毅)机器学习-Self-attention
文章目录解决的问题:Attention函数Dot-product(推荐)AdditiveSelf-Attention计算过程从矩阵乘法角度来看Self-AttentionMulti-head Self-AttentionPositional EncodingOthers背景:全连接网络的输入是一个向量,但是 当输入是一个变长的向量序列时 ,就不能再使用全连接网络了。这种情况 通常可以使用卷积网络或循环网络进行编码来得到一个相同长度的输出向量序列 。基于卷积或循环网络的序列编码都是一种局部的编码方.原创 2021-10-25 15:04:19 · 2701 阅读 · 0 评论 -
【手撕LSTM】LSTM的numpy实现
文章目录LSTM原理图便于程序实现的公式(简化版公式)关于“门”遗忘门输入门更新memory输出门LSTM单元详细理论部分参考我博文(2020李宏毅)机器学习-Recurrent Neural NetworkLSTM原理图公式Ft=σ(XtWxf+Ht−1Whf+bf)\mathbf{F}_{t}=\sigma\left(\mathbf{X}_{t} \mathbf{W}_{x f}+\mathbf{H}_{t-1} \mathbf{W}_{h f}+\mathbf{b}_{f}\right).原创 2021-10-24 15:15:23 · 2586 阅读 · 2 评论 -
(2020李宏毅)机器学习-Explainable Machine Learning
文章目录1 Introduction2 Local Explanation3 Global Explanation**Activation Minimization** (review)Constraint from Generator4 Using a model to explain another1 Introduction为什么可解释的机器学习不仅需要机器结果的精确度,还需要进行模型诊断,看机器学习得怎么样;有的任务精确度很高,但实际上机器什么都没学到,有模型诊断后,就可以根据模型诊断的.原创 2021-10-18 11:13:32 · 404 阅读 · 0 评论 -
【手撕反向传播】反向传播推导及代码实现
文章目录理论手推过程代码实现理论理论层面看我以前的博文:(2020李宏毅)机器学习-Backpropagation手推过程单个神经元三层的神经网络(input layer+hidden layer+output layer)损失函数(MSE损失):链式法则(chain rule )求梯度:手推过程如下:ps:sigmoid函数求导参考我的博文激活函数Sigmoid求导代码实现如果想深入理解反向传播,那就需要代码实现,不然理论只是空中楼阁,而C++语言偏底层一些.原创 2021-10-13 09:37:50 · 839 阅读 · 0 评论 -
(2020李宏毅)机器学习-无监督学习-词嵌入
文章目录1-of-N Encoding词嵌入基于计数的词嵌入基于预测的词嵌入共享参数多语言嵌入文档嵌入1-of-N Encodingword embedding是dimension reduction的一个广为人知的应用。1-of-N Encoding:用一个vector来表示wordword Embedding:把每一个word都project到high dimension sapce上面(但是远比1-of-N Encoding的dimension要低,比如说有10w个word,那1-o.原创 2021-10-11 17:26:42 · 384 阅读 · 0 评论 -
(2020李宏毅)机器学习-半监督学习
文章目录半监督学习监督生成模型和半监督生成模型监督生成模型半监督生成模型假设一:Low-density Separationself-training基于熵的正则化假设二:Smoothness Assumption聚类和标记基于图的方法Better Representation半监督学习假设有R笔train data,每一笔train data有xrx^rxr,y^r\hat{y}^ry^r。假设xrx^rxr是一张image,y^\hat{y}y^是class label。semi-su.原创 2021-10-11 17:22:05 · 566 阅读 · 0 评论 -
矩阵的迹、性质及其推导证明
文章目录1. 矩阵的迹是什么2. 矩阵的迹的性质及其证明1. 矩阵的迹是什么矩阵的迹是特征值的加和,也即矩阵A的主对角线元素的总和。对于方阵 A=[a11⋯a1n⋮⋱⋮an1⋯ann]A=\left[\begin{array}{ccc}a_{11} & \cdots & a_{1 n} \\ \vdots & \ddots & \vdots \\ a_{n 1} & \cdots & a_{n n}\end{array}\right]A=⎣⎢⎡a1原创 2021-10-10 17:24:06 · 7865 阅读 · 0 评论 -
多维高斯分布的最大似然估计
本文对多维高斯分布的最大似然估计进行了微观(矩阵层面),还有宏观(应用了全微分和矩阵迹的性质)做出的推导,推导过程相当详细,如有错误,评论或者私聊我都会及时回复文章目录多维高斯分布微观推导最大似然估计量多维高斯分布宏观推导多维高斯分布微观推导用向量的形式表示随机变量和参数,对于n维随机变量:x=[x1x2⋮xn],μ=[μ1μ2⋮μn],σ=[σ1σ2⋮σn]x=\left[\begin{array}{c}x_{1} \\x_{2} \\\vdots \\x_{n}\end{a..原创 2021-10-10 17:16:14 · 2269 阅读 · 0 评论 -
李宏毅(2020)作业4-hw4_RNN-判断句子的情感类别
文章目录作业说明数据集介绍Recurrent Neural NetworksDownload DatasetUtilsTrain Word to Vector词嵌入 word2vecData PreprocessDatasetModelTrainTestMainPredict and Write to csv file作业说明 1. 本次数据集包括training_data,training_label和training_nolabel三个txt文件,训练集包括有标签(积极的还是消极的)的和没有标签的.原创 2021-10-09 16:33:39 · 1448 阅读 · 5 评论 -
李宏毅(2020)作业3-hw3_CNN
文章目录数据集介绍Homework 3 - Convolutional Neural NetworkDatasetModelTrainingTesting数据集 链接:https://pan.baidu.com/s/1OYqpIQ4N57RY2UjTf8OvOg提取码:csdn数据集介绍有训练集、验证集、测试集训练集和验证集带标签,测试集不带标签测试集图片命名仅为序号,无实际意义训练集和验证集图片命名规则为“类别_序号”这是一个11分类问题Homework 3 - Convolut.原创 2021-10-07 14:30:13 · 1799 阅读 · 3 评论 -
(2020李宏毅)机器学习-Recurrent Neural Network
文章目录什么是RNN?例子RNN架构其他结构的RNNdeepRNNElman Network & Jordan NetworkBidirectional RNNLong Short-term Memory (LSTM)LSTM输入什么是RNN?有记忆被的神经网络就是循环神经网络(RNN)。在RNN里面,每一次隐藏层的神经元产生输出的,这个时候输出会存到内存里去(用蓝色框表示内存)。下一次当有输入时,这些神经元不只是考虑输入 X1,X2\mathrm{X}_{1}, \mathrm{X}_.原创 2021-10-04 15:54:57 · 458 阅读 · 0 评论 -
(2020李宏毅)机器学习-Convolutional Neural Network
Why CNN for Image当我们直接用一般的fully connected的feedforward network来做图像处理的时候,往往会需要太多的参数所以,CNN做的事情其实是,来简化这个neural network的架构,根据自己的知识和对图像处理的理解,一开始就把某些实际上用不到的参数给过滤掉虽然CNN看起来,它的运作比较复杂,但事实上,它的模型比DNN还要更简单,就是用(先验知识)prior knowledge,去把原来fully connected的layer里面的一些参数.原创 2021-10-03 20:47:59 · 330 阅读 · 0 评论 -
为什么样本方差前是n-1
(1) Var(Xˉ)=σ2/n\operatorname{Var}(\bar{X})=\sigma^{2} / nVar(Xˉ)=σ2/n 样本均值的方差等于总体的方差除以n(2) E(S2)=σ2E\left(S^{2}\right)=\sigma^{2}E(S2)=σ2 样本方差的期望等于总体方差(1) Var(Xˉ)=1n2Var(∑i=1nXi)=nσ2n2=σ2n\operatorname{Var}(\bar{X})=\frac{1}{n^{2}} \opera.原创 2021-09-30 19:11:02 · 423 阅读 · 0 评论 -
(吴恩达)7. 支持向量机
文章目录十二、支持向量机(Support Vector Machines)12.1 优化目标12.2 大边界的直观理解12.3 大边界分类背后的数学12.4 核函数12.5 使用支持向量机十二、支持向量机(Support Vector Machines)12.1 优化目标开始建立支持向量机支持向量机中我们的整个优化目标函数当最小化代价函数,获得参数θ{{\theta }}θ时,支持向量机所做的是它来直接预测yyy的值等于1,还是等于0。因此,这个假设函数会预测1。当θTx\theta^T.原创 2021-09-25 14:24:38 · 329 阅读 · 0 评论 -
(吴恩达)6.应用机器学习的建议、机器学习系统的设计
文章目录十、应用机器学习的建议(Advice for Applying Machine Learning)10.1 决定下一步做什么10.2 评估假设10.3 模型选择和训练、验证、测试集10.4 诊断偏差和方差10.5 正则化和偏差/方差10.6 学习曲线10.7 决定下一步做什么十一、机器学习系统的设计(Machine Learning System Design)11.1 误差分析11.2 类偏斜的误差度量11.3 查准率和查全率之间的权衡十、应用机器学习的建议(Advice for Applyi.原创 2021-09-24 20:19:12 · 202 阅读 · 0 评论 -
(2020李宏毅)机器学习-深度学习技巧
文章目录Recipe of Deep Learningthree step of deep learningGood Results on Training DataNew activation functionReLULeaky ReLUMaxoutAdaptive learning rateAdagradRMSPropMomentumAdamGood Results on Testing Data?Early StoppingRegulationWeight DecayDropoutRecipe..原创 2021-09-24 10:17:22 · 181 阅读 · 0 评论 -
(2020李宏毅)机器学习-Backpropagation
Gradient DescentNetwork parameters θ={w1,w2,⋯ ,b1,b2,⋯ }\theta=\left\{w_{1}, w_{2}, \cdots, b_{1}, b_{2}, \cdots\right\}θ={w1,w2,⋯,b1,b2,⋯}Starting Parameters θ0⟶θ1⟶θ2⟶……\theta^{0} \longrightarrow \theta^{1} \longrightarrow \quad \theta^{2} \longri原创 2021-09-23 20:11:49 · 277 阅读 · 0 评论 -
李宏毅(2020)作业2-hw2_classification
数据集:https://wwr.lanzoui.com/ibnAxud394j密码:bvf8文章目录Logistic RegressionPreparing DataSome Useful FunctionsFunctions about gradient and lossTrainingPlotting Loss and accuracy curvePredicting testing labelsPorbabilistic generative modelPreparing DataMean a.原创 2021-09-22 19:15:27 · 479 阅读 · 1 评论 -
李宏毅(2020)作业1-hw1_regression
数据集:蓝凑云Homework 1: Linear RegressionLoad 'train.csv’import sysimport pandas as pdimport numpy as np# data = pd.read_csv('gdrive/My Drive/hw1-regression/train.csv', header = None, encoding = 'big5')data = pd.read_csv('./train.csv', encoding = 'big5')原创 2021-09-22 13:20:45 · 5046 阅读 · 0 评论 -
(2020李宏毅)机器学习-Classification
文章目录**Classification**抽象建模**Two Boxes****Two Classes****Gaussian Distribution****Probability from Class****Maximum Likelihood**修改模型**Posterior Probability** (后验概率)Classification抽象建模Function(Model)Loss FunctionFind the best function:e.原创 2021-09-22 08:56:03 · 394 阅读 · 0 评论 -
(2020李宏毅)机器学习-Logistic Regression
文章目录Logistic RegressionThree Steps of machine learningStep1:Function SetStep 2: Goodness of a FunctionStep 3: Find the best functionLogistic Regression + Square errorGenerative v.s. DiscriminativeMulti-class ClassificationLogistic RegressionThree Step.原创 2021-09-21 13:30:20 · 242 阅读 · 0 评论 -
(2020李宏毅)机器学习-NETWORK COMPRESSION
文章目录NETWORK COMPRESSIONNetwork PruningKnowledge Distillation(知识蒸馏)Parameter QuantizationArchitecture DesignLow rank approximationDynamic ComputationNETWORK COMPRESSIONNetwork Pruning修剪方法:修剪neuronsKnowledge Distillation(知识蒸馏)Parameter Quantiza原创 2021-09-11 19:56:58 · 192 阅读 · 0 评论 -
(2020李宏毅)机器学习- Gradient Descent
文章目录Review: Gradient DescentTuning your learning ratesAdagradStochastic Gradient Descent(随机梯度下降)Review: Gradient Descentθ∗=argminθL(θ)L:lossfunctionθ:parametersSupposethatθhastwovariables{θ1,θ2}\theta^{*}=\arg \min _{\theta} L(\theta) \quad L: loss\q原创 2021-09-11 10:14:18 · 262 阅读 · 0 评论