
人工智能理论
ygpGoogle
这个作者很懒,什么都没留下…
展开
-
Graph and Machine Learning(图和机器学习)
文章目录Introduction回顾其他的神经网络初识图神经网络为什么要使用图神经网络怎样实现GNNGNN的学习路线图Tasks, Dataset, and BenchmarkSpatial-based GNNNN4GDCNNDGCMoNETGraphSAGEGATGINGraph Signal Processing and Spectral-based GNNIntroduction回顾其他的神经网络我们先看看下面几个之前研究过的network。初识图神经网络图神经网络最重要的就是这个图原创 2020-10-20 20:58:45 · 736 阅读 · 0 评论 -
Unsupervised Learning - Linear Methods(k-means,HAC,降维,PCA)
文章目录聚类(Clustering)K-meansHierarchical Agglomerative Clustering(HAC)Dimension Reduction(降维)做Dimension Reduction的好处怎么做Dimension Reduction?feature selectionPrincipal Component Analysis(PCA)Unsupervised Learning 可以分为两类。一类是有输入实例(现实的树),输出更抽象的东西,即化繁为简。一类是输入一个原创 2020-10-19 20:30:44 · 293 阅读 · 0 评论 -
Unsupervised Learning: Word Embedding(词嵌入)
文章目录词嵌入介绍如何利用上下文count basedprediction based词嵌入的一些细节词嵌入介绍• Machine learns the meaning of words from readinga lot of documents without supervision。机器在没有监督的情况下从许多文件学到词语的意义。我们可以像下图一样将这些词语分成三类,但是仅仅是按word class分的话看不出来这些类之间有什么联系,所以用word embedding的方式,我们就可以看到原创 2020-10-19 17:09:54 · 213 阅读 · 0 评论 -
半监督学习semi-supervised
文章目录半监督学习介绍Semi-supervised Learning for Generative ModelSupervised Generative ModelSemi-supervised Generative ModelLow-density SeparationSelf-trainingEntropy-based RegularizationOutlook: Semi-supervised SVMSmoothness AssumptionCluster and then LabelGraph-b原创 2020-10-19 11:24:04 · 1125 阅读 · 0 评论 -
Imitation Learning
文章目录1.Behavior Cloning2.Inverse Reinforcement Learning (IRL)很多场景是很难有一个明确的reward甚至没有reward。所以需要很厉害的agent或者直接由人来示范的资料,让agent跟着做。本文会讲两个Imitation Learning的方法:1.Behavior CloningBehavior Cloning其实和监督学习(supervised learning)是一样的。 以自动驾驶为例子,搜集很多的expert(假设是人类)驾驶原创 2020-10-18 20:16:21 · 267 阅读 · 0 评论 -
Sparse Reward
文章目录1、Reward ShapingCuriosityICM的设计2、Curriculum Learning3、Hierarchical RL在强化学习的训练过程中,当环境的reward很少时(指出现的次数),这样对agent的训练是很不利的。比如,让一个机器人拿起螺丝刀,再把螺丝拧进去才能得到reward。这一系列操作组合起来对于一个一开始什么都不懂的机器人无疑是很难的,因为它一开始不管做什么动作都不会得到reward,即便有exploration也只有极小的几率能成功获得reward。所以下面介原创 2020-10-18 20:00:59 · 187 阅读 · 0 评论 -
Actor-Critic、A2C、A3C、Pathwise Derivative Policy Gradient
文章目录回顾Actor-CriticAdvantage Actor-CriticAsynchronous Advantage Actor-Critic (A3C)Pathwise Derivative Policy GradientQ Learning 和 Pathwise Derivative Policy Gradient 的执行过程对比:回顾Policy gradientG表示在sts_tst采取ata_tat一直玩到游戏结束所得到的cumulated reward。这个值是不稳定的,因为原创 2020-10-18 16:53:28 · 481 阅读 · 0 评论 -
Q-learning如何处理连续的动作?
文章目录1、 穷举action2、使用梯度上升求Q value3、Normalized Advantage Functions(NAF)普通的Q-learning比policy gradient比较容易实现,但是在处理连续动作(比如方向盘要转动多少度)的时候就会显得比较吃力。因为如果action是离散的几个动作,那就可以把这几个动作都代到Q-function去算Q-value。但是如果action是连续的,此时action就是一个vector,vector里面又都有对应的value,那就没办法穷举所有的原创 2020-10-18 15:45:02 · 1669 阅读 · 0 评论 -
Q-Learning基本思想
文章目录Q-learningValue-Fuction计算Vπ(s)V^\pi(s)Vπ(s)的2种方式:1、Monte-Carlo (MC) based approach :2、Temporal-difference (TD) approachMC v.s. TD :Q-function:Q-Learning使用技巧:技巧1:使用Target network技巧2:使用exploration1、Epsilon Greedy2、Boltzmann Exploration技巧3:使用Replay Buffer原创 2020-10-12 11:58:11 · 951 阅读 · 0 评论 -
Policy gradient(策略梯度详解)
文章目录策略梯度基本知识什么是策略梯度?强化学习案例策略梯度公式详解如何使你的损失函数更好增加一个基准为每一个action分配不同的权重策略梯度基本知识什么是策略梯度?直接根据状态输出动作或者动作的概率。那么怎么输出呢,最简单的就是使用神经网络啦!我们使用神经网络输入当前的状态,网络就可以输出我们在这个状态下采取每个动作的概率,那么网络应该如何训练来实现最终的收敛呢?我们之前在训练神经网络时,使用最多的方法就是反向传播算法,我们需要一个误差函数,通过梯度下降来使我们的损失最小。但对于强化学习来说,我们原创 2020-10-11 15:07:47 · 23147 阅读 · 8 评论 -
强化学习经典入门教程
文章目录Introduction of Reinforcement Learning什么是强化学习强化学习的应用下棋聊天机器人Example: Playing Video GameIntroduction of Reinforcement LearningDeep Reinforcement Learning深度强化学习等价于强化学习加上深度学习。什么是强化学习如下图所示,有一个Agent,也就是机器,然后它将自己观察到的场景作为输入,然后去执行某个行为去改变这种场景,比如他观察到一杯水,然后他原创 2020-10-10 19:35:13 · 3544 阅读 · 4 评论 -
Recurrent Neural Network and LSTM(循环神经网络与长短期记忆详解)
文章目录为什么要用RNNRecurrent Neural Network (RNN)为什么要用RNNslot filling指的是槽填充,比如说现在有一个智能票务系统,用户告诉机器我几月二号去台北,那么机器只需要读出Taipei和November 2nd即可,这就是槽,然后其余的程序已经写好,机器只需识别出这两个关键信息填入已写好的模板程序中,相当于完形填空。那么解决slot filling问题能用DNN吗?如下图,我们将Taipei向量化输入,但是该DNN可能只能告诉我们是不是Taipei,其他信息原创 2020-10-09 16:25:14 · 473 阅读 · 0 评论 -
深度学习优化大全(ReLu,Maxout,RMSProp,正则化,dropout)
Recipe of Deep Learning我们来回顾一下deep learning的步骤,定义一个函数的集合,然后找损失函数,然后在函数集和里挑选一个最佳的函数,这个最佳的函数就是Neural network,然后再看训练集上的表现如何?如果不好就重新进行红框框住的部分,如果训练集表现好,那么就看测试集上表现怎么样,如果测试集上表现不好,就说明过拟合了!!如果测试集表现好,则说明这个function是ok的。不要总是把loss大归因于过拟合,如下图:当我们看到测试集上56层的NN居然比20层的NN表原创 2020-10-04 14:46:05 · 934 阅读 · 0 评论 -
Convolutional Neural Network(卷积神经网络超详细解释)
Why CNN for Image?我们可以使用fully connect神经网络去进行图像识别,但是所需要的参数太多了!!我们要使用CNN(卷积神经网络)来简化。一个神经元不必接收整张图的特征,比如说我有一个判断鸟嘴的神经元,我只需如下图所示,将鸟嘴那一部分传给神经元。相同的pattern在不同区域时,我这个神经元就可以使用相同的参数来学习不同位置的pattern。将图像缩小也是减少特征值或参数的方法,如下图,subsampling后还是能分辨出是鸟。Convolutional Neur原创 2020-10-03 15:07:32 · 7245 阅读 · 1 评论 -
Backpropagation(反向传播经典解析)
A Question?我们用之前的梯度下降去找最佳的θ显然在神经网络里很麻烦,参数太多了,为了更有效率的计算梯度,我们使用反向传播。下面是链式法则,高数下册的东西:Backpropagation我们先看三角型框住的部分:如下图,损失函数对w求偏导,可以根据链式法则换成下述形式,z对w求偏导被称为正向传递,损失函数对z求偏导被称为反向传递先来看看正向传递,我们发现,z对权重w求偏导,结果就是input。下面是个例子,应该很容易看懂吧?z对w求偏导的值就是它的input。现在我们来计算损失函数原创 2020-10-02 23:30:35 · 207 阅读 · 0 评论 -
why deep learning?我们为什么要使用深度学习?
深度学习在语音识别的应用模块化在语音识别的应用,下图是人类语言的分层结构,比如what do you think?语言学家将其分为了若干phoneme(音位),但是由于人类的发音器官发出的同一个phoneme的声音可能不一样,因为会受到前后phoneme的影响,所以我们要将原本的phoneme加上前后的phoneme组成新的被称为tri-phone的model,也就是一个phoneme用不同的model去描述。然后一个model有若干种state。语音识别的第一阶段,输入时声音特征,我们把一段声音切成若原创 2020-10-02 22:43:10 · 454 阅读 · 0 评论 -
Deep Learning Neural Network
the history of Deep Learning下图描述了深度学习的应用率下图是深度学习的历史how to do deep learning如何去深度学习,分为以下三步:Neural Network step1第一步就是神经网络,下图红框处就可以代表一个神经元,神经网络的参数为θ,也就是所有的w和b的集合。因为神经网络就是由若干逻辑回归构成。下面我们来看看其中一种神经网络,完全连接前馈神经网络:就是把每根线都连上,除了初始值之外,剩下的神经元的输入就是上一次的输出,就这样一层一层的原创 2020-10-02 14:55:57 · 287 阅读 · 0 评论 -
Logistic Regression(逻辑回归原理)
Logistic Regression step我们用逻辑回归的方式直接找出w和b激活函数σ(z)在0~1之间,以0.5为分界线,可以很好的解决二分类问题。如上图,激活函数是怎么来的?由我之前的classification:probabilistic generative model这篇博客中可推出来σ(z)=P(C1|x),那么我直接找w,b,这个概率不就出来了吗?我们要怎么找出最好的w和b?如上图,假设训练集有N个样本,且只属于class1或class2。我们将这些样本都带进σ(z),然后将求原创 2020-10-01 17:41:32 · 458 阅读 · 0 评论 -
Classification: Probabilistic Generative Model
Warning of MathEnd of Warning原创 2020-09-30 21:02:19 · 157 阅读 · 0 评论 -
Gradient Descent(梯度下降详解)
Review Gradient Descent如上图所示,我们回想一下如何用梯度下降求最好的w和b。这里我们使用θ1和θ2两个参数,我们让这俩随机赋初始值。η是学习率,具体每次迭代的公式已写出。L(θ)是损失函数。【注】上述公式里面的那些符号就是求偏导和向量。。。。意会一下就清楚了Tuning your learning ratesAdagradStochastic Gradient DescentMake the training fasterFeature Sc原创 2020-09-29 22:34:05 · 1612 阅读 · 0 评论 -
bias and variance
Where does the error come from?回想一下宝可梦的案例,为什么式子变复杂了就裂开了??估计器就是一个函数(模型),我们将靶心看作最佳的函数,根据训练集,我们找到了一个f*,f通常都不是最佳,如下图f所在位置,f*就是最佳函数的一个估计器,bias是偏差,variance是方差。bias and variance如何选取集合中的样本去估计整个集合的平均值?如下图所示m是n个样本相加然后除以总的集合中样本数N所得,不一定等于平均值μ,但是我们可以计算期望,m的期望等于μ。原创 2020-09-28 17:54:09 · 138 阅读 · 0 评论 -
Regression Case Study
回归案例我们评估一只宝可梦在进化后的战斗力,这里有当前战斗力,宝可梦种类,宝可梦血量,重量,高度等特征值,我们将宝可梦放入一个函数里,其实就是将这些特征值放入函数里,然后输出进化后的cp值。步骤1我们假设只与当前cp值有关,且假设是一个线性回归模型。我们要在函数集合里面挑选一个最优的函数,也就是挑选最优的w和b。w和b会有一个初始值,然后不断被训练,直到得到最好的。步骤2...原创 2020-09-28 16:50:07 · 205 阅读 · 0 评论 -
西瓜书模型评估与选择
经验误差和过拟合一句话概括就是训练集的样本要尽可能好,尽可能准确,机器才会学到好的经验,这样预测才准确。过拟合就是加入了一些无关痛痒的特征,比如上图,是不是树叶跟有没有锯齿没有关系,所以有无锯齿不能作为特征;欠拟合指的是特征太少导致无法准确预测。评估方法不管什么评估方法,测试样本与训练样本要尽可能不同。留出法留出法简言之就是将已有数据集的80%作为训练集,20%作为测试集,通常是这么分的。然后要保证训练集里面正反例的比例与测试集的正反例比例要相同,这样才均匀。然后取样顺序也有可能导致不原创 2020-08-27 10:46:24 · 318 阅读 · 0 评论 -
西瓜书绪论解读
啥是机器学习机器学习就是自动寻找对应的函数关系,包括语音识别,图像识别,阿尔法go,对话系统等。我们怎样告诉机器我们想找的函数表达式??监督式学习:必须利用一些分好类的数据进行学习。下图的蓝框中的四张图片是我们的训练集,也是我们心里所认知的正确的输入和输出。当用f1作为函数时,该函数的输出全是狗,显然错了一半,也就是百分之五十,那么这个f1就不太好了,机器就会去寻找另一个函数,比如找到了f2,这时输出结果两猫两狗,错误率为0,那么这个f2就被找到了,以后就可以将全新的猫狗图片作为输入,用该f2原创 2020-08-26 21:08:46 · 296 阅读 · 0 评论