
深度学习知识点储备
文章平均质量分 82
细化到具体的知识点,从根本上整明白深度学习。
双木的木
种一棵树最好的时间是十年前,其次是现在。
展开
-
程序员学长 | 快速学会一个算法模型,LSTM
LSTM(Long Short-Term Memory)是一种特殊类型的循环神经网络(RNN),专门设计用来解决传统 RNN 在处理序列数据时面临的长期依赖问题。LSTM 的关键特征是其维持细胞状态的能力,细胞状态充当可以存储长序列信息的记忆单元。这使得 LSTM 能够随着时间的推移选择性地记住或忘记信息,使它们非常适合上下文和远程依赖性至关重要的任务。原创 2024-06-29 17:15:20 · 496 阅读 · 0 评论 -
触发字检测(Trigger Word Detection)
来源:Coursera吴恩达深度学习课程随着语音识别的发展,越来越多的设备可以通过你的声音来唤醒,这有时被叫做触发字检测系统(rigger word detection systems)。我们来看一看如何建立一个触发字系统。触发字系统的例子包括Amazon echo,它通过单词Alexa唤醒;还有百度DuerOS设备,通过"小度你好"来唤醒;苹果的Siri用Hey Siri来唤醒;Google Home使用Okay Google来唤醒,这就是触发字检测系统。假如你在卧室中,有一台Amazon e原创 2021-08-02 13:16:49 · 1559 阅读 · 0 评论 -
语音识别(Speech Recognition)
来源:Coursera吴恩达深度学习课程现今,最令人振奋的发展之一就是seq2seq模型(sequence-to-sequence models)在语音识别(speech recognition)方面准确性有了很大的提升。我们来看看seq2seq模型是如何应用于音频数据(audio data)的,比如语音(the speech)。什么是语音识别问题呢?有一个音频片段(audio clip)x,任务是自动地生成文本(transcript)y。一个音频片段,画出来是这样(横轴是时间)。一个麦克风的作原创 2021-08-02 10:55:27 · 5501 阅读 · 0 评论 -
注意力模型(Attention Model)
来源:Coursera吴恩达深度学习课程在注意力模型直观理解中我们看到注意力模型如何让一个神经网络只注意到一部分的输入句子。当它在生成句子的时候,更像人类翻译。让我们把这些想法转化成确切的式子,来实现注意力模型(Attention Model)。如上图所示,我们先假定有一个输入句子,并使用双向的RNN(bidirectional RNN),或者双向的GRU或者双向的LSTM,去计算每个词的特征(features)。实际上GRU和LSTM经常应用于这个,可能LSTM更经常一点。对于前向传播(for原创 2021-08-01 22:43:31 · 5432 阅读 · 2 评论 -
注意力模型直观理解(Attention Model Intuition)
来源:Coursera吴恩达深度学习课程本周的课程我们都在使用这个编码解码的构架(a Encoder-Decoder architecture)来完成机器翻译。当你使用RNN读一个句子,于是另一个会输出一个句子。注意力模型(the Attention Model)会使它工作得更好。注意力这种思想(the attention idea)已经是深度学习中最重要的思想之一,我们看看它是怎么运作的。假设有一个很长的法语句子,绿色的编码器读取并记忆整个句子,然后在感知机中传递(to read in the原创 2021-07-31 20:54:14 · 2163 阅读 · 4 评论 -
Bleu 得分-选修(Bleu Score-optional)
来源:Coursera吴恩达深度学习课程机器翻译(machine translation)的一大难题是一个法语句子可以有多种英文翻译而且都同样好,所以当有多个同样好的答案时,怎样评估一个机器翻译系统呢?图像识别(image recognition)只有一个正确答案,测量准确性(measure accuracy)就可以。如果有多个不错的答案,要怎样衡量准确性呢? 常见的解决办法是,通过一个叫做BLEU得分(the BLEU score)的东西来解决。接着让我们了解BLEU得分是怎样工作的。假如有一原创 2021-07-31 15:23:24 · 1622 阅读 · 2 评论 -
集束搜索的误差分析(Error analysis in beam search)
来源:Coursera吴恩达深度学习课程回忆一下,在这五门课中的第三门课3-2 Coursera吴恩达《构建机器学习项目》 第二周课程笔记-机器学习策略(2)中,我们讲解了误差分析是如何能够帮助集中时间做项目中最有用的工作,束搜索算法(beam search)是一种近似搜索算法(an approximate search algorithm),也被称作启发式搜索算法(a heuristic search algorithm),它不总是输出可能性最大的句子,它仅记录着B为前3或者10或是100种可能。那么原创 2021-07-31 14:22:49 · 586 阅读 · 1 评论 -
改进集束搜索(Refinements to Beam Search)
来源:Coursera吴恩达深度学习课程上篇文章介绍了基本的集束搜索(Beam Search),这篇文章我们进一步学习一些技巧,能够使算法运行的更好。如上图,长度归一化(Length normalization)就是对束搜索算法稍作调整的一种方式,帮助你得到更好的结果,下面介绍一下它。束搜索就是最大化这个概率:这个乘积也可以表示为如下形式:这就是乘积概率(the product probabilities)。这些概率值通常远小于1。很多小于1的数乘起来,会得到很小很小的数字,原创 2021-07-30 21:51:13 · 673 阅读 · 0 评论 -
集束搜索(Beam Search)
来源:Coursera吴恩达深度学习课程我们来看看集束搜索(beam search)算法,上篇文章选择最可能的句子讲了对于机器翻译来说,给定输入(法语句子),我们并不想要一个随机的英语翻译结果,而是想要一个最好的,最可能的英语翻译结果。对于语音识别也一样,给定一个输入的语音片段,我们不会想要一个随机的文本翻译结果,而是想要最接近原意的翻译结果,集束搜索就是解决这个最常用的算法。让我们用法语句子的例子来试一下集束搜索吧。“Jane visite l'Afrique en Septembre.”(法原创 2021-07-28 17:12:04 · 6218 阅读 · 0 评论 -
选择最可能的句子(Picking the most likely sentence)
来源:Coursera吴恩达深度学习课程seq2seq机器翻译模型和我们在之前学习的语言模型之间有很多相似的地方,但是它们之间也有许多重要的区别,让我们来具体看看。如上图第一行,这是一个条件语言模型(conditional language model),这个模型可以估计句子的可能性,这就是语言模型所做的事情。也可以将它来生成一个新的句子,输入x^<1>和x^<2>,那么在该例中x^<2>= y^<1>,但是x^<1>和x^<2.原创 2021-07-26 18:29:42 · 547 阅读 · 0 评论 -
序列结构的各种序列(Various sequence to sequence architectures)
来源:Coursera吴恩达深度学习课程seq2seq(sequence to sequence)模型在深度学习的应用中起到不错的作用,我们具体来看看。如上图所示,比如你想通过输入一个法语句子,比如这句 “Jane visite I'Afrique en septembre.”,将它翻译成一个英语句子,“Jane is visiting Africa in September.”。和之前一样,我们用x^<1>一直到x^<5>来表示输入的句子的单词,然后我们用y^<1原创 2021-07-23 22:31:09 · 483 阅读 · 0 评论 -
词嵌入除偏(Debiasing Word Embeddings)
来源:Coursera吴恩达深度学习课程现在机器学习和人工智能算法正渐渐地被信任用以辅助或是制定极其重要的决策,因此我们想尽可能地确保它们不受非预期形式偏见影响(they’re free of undesirable forms of bias),比如说性别歧视(gender bias)、种族歧视(ethnicity bias)等。本文章将展示词嵌入中一些有关减少或是消除这些形式的偏见的办法。本文章中使用术语bias时,不是指bias本身这个词或是偏见,而是指性别、种族、性取向方面的偏见,那是不原创 2021-07-14 19:31:43 · 964 阅读 · 0 评论 -
情感分类(Sentiment Classification)
来源:Coursera吴恩达深度学习课程情感分类(sentiment classification)就是看一段文本,然后分辨这个人是否喜欢他们在讨论的这个东西,这是NLP中最重要的模块之一,经常用在许多应用中。情感分类一个最大的挑战就是可能标记的训练集没有那么多,但是有了词嵌入,即使只有中等大小的标记的训练集,你也能构建一个不错的情感分类器,让我们看看是怎么做到的。如上图所示,这是一个情感分类问题的例子,输入x是一段文本,而输出y是要预测的相应情感。例如一个餐馆评价的星级,比如有人说,"Th原创 2021-07-14 18:49:54 · 6258 阅读 · 0 评论 -
GloVe 词向量(GloVe Word Vectors)
来源:Coursera吴恩达深度学习课程目前为止我们已经了解了几个计算词嵌入的算法,另一个在NLP社区有着一定势头的算法是GloVe算法,这个算法并不如Word2Vec或是Skip-Gram模型用的多,但是也有人热衷于它,Andrew认为可能是因为它简便(its simplicity)吧,我们来看看这个算法。Glove算法是由Jeffrey Pennington,Richard Socher和Chris Manning发明的,论文为:Glove: Global Vectors for Word原创 2021-07-14 16:00:07 · 4292 阅读 · 0 评论 -
负采样(Negative Sampling)
来源:Coursera吴恩达深度学习课程在Word2Vec文章中,我们见到了Skip-Gram模型如何构造一个监督学习任务,把上下文映射到了目标词上,它如何学到一个实用的词嵌入(word embedding)。但是它的缺点(downside)就在于softmax计算起来很慢。因此,学习一个改善过的学习问题叫做负采样(negative sampling),它能做到与Skip-Gram模型相似的事情,但是用了一个更加有效的学习算法,让我们来看看。在本视频中大多数的想法源于这篇论文:Distribut原创 2021-07-13 17:12:06 · 16465 阅读 · 2 评论 -
Word2Vec
来源:Coursera吴恩达深度学习课程上篇文章学习词嵌入中我们已经见到了如何学习一个神经语言模型来得到更好的词嵌入,在这篇文章将会见到 Word2Vec算法,这是一种简单而且计算时更加高效的方式来学习这种类型的嵌入,让我们来看看。本视频中的大多数的想法来源于幻灯片下方的这篇论文:Efficient Estimation of Word Representations in Vector Space。如上图,假设在训练集中给定了一个这样的句子:“I want a glass of orang原创 2021-07-12 17:30:36 · 975 阅读 · 0 评论 -
学习词嵌入(Learning Word Embeddings)
来源:Coursera吴恩达深度学习课程我们将要学习一些具体的算法来学习词嵌入(learning word embeddings)。从稍微复杂一些的算法开始,因为Andrew觉得这样更容易对算法的运作方式有一个更直观的了解,之后我们会对这些算法进行简化,我们开始吧。假如你在构建一个语言模型(language model),并且用神经网络(neural network)来实现这个模型。于是在训练过程中,你想要神经网络能够做到比如输入:“I want a glass of orange ___.”,原创 2021-07-12 15:47:39 · 1060 阅读 · 0 评论 -
嵌入矩阵(Embedding Matrix)
来源:Coursera吴恩达深度学习课程这篇文章将探讨学习词嵌入的具体化,当我们应用算法来学习词嵌入时,实际上是学习一个嵌入矩阵(embedding matrix)。和之前一样,假设我们的词汇表有10,000个单词,词汇表里有a,aaron,orange,zulu,可能还有一个未知词标记UNK。我们要做的就是学习一个嵌入矩阵E,它将是一个300×10,000的矩阵,如果你的词汇表里有10,000个,或者加上未知词就是10,001维。这个矩阵的各列代表的是词汇表中10,000个不同的单词所代表的不原创 2021-07-12 10:11:47 · 9371 阅读 · 3 评论 -
词嵌入的特性(Properties of Word Embeddings)
来源:Coursera吴恩达深度学习课程词嵌入(Word Embeddings)还有一个迷人的特性就是实现类比推理(analogy reasoning),尽管类比推理(reasonable analogies)可能不是自然语言处理应用中最重要的,不过它能帮助人们理解词嵌入做了什么,以及词嵌入能够做什么,让我们来一探究竟。如上图,这是一系列词嵌入可以捕捉的单词的特征表示,假如提出一个问题,man如果对应woman,那么king应该对应什么?我们应该都能猜到king应该对应queen。能否有一种算法原创 2021-07-06 13:37:12 · 503 阅读 · 0 评论 -
使用词嵌入(Using Word Embeddings)
来源:Coursera吴恩达深度学习课程我们已经了解不同单词的词汇表征(Word Representation),这篇文章将看到我们如何把这种表示方法应用到NLP应用中。如上图所示,我们用命名实体识别(named entity recognition)的例子,假如有一个句子:“Sally Johnson is an orange farmer.”(Sally Johnson是一个种橙子的农民),你会发现Sally Johnson就是一个人名,所以这里的输出为1。之所以能确定Sally Johns原创 2021-07-04 11:39:25 · 475 阅读 · 0 评论 -
词汇表征(Word Representation)
来源:Coursera吴恩达深度学习课程自然语言处理中一个很关键的概念就是词嵌入(word embeddings),这是语言表示的一种方式,可以让算法自动的理解一些类似的词。如下图,我们先开始讨论词汇表征(word representation)。目前为止我们一直都是用词汇表(vocabulary)来表示词,词汇表可能是10000个单词,我们一直用one-hot向量来表示词。比如man在词典里是第5391个,那么就可以表示成一个向量,只在第5391处为1,我们用O_5391代表这个量,这里的O代原创 2021-06-30 19:09:22 · 2440 阅读 · 4 评论 -
深层循环神经网络(Deep RNNs)
来源:Coursera吴恩达深度学习课程目前我们学习了不同RNN的版本,每一个都可以独当一面(already work quite well by themselves)。但是要学习非常复杂的函数,通常我们会把RNN的多个层堆叠在一起构建更深的模型,来构建一些更深的RNN。我们开始吧。如上图左侧,一个标准的神经网络,首先是输入x,然后堆叠上隐含层,所以这里应该有激活值,比如说第一层是a^[1],接着堆叠上下一层,激活值a^[2],可以再加一层a^[3],然后得到预测值y帽。深层的RNN网络如上图原创 2021-06-25 15:28:21 · 1660 阅读 · 1 评论 -
双向神经网络(Bidirectional RNN)
来源:Coursera吴恩达深度学习课程目前为止,我们已经了解了大部分RNN模型的关键的构件(key building blocks),还有两个方法(two more ideas)可以让你构建更好的模型,①双向RNN模型(bidirectional RNN),它可以让你在序列的某点处不仅可以获取之前的信息,还可以获取未来的信息。②第二个就是深层的RNN(deep RNN)。我们现在先从双向RNN开始吧。回顾命名实体识别的例子,在判断第三个单词Teddy是不是人名的一部分时,我们只看了前三个单词,原创 2021-06-24 20:22:11 · 9151 阅读 · 0 评论 -
长短期记忆网络(LSTM(long short term memory)unit)
来源:Coursera吴恩达深度学习课程上一篇文章我们学习了门控循环单元-GRU单元(Gated Recurrent Unit)。它能够实现在序列中学习非常深的连接。其他类型的单元也可以做到,比如LSTM即长短时记忆网络,甚至比GRU更加有效,让我们看看。如上图左侧是GRU的公式,有两个门(gates):更新门Γ_u(the update gate)和相关门Γ_r(the relevance gate)。LSTM是一个比GRU更加强大和通用的版本,这多亏了 Sepp Hochreiter和原创 2021-06-24 20:13:38 · 1360 阅读 · 4 评论 -
门控循环单元-GRU单元(Gated Recurrent Unit)
来源:Coursera吴恩达深度学习课程接下来我们将会学习门控循环单元(Gated Recurrent Unit),它改变了RNN的隐藏层,使其可以更好地捕捉深层连接,并改善了梯度消失问题,让我们看一看。如上图的公式,在RNN的时间t处,计算激活值,把这个RNN的单元用图形表示(上图左)。输入(input)上一个时间步激活值a^和x^,并起来乘上权重项,在这个线性计算之后,经过激活函数g(这里是tanh激活函数)后,得到激活值a^,然后将激活值a^传入softmax单元,用于输出y^。这张图就是原创 2021-06-24 10:04:20 · 2677 阅读 · 4 评论 -
带有神经网络的梯度消失(Vanishing gradients with RNNs)
来源:Coursera吴恩达深度学习课程基本的RNN算法还有一个很大的问题,就是梯度消失(vanishing gradients)的问题。如上图,这是个语言模型的例子。有两个句子:“The cat, which already ate ……, was full.”和“The cats, which ate ……, were full.”它们都有长期的依赖(have very long-term dependencies),前面的单词对句子后面的单词有影响。但是基本的RNN模型(上图编号1所示的网原创 2021-06-23 19:03:32 · 604 阅读 · 4 评论 -
对新序列采样(Sampling novel sequences)
来源:Coursera吴恩达深度学习课程当训练完一个序列模型之后,我们要想了解到这个模型学到了什么,一种非正式的方法就是进行一次新序列采样(have a samplenovel sequences),来看看到底应该怎么做。注意序列模型模拟了任意特定单词序列的概率,我们需要对这些概率分布进行采样(sample)来生成一个新的单词序列。如上图所示:①第一步:对你想要模型生成的一个词进行采样,输入(input)x^=0和a^=0,现在第一个时间步得到的输出是经过softmax层后得到的概率,然后.原创 2021-06-20 23:26:06 · 1185 阅读 · 3 评论 -
语言模型和序列生成(Language model and sequence generation)
来源:Coursera吴恩达深度学习课程在自然语言处理中,构建语言模型(language model)是最基础的也是最重要的工作之一,并且能用RNN很好地实现。在这个视频中,我们将学习用RNN构建一个语言模型。所以什么是语言模型呢?如上图,比如一个语音识别系统,你听到一个句子,“the apple and pear(pair) salad was delicious.”,所以究竟说了什么?是 “the apple and pair salad”,还是“the apple and pear sal原创 2021-06-19 16:38:52 · 1203 阅读 · 0 评论 -
不同类型的循环神经网络(Different types of RNNs)
来源:Coursera吴恩达深度学习课程到目前为止我们已经了解了一种RNN结构,它的输入量T_x等于输出数量T_y。事实上,对于其他一些应用,和l两者并不一定相等。在这个视频里,我们会看到更多的RNN的结构:如上图,比如音乐生成(music generation),T_x可以是长度为1甚至为空集。再比如电影情感分类(sentiment classification),输出y可以是1到5的整数,而输入是一个序列。在命名实体识别(name entity recognition)中,这个例子中输入长度原创 2021-06-19 16:11:54 · 1104 阅读 · 0 评论 -
通过时间的方向传播(Backpropagation through time)
《1.4 通过时间的方向传播》Backpropagation through time之前我们已经学过了循环神经网络的基础结构,在本节视频中我们将来了解反向传播(back propagation)是怎样在循环神经网络中运行的。和之前一样,当你在编程框架中实现循环神经网络时,编程框架通常会自动处理反向传播。但我认为,在循环神经网络中,对反向传播的运行有一个粗略的认识还是非常有用的,让我们来一探究竟。对于前向传播(上图蓝色箭头所指方向)怎样在神经网络中从左到右地计算这些激活项,直到输出所有的预测结果原创 2021-06-17 09:58:09 · 1206 阅读 · 0 评论 -
循环神经网络(Recurrent Neural Network Model)
现在我们讨论一下怎样才能建立一个神经网络来学习X到Y的映射。如下图所示。可以尝试的方法之一是使用标准神经网络,还是我们之前的例子,“Harry Potter and Herminoe Granger invented a new spell.”,把这9个输入单词(可能是9个one-hot向量),将它们输入到一个标准神经网络中,经过一些隐藏层,最终会输出9个值为0或1的项,它表明每个输入单词是否是人名的一部分。但结果表明这个方法并不好,主要有两个问题(problems):(1)是输...原创 2021-06-15 23:01:21 · 844 阅读 · 5 评论 -
RNN的数学符号(Notation)
来源:Coursera吴恩达深度学习课程本节先从定义符号(notation)开始一步步构建序列模型。如上图,你想要建立一个序列模型,它的输入语句是这样的:“Harry Potter and Herminoe Granger invented a new spell.”,(这些人名都是出自于J.K.Rowling笔下的系列小说Harry Potter)。假如你想要建立一个能够自动识别句中人名位置的序列模型,那么这就是一个命名实体识别问题(Name entity recognition),这常用于搜原创 2021-06-14 20:06:41 · 700 阅读 · 0 评论 -
为什么选择序列模型?Why Sequence Models?
来源:Coursera吴恩达深度学习课程带着遗憾重新启航!第五周《序列模型》开始啦!说明:记录学习笔记,如果错误欢迎指正!转载请联系我。原创 2021-06-12 20:15:31 · 429 阅读 · 0 评论 -
一维到三维的推广(1D and 3D generalizations of models)
来源:Coursera吴恩达深度学习课程《4.11 一维到三维的推广》1D and 3D generalizations of models到目前为止我们已经学习了许多关于卷积神经网络(ConvNets)的知识,从卷积神经网络框架,到如何使用它进行图像识别、目标检测、人脸识别与神经网络转换。即使我们大部分讨论的图像数据,某种意义上而言都是2D数据,考虑到图像如此普遍,我们所掌握的思想不仅局限于2D图像,甚至可以延伸至1D,乃至3D数据。如上图第一行,回忆之前学习的2D卷积,输入一个14×14原创 2021-06-01 19:14:56 · 697 阅读 · 0 评论 -
神经风格迁移-风格代价函数(Style cost function)
来源:Coursera吴恩达深度学习课程在上节视频中,我们学习了如何为神经风格迁移定义内容代价函数,这节课我们来了解风格代价函数(style cost function)。你有这样一张彩色图片,现在你选择了某一层l(蓝色框部分)去为图片的风格定义一个深度测量(deep measure),现在我们要做的就是将图片的风格定义为l层中各个通道之间激活项的相关系数(correlation)。如何知道这些不同通道之间激活项的相关系数呢?如上图,将不同的通道渲染成不同的颜色(这里假设有5个通道.原创 2021-05-31 15:25:24 · 872 阅读 · 0 评论 -
神经风格迁移-内容代价函数(Content cost function)
《4.9 内容代价函数》Content cost function我们先定义内容代价函数。如上图,(1)用隐含层l来计算内容代价函数,如果l是个很小的数,比如用隐含层1,这个代价函数就会使生成图片像素上非常接近内容图片。然而如果你用很深的层,那么你就会问,内容图片里是否有狗,然后它就会确保生成图片里有一个狗。所以在实际中,这个层l在网络中既不会选的太浅也不会选的太深。具体例子里通常会选择在网络的中间层,既不太浅也不很深,(2)然后用一个预训练的卷积模型,可以是VGG网络或者其他的网络也可以。接下原创 2021-05-30 21:33:45 · 617 阅读 · 2 评论 -
神经风格迁移-代价函数(Cost function)
要构建一个神经风格迁移系统,需要为生成的图像定义一个成本函数(cost function),通过最小化成本函数,可以生成你想要的任何图像。重新描述一下问题:给定一个内容图像C和一个风格图片S,目标是生成一个新图片G。为了实现神经风格迁移,定义一个关于G的成本函数J(G)来评判生成图像的好坏,然后使用梯度下降法最小化J(G)来生成新的图像G。定义成本函数的公式如下:第一部分被称作内容代价(content cost),这是一个关于内容图片和生成图片的函数,它是用来度量生成图片G的内容与内容...原创 2021-05-30 20:34:19 · 720 阅读 · 2 评论 -
深度卷积网络学习什么?(What are deep ConvNets learning?)-可视化
《4.7 深度卷积网络学习什么?》What are deep ConvNets learning?深度卷积网络到底在学什么?在这个视频中将展示一些可视化的例子,可以帮助我们理解卷积网络中深度较大的层真正在做什么,这样有助于理解如何实现神经风格迁移。看一个例子。这是一个Alexnet,轻量级网络,我们希望看到不同层之间隐藏单元的计算结果。从第一层的隐藏单元(hidden unit)开始,假设遍历了训练集,然后找到那些使得单元激活最大化的一些图片,或者是图片块(image patches)。即弄原创 2021-05-29 22:50:43 · 853 阅读 · 0 评论 -
什么是神经风格迁移?(What is neural style transfer?)
卷积神经网络最有趣的应用是神经风格迁移(neural style transfer)。什么是神经风格迁移?让我们看几个例子。如上图左边,左边的照片是在斯坦福大学拍摄的,右边是梵高的星空,神经网络风格迁移可以生成下面这张照片。这仍是斯坦福大学的照片,但是用右边图像的风格画出来。为了描述如何实现神经网络迁移,使用C来表示内容(content)图像,S表示风格(style)图像,G表示生成的图像(generated image)。下面再看一个例子,上图右边。C代表旧金山的金门大桥,S是毕加索...原创 2021-05-28 20:33:58 · 1128 阅读 · 0 评论 -
人脸验证与二分类(Face verification and binary classification)
来源:Coursera吴恩达深度学习课程听着五月天的《仓颉》,五月的每一天都是五月天。三元组损失(Triplet loss)是一个学习人脸识别卷积网络参数的好方法,还有其他学习参数的方法,让我们看看如何将人脸识别当成一个二分类问题(binary classification problem)。另一个训练神经网络的方法是选取一对神经网络,选取Siamese网络,使其同时计算这些嵌入(embedding),比如说128维的嵌入,或者更高维,然后将其输入到逻辑回归单元,然后进行预测,如果是相同的人原创 2021-05-27 17:02:26 · 1308 阅读 · 0 评论