
机器学习
文章平均质量分 67
卡伊德
我没有超能力,但我能用代码嗨翻你!
展开
-
因果学习篇(1)-后门准则
因果学习是一门从纯理论的角度解释现实存在问题的学科,为统计学无法解决的问题提供理论支撑。原创 2023-07-05 10:30:35 · 1455 阅读 · 0 评论 -
梯度下降
梯度下降adagrad每次学习率都会除以一个值,所以会更新越来越慢。所除的那个值恰好为函数的二次微分vanilla gradient descentstochastic只考虑一次的lossfeature scaling原创 2021-04-23 10:47:14 · 129 阅读 · 0 评论 -
Transformer 网络
Transformer从整体框架来讲,Transformer其实就是encode-decode框架,即就是编码解码。只不过在编码和解码的内部比较复杂,经过了多次复杂计算。比如说,encode编码阶段,其内部整体框架如图所示。在图上可以看出,首先输入所有的向量,然后经过多次block的计算,最终得到相同数量的输出结果向量。其中每个block内部包含一层自注意力机制、一层全连接层。同样,在自注意力机制中,计算每个向量时都会考虑其他元素。区别是,在transformer的自注意力机制结束后,.原创 2021-04-18 18:12:17 · 4977 阅读 · 0 评论 -
自注意力机制(Self-attention)
自注意力机制(Self-attention)背景最近,学了好多东西,今天看了一下李飞飞老师讲解的自注意力机制,因此在这记录一下,以供日后复习,同时自己学习消化知识也好。综述一般来说,模型的输入输出有三种: N个输入,经过模型计算后,输出N个结果,也就是对输入向量进行计算,从而得到每个向量对应的输出值。 N个输入,送入模型进行计算,最终得到一个结果。这就是平时常见的比如,文本分类、情感分析等。 任意个输入,输出任意个输出。这种在生活中也较为常见,比如机器翻译,对于一句原创 2021-04-17 18:04:34 · 9102 阅读 · 2 评论 -
浅析 集束搜索(Bean Search) 算法
集束搜索(Bean Search)背景 场景一:如果说,你想实现:输入一段语音片段,经过一一列操作,实现最后输出语音的内容。再此过程中,假如你不想随机输出一些结果,而想得到最好最优的输出结果,此时,则需要本算法。 场景二:实现机器翻译,输入一段法语,输出一段最有的翻译结果。方法:1. 使用的网络:2.词典3.思想与贪心算法不同,集束算法含有一个变量b(bean width), 用来存放在一次搜索中,搜索多少个可能的结果。例如:第一步:在搜索第一个词时,原创 2021-04-06 11:39:46 · 4523 阅读 · 0 评论 -
Resnet网络结构图和对应参数表的简单理解
ResnetResnet即就是残差网络,本文主要是对于resnet给出的网络结构图进行简单解释。网络结构图以上就是34层网络的网络结构图。以上是18层、34层、50层、101层以及152层网络所对应的残差块。我刚开始在网上看到这两张图片的时候,感觉一点都不懂,后面学了一下,稍微懂了,所以写下这篇博文做个记录。个人理解比如说第一张34层的网络结构图,它对应的是第二张图片的第四列。在第四列中,每一行的大概解释如下:第二行表示,从18层到152层的conv1都使用了64个7*7的卷积核,原创 2021-03-30 14:53:28 · 16414 阅读 · 4 评论 -
机器学习_1/2
机器学习概述机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测。数据集的构成存储类型:文件格式(如csv)可用的数scikit-learnKaggleUCI常用数据集数据的结构组成结构:特征值 + 目标值处理:pandas:一个数据读取非常方便以及基本的处理格式的工具sklearn: 对于特征的处理提供了强大的接口特征工程概念将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对位置数据的预测准确性意义直接影响预测原创 2020-08-20 23:26:15 · 232 阅读 · 0 评论