- 博客(13)
- 收藏
- 关注
原创 Mamba和S4解读
为了达到这种效果,作者使用了HIPPO理论,去利用之前的输入信号构建当前时刻的输入信号;与傅里叶变化的差距是,对最近的信号拟合较好,对于较远的拟合平均值。可以并行化训练,又能够像RNN一样有线性的时间复杂度,同时可以预测每一个token的时候只需要恒定的内存消耗(例如像RNN一样O(1))B,C,Delta由输入的函数决定,不再固定;一个yk的计算可以放在GPU的一个线程上完成,虽然构建卷积核可能很昂贵但是这加快了速度。上面的结构非常适合大模型推理,每次推理时不会关注过去的状态,但不太适合训练。
2024-03-09 13:18:56
2016
原创 多模态模型及大模型总结
Diffusion model给定一张图片,通过T次累计添加一系列高斯噪声,随着T增大该图片越来越接近纯噪声;(前向加噪)逆向去噪()
2023-12-22 10:48:41
1144
1
原创 计算机视觉&多模态算法实习面试记录
百度一面自我介绍:第一次面有点瓢嘴介绍科研项目如何使用的CLIPOpen-vocab和zero-shot介绍比赛项目——多模态行车数据视频介绍任务是什么自定义数据集?Yolo v8介绍CLIP如何判断和缓解过拟合?batch_size对模型训练有什么影响?应该如何设置?(答的跑到GPU内存上限)代码题给定单调数列有正有负,要求输出平方之后的单调数列实习时间反问具体业务进来工作:可以发论文和专利,有点心动点评面试对扩散模型的看法用过BLIP吗(没有)介
2023-12-20 17:11:46
3763
2
原创 大模型应用开发
借助于无标注数据训练,可以用于大量下游任务;多个应用可以依赖于极少的几个大模型统一建设可以对话交互LLaMA:MetaGLM:Tsinghua通义千问:阿里巴巴Baichuan:百川智能输入给LLM的文本或问题,接收到的输出是Completion大模型调用百度文心一言两层认证首先需要获取密钥API Key、Secret Key,然后基于密钥获取access_token,利用access_token进行调用定义一个继承自 LLM 类的自定义 LLM 类:要实现自定义 Embeddings,需要定义一个
2023-11-14 12:48:16
953
1
原创 深度学习GPU使用踩坑记录
GPU OUT OF MEMORYpytorch 关于显存增长原因以及显存占用优化pytorch运行程序显存一直在增加Pytorch中多GPU并行计算教程
2023-10-25 10:11:52
107
1
原创 AE&VAE&VQ-VAE
AE无监督训练的方式,对于输入的x经过一个Encoder层后得到一个特征向量z再将该向量 z通过一个Decoder层得到最终输出 x’,通过最小化重构模型的输入x和模型的输出x’的误差来训练一个好的低维特征向量z缺点:模型在训练的时候并没有显性对中间变量的z分布进行建模P(z),在模型训练时所采用的f(z)是有限的在全月和半月中采样一个点,大概率得到不能够生成有效图片的点。因为模型没有很好的建模z空间外的点VAE:Auto-Encoding Variational BayesEnco
2023-10-17 22:00:53
237
原创 Pytorch(Python)常用操作
我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:撤销:Ctrl/Command + Z重做:Ctrl/Command + Y加粗:Ctrl/Command + B斜体:Ctrl/Command + I标题:Ctrl/Command + Shift + H无序列表:Ctrl/Command + Shift + U有序列表:Ctrl/Command + Shift + O检查列表:Ctrl/Command
2023-08-06 20:27:40
242
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人