- 博客(22)
- 收藏
- 关注
原创 常见MLLM
最高支持4k的图像,最后切分的图像为448,所以先根据图像本身的宽高选择改动最小的宽高比进行resize,然后切分为448 * 448的子图,同时原始图像也会直接resize到448, 在训练时最多切分得到12个子块,推理时可以到40个子块。其实就是Qformer单层的cross attn, 使用一256个可学习的查询向量,作为cross attn的Q,来自vit的图像特征作为K,实现对长序列图像特征的降维为256,同时在cross attn中引入2D的位置编码,嵌入patch的位置信息。
2024-08-02 12:40:52
399
原创 复现Gpt2-124M
vocab_size: 50257,但是token_embedding初始化为(50304,768),提高GPU利用率。(n为tranformer layer num, 一个layer包含attn和mlp的两个残差结构)使用huggingface构造的fineweb_edu-10B token数据进行1epoch预训练。attention层的Wo和Mlp层的down层权重初始化为。训练吞吐量为单卡:~0.3M/sec。权重初始化标准差:0.02。训练时长:~10hours。
2024-06-28 10:35:02
1033
原创 大模型算法工程师24年秋招面试经验记录
GPT1 GPT2 GPT3 Bert Llama Llama2 Falcon T5 Chat-GLM tokenizer BPE Word Piece BPE BPE postion embedding 可学习位置矩阵 可学习位置矩阵 RoPE RoPE 2D位置编码 optimizer Adam
2024-03-23 10:47:01
199
原创 GPT系列模型
sparse attention,对于一个token老说,只针对与其相对距离在k以内,基于k、2k、3k这个样递增相对位置的token计算attention, 其他的attention为0。2) 然后寻找频率最高的字母对进行merge,加入词汇表,然后看做一个新的字母,可以和剩余字母组合成字母对。1. GPT1的微调损失由有监督微调损失和预训练损失构成,通过添加预训练损失提升模型的训练效果。*对于近距离的token投入更多的关注,对于远距离的token投入较少的关注。2. 激活函数:GLUE。
2024-03-21 14:20:11
356
1
转载 关于Ubuntu18.04桌面版脚本文件xsync在进行文件传输时输入密码出现Permission denied, please try again.的问题
修改分发主机的ssh的sshd_config文件中的PermitRootLogin为yes即可,其余被分发的主机可以不用设置。
2022-09-27 16:46:23
574
原创 2021-06-30
创建基于轻骑兵开发平台的第一个测试项目员工工资信息管理模块一、使用代码生成器生成员工信息模块代码二、设置资源管理三、设置菜单资源四、刷新页面员工工资信息管理模块实现对员工工资信息的增、删、改、查。前期准备,在数据库中创建一个salaryinfo表一、使用代码生成器生成员工信息模块代码第一个是项目路径,这里要填写生成代码的路径。第二个模块是注释信息,主要包含作者和业务名称,用来生成简单的注释。第三个模块是表信息,指向salaryinfo表,也是最重要的一个模块,选择好要生成文件的数据库表,会自动
2021-06-30 11:10:55
148
原创 2021-06-29
暑期实训配置基于轻骑兵开发平台的薪酬管理系统环境配置基于轻骑兵开发平台的薪酬管理系统环境开发工具:IntelliJ IDEAJDK版本:1.8项目框架:Beelt、Layui、数据库:mysql数据库管理工具:Navicat...
2021-06-29 17:03:06
184
原创 HarmonyOS开发去掉title
在module节点中添加如下代码:"metaData":{ "customizeData":[ { "name": "hwc-theme", "value": "androidhwext:style/Theme.Emui.NoTitleBar", "extra":"" } ] }
2021-02-10 15:03:31
597
转载 scanf的骚操作:scanf接收空格
// 来源:公众号【编程珠玑】// 作者:守望先生#include<stdio.h>int main(void){ char a[128] = {0}; scanf("%[0-9]",a); printf("%s\n",a); return 0;}上面的代码什么意思呢?试一下几个输入输出: 示例0:输入:13579 &n
2021-01-20 22:43:55
1236
原创 C语言接收用空格间隔并回车结束的一串数字
int n[100];int i = 0;do{ scanf("%d", &n[i++]);}while(getchar != '\n' );scanf能根据设置的%d识别输入的内容跳过空格。而getchar则全盘一一接收输入的字符包括最后的回车’\n’,以此作为输入结束的判断。...
2020-11-20 09:17:30
2721
1
原创 7-26 单词长度 (15分)
7-26 单词长度 (15分)你的程序要读入一行文本,其中以空格分隔为若干个单词,以.结束。你要输出每个单词的长度。这里的单词与语言无关,可以包括各种符号,比如it’s算一个单词,长度为4。注意,行中可能出现连续的空格;最后的.不计算在内。输入格式:输入在一行中给出一行文本,以.结束提示:用scanf("%c",…);来读入一个字符,直到读到.为止。输出格式:在一行中输出这行文本对应的单词的长度,每个长度之间以空格隔开,行末没有最后的空格。输入样例:It’s great to see you
2020-11-09 20:27:30
2198
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅