- 博客(87)
- 收藏
- 关注
原创 Transformer学习
encoder和decoder基本一样,decoder多了一个masked mutil-head attention。因为decoder计算每次都依赖前一个节点的输出,所以a_n只能看到1~n个节点的输出。NAT的表现通常不如AT。原因:multi-modality。增加一个停止token,一般来会跟begin用一个符号。因为有的语言没有文字,比如将狗叫翻译出来。将任务转化成翻译任务,硬训一发,效果不错。
2023-10-05 22:20:10
595
原创 Transformer学习-self-attention
cnn就是self-attention的特例。self-attention更灵活,但是如果训练集小可能更容易过拟。5. self-attention for Graph:用attention来表示nodes之间的关联。
2023-10-03 17:00:09
459
原创 wangshusen学习笔记
难度:计算量巨大 – 需要每次从0开始训练CNN,最后用CNN的val 作为奖励来训练controller RNN。如果用上述超参搭建20个卷积层可能的组合有(4 * 3 * 2) ^ 20 = 4 x 10 ^ 27种。2. search space巨大,尝试数量太小,不容易找到特别好的结构;Ray(推荐的开源系统,better than spark);随机设置超参 --train–> CNN model --evaluate–> val acc。重复该过程多次,选择其中val acc 最好的超参配置。
2023-09-13 17:18:54
316
原创 大模型微调总结
数据:预训练数据分布和特定任务数据分布不一致 ==>将特定任务、场景的语料的内在关系融入大模型参数中,同时和预训练的通用语料建立联通关系。缩小预训练数据和业务数据的差异,增强对业务数据的理解能力。在某些特定任务上无法达到实际业务需求 or 性能差无法直接使用 ==> 改善特定任务下欠拟合程度。==> 所需资源、训练时间最大,且当语料不够大时容易过拟。==>前缀保留部分序列长度会减少下游任务的序列输入长度。==>难以优化,性能随可训练参数的规模非单调变化。==> 没有额外的推理延时,大致收敛于基座模型。
2023-09-05 22:06:15
806
原创 大模型综述论文笔记1-5
通过神经网络来表征单词序列的概率问题。通过 model size (N), dataset size (D), and the amount of training compute © 三个因素来衡量神经网络模型的表现。3.LLMs的发展不需要明确区分以研究或是工程化为目的,LLMs的训练需要大数据处理和并行训练这些更实际的经验。LLMs 可以适配相同结构的transformer 并可以作为小模型的与训练模型。1.LLMs表现出在更小的PLMs中可能无法观察到的更惊人的能力。
2023-08-29 23:53:13
1545
1
原创 MMCV+pytorch1.10+cu11.x离线安装踩坑记录
mmcv/mmdet/mmpose/mmengine 依赖的其他wheel包对python版本有要求,安装过程中请注意!mmdet、mmpose、mmengine在pypi仓库可以找到对应python版本的包,直接下载安装。方案:参照第一节重新安装pytorch,如果问题没有解决再参照第二节重新安装mmcv。如果仍然报错,可能是pytorch版本不对,参照第一节重新安装pytorch。方案:卸载mmcv-full、mmcv,重新安装mmcv2.0.0rc4。
2023-08-28 10:09:30
1920
2
原创 MySql-丁奇-学习笔记-普通索引和唯一索引如何选择?(change buffer机制)
普通索引和唯一索引应该如何选择?change buffer 详解
2020-11-30 11:32:57
345
原创 MySql日志
Bin log、Redo log、Undo log详解为甚么redolog要有两阶段提交回滚日志啥时候删除binlog一天一备和一周一备哪个更好
2020-11-23 00:19:38
233
原创 java.lang.IllegalStateException: Unable to find a @SpringBootConfiguration, you need to use @Context
java.lang.IllegalStateException: Unable to find a @SpringBootConfiguration, you need to use @ContextConfiguration or @SpringBootTest(classes=...) with your test
2020-10-26 17:12:09
158
原创 SpringBoot如何将自定义Servlet,Filter,Listener,ViewResolver
自定义servlet,filter,listener+springboot 代码
2020-10-26 17:02:04
278
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人