- 博客(66)
- 收藏
- 关注
原创 Language Models are Few-Shot Learners,GPT-3详细讲解
Language Models are Few-Shot Learners,GPT-3详细讲解
2025-03-14 15:14:07
1321
原创 Language Models are Unsupervised Multitask Learners,GPT-2详细讲解
Language Models are Unsupervised Multitask Learners,GPT-2详细讲解
2025-02-25 17:56:21
925
原创 Improving Language Understanding by Generative Pre-Training GPT-1详细讲解
GPT1详细讲解
2025-01-08 15:30:47
1148
原创 Selective attention improves transformer详细解读
selective attention简单且无需额外参数的选择性注意力机制,通过选择性忽略不相关信息并进行上下文剪枝,在不增加计算复杂度的情况下显著提升了Transformer模型的语言建模性能和推理效率。
2024-11-15 18:34:57
644
1
原创 大模型LLM技术
大模型训练与优化步骤:预训练、微调、对齐1. 指令微调:LoRA、QLoRA、AdaLoRa、DoRA、LoftQ、GaLore、Mixture of LoRAs、Quantization2. 对齐技术:DPO、KTO、IPO、SimPO、RLHF3. 量化技术:GPTQ、SmoothQuant、AWQ、GGUF、ZeroQuant4. 多模态技术:MoE-LLaVA、Mini-Gemini、VideoLLaMA25. 其他微调技术:Prefix Tuning、Adaptor Tuning、Flas
2024-07-23 14:05:56
202
原创 PANNs: Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition论文总结
PANNs 音频标记、音频分类等
2024-07-15 16:01:31
757
原创 linux下直接使用别人的anaconda环境,copy别人环境
1.直接使用别人的anaconda安装环境source /home/XXX/anaconda3/bin/activateconda activate labelme2.copy anaconda环境cp -r /home/XXX/anaconda3/envs/x-anylabeling /home/YYY/anaconda3/envsconda config --append envs_dirs /home/YYY/anaconda3/envsconda activate x-anyl
2024-05-23 17:08:12
1167
1
原创 Word2Vector介绍
word2vec也叫word embeddings,中文名“词向量”,google开源的一款用于词向量计算的工具,作用就是将自然语言中的字词转为计算机可以理解的稠密向量。Word2Vec是一种将文本中的词进行嵌入(Embedding)的方法,而所谓嵌入,就是将各个词使用一个定长的向量来表示,Embedding其实就是一个映射,将单词从原先所属的空间映射到新的多维空间中,也就是把原先词所在空间嵌入到一个新的空间中去。通过这种方法,我们可以获得一个词的扩展词,即与其相似的词。
2024-01-03 17:42:16
997
原创 AIGC智能创作时代一书总结
GPT-1:核心思想是将无监督学习作用于监督学习模型的预处理目标,先通过在无标签的数据上学习一个通用模型,然后根据问答和常识推理等特定自然语言处理任务微调模型,半监督学习。强化学习:强化学习并不是对数据本身学习,而是在给定的数据环境中,让智能体学习如何选择一系列行动,来达成长期累积收益最大化的目标,强化学习本质是学习一套决策系统而非数据本身。GPT-2:在语言模型领域,所有监督学习都可以看作无监督学习的子集,当模型的容量非常大且数据量足够丰富时,无监督学习的语言模型就可以覆盖所有有监督学习的任务。
2023-12-13 17:58:28
179
1
原创 目标检测常用评价指标
有时这两个是矛盾的,比如只检测出了一个结果,且是正确的,那么P就是100%,但是R就会很低。ROC曲线:就是选择不同的置信度阈值,以FPR=FP/(FP+FN),即错误预测正样本/所有预测负样本,为横坐标, TPR=TP/(TP+FN)=Recall为纵坐标。PR曲线:就是选择不同的置信度阈值,得到的不同组合的P,R,以R为横坐标,P为纵坐标绘制而成。在ROC曲线中,以FPR为x轴,TPR为y轴,FPR指实际负样本中被错误预测为正样本的概率。R低P高:识别出的飞机都是正确的,但还有很多飞机没被识别出来。
2023-11-29 13:52:16
534
原创 torch onnx 权重对比一致性
torch与onnx权重layer weight 对比是否一致。torch与onnx各层权重layer weight提取。
2023-11-07 15:42:23
196
原创 torch中输入图像是否需要提前resize对结果的影响
在实际C++代码部署中,如mxnet c++部署,如果部署时采用cv2.resize,先cv2.resize训练集再训练可以减少这种size问题导致的score敏感问题。A. 测试采用transforms.Resize((224,224))方式resize图像测试。训练采用transforms.Resize((224,224))方式resize图像训练。B. 测试采用cv2.resize(img,(224,224))方式resize图像测试。二者结果有时候差异比较大。输入尺寸对结果的影响。
2023-11-02 15:23:05
264
原创 torch mxnet c++结果对比实验
net模型和block模型数据demo,验证原图输入和resize input之后作为输入的结果比较。net和block模型过拟合,resize input影响较大。
2023-10-31 18:04:05
64
原创 torch转onnx onnx转mxnet中遇见的问题
transform.Normalize((0.5,0.5,0.5),(0.5,0.5,0.5)) 数据标准化 (x/255-0.5)/0.5∈[-1,1]转换为mxnet数据标准化为:(x-127.5)*(1/127.5)=(x-127.5)*0.00784313725490196。通过强制将图像resize到输入大小后,torch、onnx、mxnet(python)、mxnet(c++)结果一致。原因:模型训练过拟合原因,resize方式不一样,影响波动比较大。
2023-10-31 09:46:59
133
原创 模型训练优化trick
3.train loss不断下降,test loss趋于不变,过拟合:(1)正则化和降维(2)降低模型复杂度 (3)获取更多数据集、数据增强。翻转,旋转,裁剪,缩放,平移,抖动、Mixup、Cutout、Cutmix、Mosaci等。4.train loss趋于不变,test loss不断下降:数据集有问题,检查数据集。6.train loss不断上升,test loss不断上升:数据清洗,超参设置不当。(7)batch size过小,loss动荡,难以收敛,过大收敛过快陷入局部最优解。
2023-07-10 11:04:33
195
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人