- 博客(4)
- 收藏
- 关注
原创 什么是数据增强
的技术,广泛应用于机器学习和深度学习领域(尤其是计算机视觉、自然语言处理等)。:增强后的数据必须保持原有标签的正确性(如翻转“6”可能变成“9”)。数据增强是低成本提升模型性能的利器,但需根据任务需求科学设计策略。:用LLM生成多样化的文本增强数据(如GPT-4生成问答对)。:利用对比学习(如SimCLR)自动学习有效的增强策略。:让模型适应真实世界的复杂变化(如光照、遮挡、方言)。:模拟真实世界的数据多样性,让模型学习更鲁棒的特征。:减少模型对训练数据中偶然噪声的依赖。,尤其在原始数据稀缺时尤为重要。
2025-04-04 18:57:51
273
原创 在大模型领域,什么是SFT(Supervised Fine-Tuning)
模型死记硬背训练数据 → 早停(Early Stopping)+ Dropout。:单一SFT可能损害其他能力 → 多任务联合训练(Multi-task SFT)。:类似“专业培训”——预训练让模型学会通用语言能力,SFT 教会它具体技能。(arXiv 2023):证明高质量SFT数据(少量但精准)可媲美RLHF。(监督微调),是训练大型语言模型(LLM)的核心技术之一。对模型进行有监督的精细调整,使其适应特定任务(如对话、摘要、分类等)。:通过SFT让模型理解复杂指令(如“请用学术风格重写”)。
2025-04-04 18:38:19
184
原创 解决在Google上使用autodl的jupyter下载文件时一直被拦截
所以我今天摸索了许久,网上不管什么办法都尝试了一遍,但最后都无济于事,治标不治本,最后偶然间发现了一个最有效的方式,虽然只对单个网页有效,但绝对比其他任何方法都好用。那怕点了保留短时间后依旧会被拦截,对于小文件来说麻烦一点倒是也能下载下来,但是对于大文件来说,实在是令人心力交瘁。需要注意的是,这只对单个页面有效,如果使用其他页面下载文件再次被拦截时则需要重复上述操作!这时,我们只需要点击它,然后点击最下面的网站设置,跳转到另一个界面,然后返回想要下载文件的界面,这时你就会发现下载的文件不会再被拦截了!
2024-08-05 15:50:12
435
原创 linux系统nvidia-smi指令输出NVIDIA-SMI has failed because it couldn‘t .. 或No devices were found
好了,步入正题,无论是上面那种情况,还是No devices were found,都是显卡丢失问题,其实在正常开发中,这种问题非常常见,像吃饭喝水一样正常。首先,执行下面这条指令你会进入linux系统的根目录,也就是我们常说的root目录,在这个目录下,你可以以sudo权限执行任何命令而不用在指令前加sudo,因为操作不可逆,所以慎用。如果我也这样教你的话,那真是白费了我耗时一整天才解决这个问题的功夫,其实不是我自己解决的,咨询了我身边的大佬,只用了两行命令就搞定OK,激动的我泪流满面。
2024-07-10 16:02:20
1369
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人