- 博客(10)
- 收藏
- 关注
原创 第八节 生成任务_大模型_Transformer_大模型
编码器负责理解输入序列,并将其转换为上下文相关的表示。解码器基于编码器的输出生成输出序列,通常用于生成任务,如机器翻译、文本摘要等。希望这个详细的解释能帮助你更好地理解Transformer模型的结构和工作原理!如果有任何具体的部分需要进一步解释,请告诉我。
2025-03-11 18:34:02
2037
原创 第七节 自然语言处理与Bert
从字的表示到BERT的完整架构,NLP模型的演进始终围绕“如何更好地理解上下文”展开。BERT的成功得益于Self-attention的并行化能力和自监督预训练策略。理解这些核心思想后,读者可进一步探索BERT的变体(如RoBERTa、ALBERT)及在多语言、多模态任务中的应用。代码示例(使用Hugging Face库)inputs = tokenizer("自然语言处理很有趣!# 获取整句特征([CLS]向量)通过这一结构,读者可逐步理解从基础概念到BERT实现的全链路逻辑,同时兼顾技术深度与可读性。
2025-03-04 18:28:39
1698
原创 第六节 深度学习与特征_无监督学习_生成式自监督学习_学习率
无监督学习的力量在深度学习的旅程中,我们常常会面对一个看似简单的命题:如何从输入数据中提取出有价值的特征。特征的提取是整个模型训练的核心,但这一过程往往充满挑战。尤其是当我们的数据缺乏标签时,如何有效地进行无监督学习成为了至关重要的课题。
2025-03-04 18:28:14
1670
原创 第五节 食品分类项目(面向小样本数据的半监督图像分类模型研究)
数据增广是一种通过对原始数据进行人工变换生成新样本的技术,目的是增加数据的多样性,减少模型对训练数据的过拟合。例如,在图像任务中,对图片进行旋转、翻转、裁剪、调整亮度等操作,生成看似不同但标签不变的样本。数据增广是提升模型泛化能力的低成本手段。AdamW在复杂任务中表现更稳定,推荐优先尝试。迁移学习通过重用特征提取器,显著降低训练成本。线性探测适合快速验证,而微调能释放模型的全部潜力。实际项目中,通常会将以上技术结合使用:先用数据增广和线性探测快速验证模型可行性,再通过微调进一步优化性能。
2025-03-04 18:27:56
817
原创 第三节 简单的回归神经网络项目
定义一个名为CovidDataset的类,继承自Dataset# 初始化方法,接受文件路径file_path,模式 mode(默认为 "train"),是否使用所有特征 all_feature(默认为 True),以及特征维度 feature_dim(默认为 6)# 打开文件 file_path,以读取模式 r 读取文件内容# f是一个文件对象# 使用 csv.reader 读取 CSV 文件内容,将每一行转换为一个列表,并存储在 ori_data 中。
2025-02-17 15:59:24
756
原创 蓝桥杯学习计划
尺取法(https://ac.nowcoder.com/acm/contest/23899/D)@TOC欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将会带来全新的写作体验;
2021-11-15 00:04:12
866
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅