- 博客(9)
- 收藏
- 关注
原创 fun-transformer 1月组队学习task05笔记 #Datewhale组队学习
python定义四个单词的词向量,每个向量维度为3将词向量堆叠成一个矩阵`words` 是一个 4x3 的矩阵,每一行代表一个单词的词向量。这个过程展示了如何使用 NumPy 和 SciPy 实现一个简单的注意力机制。注意力机制的核心思想是通过动态计算权重来聚焦于输入序列中最相关的部分,从而生成更准确的输出。这个过程可以扩展到更复杂的模型,如 Transformer 模型中的自注意力机制。自注意力机制通过计算输入序列中不同位置之间的依赖关系,能够捕捉到序列中的全局信息。
2025-01-27 11:57:17
621
原创 fun-transformer 1月组队学习task04笔记 #Datewhale组队学习
Transformer模型中解码器的设计和应用,强调了掩码机制在序列生成任务中的重要性。通过对比解码器和编码器的多头自注意力机制,以及如何在训练和生成过程中有效地使用这些机制。评估模型预测出的整个句子的质量,并提出了计划采样策略以解决训练和生成阶段的一致性问题。为Transformer模型中的解码器提供了深入的理论和实践指导。通过对中英文分词方法的对比分析,中文分词的特殊性和难点。典型分词方法的优缺点,说明深度学习方法在处理复杂分词任务中的潜力。
2025-01-24 11:00:59
800
原创 fun-transformer 1月组队学习task03笔记 #Datewhale组队学习
Transformer模型通过自注意力机制实现了序列数据的并行处理,极大地提高了模型的效率和性能。本文详细描述了Transformer模型中Encoder的工作流程及其核心组件,包括多头自注意力机制、残差连接、层归一化和前馈全连接网络。初始输入:第一个Encoder子模块接收来自嵌入和位置编码组合后的输入。后续输入:其他Encoder子模块从前一个Encoder接收输入,形成顺序传递信息的链路。多头自注意力层处理:每个Encoder子模块首先通过多头自注意力机制计算输入序列不同位置之间的关联关系。前馈层处理
2025-01-21 11:15:06
553
原创 fun-transformer 1月组队学习task02笔记 #Datewhale组队学习
【代码】fun-transformer 1月组队学习task02笔记 #Datewhale组队学习。
2025-01-18 11:41:15
899
原创 fun-transformer 1月组队学习task01笔记 #Datewhale组队学习
定义:Seq2Seq模型是一种输入和输出均为序列的模型,其输入序列与输出序列的长度具有可变性。优势:该模型支持端到端的学习方式,能够处理长度不一的序列数据,具备信息压缩与表示的能力,并且具有较强的可扩展性。缺点:信息压缩可能导致细节的丢失,存在短期记忆的限制,并且容易出现暴露偏差。
2025-01-15 14:52:58
591
原创 Datawhale X 魔搭 AI夏令营 - AIGC文生图方向Task3笔记
LoRA (Low-Rank Adaptation) 微调是一种用于在预训练模型上进行高效微调的技术。它可以通过高效且灵活的方式实现模型的个性化调整,使其能够适应特定的任务或领域,同时保持良好的泛化能力和较低的资源消耗。这对于推动大规模预训练模型的实际应用至关重要。
2024-08-17 22:39:35
663
原创 Datawhale X 魔搭 AI夏令营 - AIGC文生图方向Task2笔记
目前大部分模型具备去除“AI味”的能力,但可能存在误导他人的情况,辨别时需注意观察图片细节,包括人物面部特征、光线和阴影、像素、背景等。过去文生图主要以 SD 系列基础模型为主,仅支持英文的prompt,但可图是支持中文的文生图模型,文生图的prompt格式较为固定,:LoRA(Low-Rank Adaptation)的秩,它是一种微调技术,用于调整模型的特定层,而不改变整个模型的结构。:技术应当是向善的,应当提高对人的教化,人们使用AI而不是AI使用人类,没有恶的人便没有恶的AI。
2024-08-14 22:38:20
464
原创 文生图挑战赛note——by小闲闲
文生图的起源:于早期计算机视觉和图像处理研究,早期技术依赖规则和模板匹配,生成图像质量低、应用场景有限。2000年代的发展,随着统计模型和机器学习技术发展,文生图技术受关注,利用概率图模型和统计语言模型生成图像,但仍受模型复杂性和计算资源限制。2010年代的突破,深度学习使文生图技术取得突破,GAN模型提升了图像生成质量,变种GAN模型使生成逼真图像达到新高度。
2024-08-11 11:42:53
1114
原创 Datawhale AI夏令营--电力需求预测挑战赛
way:LightGBM(Light Gradient Boosting Machine)是一个实现GBDT算法的框架,支持高效率的并行训练,并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以快速处理海量数据等优点。窗口统计可以构建不同的窗口大小,然后基于窗口范围进统计均值、最大值、最小值、中位数、方差的信息,可以反映最近阶段数据的变化情况。可以将d-1时间的信息给到d时间,d时间信息给到d+1时间,这样就实现了平移一个单位的特征构建。依据评分公式,分数是越低越好,优化后提升是比较多的。
2024-07-17 23:08:55
642
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人