
dl
文章平均质量分 90
苏西月
爱丁堡大学就读学生
展开
-
Attention的V的理解
Q 和 K 只能告诉模型“你要关注谁”,但你要预测一个英文单词,必须从原句中取出具体的语义内容,也就是 V。如果你不提取 V,就相当于“知道要看谁,但不知道他讲了什么”——你就无法输出真正有语义的翻译结果。其实是在探讨“模型翻译为什么不能直接输出答案”,而是还得“提取语义”,还要搞什么 Q、K、V,这不多此一举吗?我们一步一步给出你完全能理解的回答👇你以为模型是:实际上模型是:看到 “i” → 输出 “我”看完整个句子 → 判断上下文 → 输出合适的词靠字典对照。原创 2025-03-24 04:31:35 · 541 阅读 · 0 评论 -
卷积神经网络(CNN)
层类型主要功能输出结构变化卷积层提取局部特征,保留空间结构变为多个 feature maps池化层降维,增强平移不变性,减少计算量降低 feature maps 的空间尺寸全连接层整合所有特征并用于最终分类或预测得到最终输出(如10类概率)原创 2025-03-22 07:00:49 · 973 阅读 · 0 评论