.DlD.-优快云博客

原创【万字】机器翻译MT全解析-文本预处理详解（Tokenization、BPE）--完整训练流程--损失函数、优化器、训练循环-评估指标详解（BLEU、ROUGE等）-解码策略 & 后处理详解

机器翻译的任务流程可以分为 **数据处理 → 模型训练 → 评估 → 预测 & 推理** 四个阶段

2025-03-09 23:29:11 1123

原创（学习记录）BERT每一层详解、公式、从零开始代码示例、文本分类任务、 Transformer 编码器

层次作用关键公式输入层将文本转换为词向量，添加位置信息和句子信息XX多头自注意力机制计算序列中每个词语对其他词语的关注度，捕捉全局依赖关系AttentionQKVsoftmaxQKTdkVAttentionQKVsoftmaxdkQKTV前馈神经网络通过非线性变换提高表达能力FFNxmax⁡0xW1b1W2b2FFNxmax0xW1b1W2b2残差连接 & 层归一化。

2025-02-23 15:55:34 1333

原创（学习记录）生成式自编码器（Variational Autoencoder, VAE）详解

VAE 既能进行数据降维，又能用来生成新数据，比如图片、文本等。让生成的 ( x’ ) 尽可能接近原始数据 ( x )（通常使用均方误差 MSE 或交叉熵）。普通自编码器的问题是，它只学习到了固定的编码 ( z )，无法生成新数据。，它不仅能进行数据压缩，还能生成新数据。其中 ( \beta ) 是一个超参数，控制 KL 散度的权重。不再输出一个固定的 ( z )，而是输出。让模型学习到合理的 ( p(z) )。

2025-02-22 20:13:18 615

原创（学习记录）无监督学习、自监督学习超详细自我解读——附代码示例

这种方法结合了无监督学习的优势，但它更像是在没有标签数据的情况下，通过给模型设计一种代理任务（pretext task），让模型自己创造标签，并通过这个任务来学习数据的特征。举个例子，如果你给我一个图片，并要求我去预测图像的一部分（比如遮住一个区域，要求我预测被遮挡的部分），我就可以通过这样的任务来学习图像的结构和特征。比如，假设我有两张图片，分别是“猫”和“狗”，通过对比学习，模型可以学习到“猫”和“狗”是不同的，而相同物体的不同图像应该有相似的特征。没有明确的答案指引，只能依靠数据本身的特点。

2025-02-22 15:24:16 965