- 博客(20)
- 收藏
- 关注
原创 resnet网络
随着层数增加,理论上更深的网络应该具有更强的学习能力。但实验发现,普通的深度网络(如 VGG)在深度增加后,训练误差反而会增大,说明深层网络并没有比浅层网络表现更好。这种现象被称为“退化问题”。瓶颈结构减少了计算成本,使得更深的 ResNet 变种(如 ResNet-101、ResNet-152)更高效。,成功训练了非常深的神经网络,如 ResNet-50、ResNet-101 和 ResNet-152。当网络变得很深时,反向传播时的梯度可能会变得非常小,导致前几层的参数更新极为缓慢,使得网络难以训练。
2025-02-25 15:11:19
251
原创 Transformer入门
3 解码器:掩码头注意力层,相加,层归一化输出Q,多头注意力层,相加,层归一化,前馈网络层,相加,层归一化,全连接层,归一化指数函数。每个token的向量与各token向量相乘,该数在进行归一化,得到token与其它token的相关度,得到时新的向量。解码器的多层堆叠会处理整个序列的每个时间步,但我们只关心当前时间步的输出。多头怎么分:使用多个q,k,v,维度是(vec,len(vec)/n_head),输出是合并后的多头。2 编码器:多头注意力层,相加,层归一化,前馈网络层,相加,层归一化。
2025-01-03 14:03:49
680
原创 从0开始训练自己的tokenizer
以下是对这三种分词器的详细介绍。Hugging Face Tokenizer 是 Hugging Face 生态系统中的一个关键组件,用于自然语言处理(NLP)任务中的文本预处理。Tokenizer 的主要功能是将文本转换为模型可以处理的格式,如 token IDs,以便用于各种 NLP 模型的输入。是一个大型的中文文本数据集,通常用于训练和评估自然语言处理(NLP)模型。它包含从网络上收集的各种类型的中文文本数据,涵盖了新闻、博客、社交媒体、论坛、技术文档等多种文本来源。
2024-08-27 16:30:04
1253
原创 语言模型的困惑度(Perplexity)
如果模型在给定的句子中每个词的预测概率都很高,那么模型的Perplexity会很低,表明模型对这个句子的理解很强。如果模型的预测概率很低,Perplexity会很高,说明模型对这个句子的预测不准确。在实际应用中,Perplexity 可以帮助我们比较不同的语言模型或同一个模型在不同训练阶段的表现。Perplexity 主要用于评估语言模型在处理语言的能力,而在实际应用中,它通常与其他指标一起使用,比如 BLEU 分数(用于机器翻译的评价)或 ROUGE 分数(用于文本摘要的评价),以全面评估模型的性能。
2024-08-22 14:34:26
380
原创 Beam Search 入门
Beam Search 是一种广泛用于自然语言处理(NLP)和搜索问题中的启发式搜索算法,尤其在生成任务(如机器翻译、文本生成)中应用广泛。它的核心思想是通过限制搜索空间,在合理的时间和计算资源内找到接近最优的解。
2024-08-22 13:52:50
884
原创 句子嵌入训练 常用损失函数
此损失仅期望单个句子,没有任何标签。通过随机抽样自动创建正对和负对,这样正对由两个相同的句子组成,负对由两个不同的句子组成。BatchAllTripletLoss 接收包含(句子,标签)对的批次,并计算所有可能的有效三元组的损失,即锚点和正例必须具有相同的标签,锚点和负例必须具有不同的标签。此损失函数非常适合训练具有正对(例如(query,relevant_doc))的检索设置的嵌入,因为它会在每批。适用于只有正对,例如,只有相似文本对,如释义对、重复问题对、(查询、响应)对或(源语言、目标语言)对。
2024-08-20 10:38:42
621
原创 通用文本嵌入(GTE)模型,使用入门
通用文本嵌入(GTE)模型。这使得 GTE 模型可以应用于文本嵌入的各种下游任务,包括信息检索、语义文本相似性、文本重排等。它通过一系列任务和数据集,对各种文本嵌入模型的性能进行评估,从而为研究者和开发者提供一个客观、全面的比较标准。MTEB的中文版(C-MTEB)是针对中文文本嵌入模型的评测基准。它涵盖了分类、聚类、检索、排序、文本相似度、STS(语义文本相似度)等多个经典任务,并提供了丰富的中文数据集。文本嵌入是一种将文本(如单词、句子或段落)映射到一个连续的数值向量空间的技术。
2024-08-14 10:56:38
1349
原创 策略梯度(Policy Gradient, PG)算法
不同的动作应该有不同的价值评估。同一局游戏中的所有动作都用同一个奖励项来衡量是不合理的,因为有些动作是有益的,有些是有害的。整局游戏的结果并不能代表每个动作的质量。4.2 动作回报加权+折扣。:一条轨迹,一个回合。:该条轨迹的的总奖励。
2024-08-05 14:29:07
442
原创 Pendulum-v1 with PPO 入门
Pendulum-v1 是 OpenAI Gym 中的一个经典控制环境,用于模拟一根杆子在重力作用下的摆动。杆子的一端固定在铰链上,另一端可以自由摆动。环境的目标是通过向杆子施加力矩来控制其摆动,使其保持竖直。杆子的角度杆子的角速度杆子的位置杆子的线速度环境的动作空间是一个连续空间,表示施加在杆子上的力矩的大小。Pendulum-v1 的奖励函数是基于杆子的角度和角速度计算的。杆子越竖直,角速度越慢,奖励就越高。
2024-07-24 14:53:10
1394
原创 MountainCarContinuous-v0 with PPO 入门
MountainCarContinuous-v0 是一个经典的强化学习环境,主要用于测试连续动作空间的算法。它是 OpenAI Gym 中的一个环境,模拟了一个小车在一个山谷中的运动,目标是通过控制小车的加速度,使其能够爬上山顶。
2024-07-19 11:25:00
1067
1
原创 MountainCar-v0 入门
MountainCar-v0 是一个经典的强化学习环境,属于 OpenAI Gym 提供的一部分。它的目标是帮助研究和实验基本强化学习算法。
2024-07-11 11:33:51
691
原创 CartPole-v1 入门,使用DQN
CartPole-v1 是 OpenAI Gym 中一个经典的控制学习环境。它模拟一根杆子垂直放置在小车上,小车可以在水平方向上移动。游戏的目标是通过控制小车左右移动来保持杆子竖直,尽可能长时间地不倒杆。
2024-07-04 10:35:23
1293
原创 CliffWalking入门
悬崖行走问题是强化学习中一个经典的入门级问题。它描述了一个智能体从起点 S 到达目标 G 的网格世界环境,其中存在悬崖会让智能体掉落并重置到起点。智能体的目标是通过学习最优策略,尽可能减少到达目标所需的步数。Q-Learning 是一种常用的强化学习算法,用于解决 CliffWalking 问题。它使用 Q 表来存储每个状态-动作对的期望奖励。智能体会根据 Q 表来选择动作,并不断更新 Q 表以提高策略的性能。
2024-07-03 11:11:45
1945
原创 q-learing
强化学习是一种机器学习方法,强调通过与环境的互动来学习行为策略,以最大化累积奖励。Q-learning 是一种无模型(model-free)的强化学习算法,它通过学习一个 Q 函数来估计每个状态-动作对的期望回报。
2024-06-28 14:49:20
1465
windows休息提醒定时器
2024-06-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人