- 博客(5)
- 收藏
- 关注
原创 DeepSeek-V3 技术报告核心要点
本文主要介绍了deepseek发布的技术报告的核心要点的总结,以及如何用通俗语言来描述ds的真正的形象。
2025-02-12 16:40:23
878
原创 一文彻底看懂DEEPSEEK为何能够如此优秀(ds的深度解析)
DeepSeek(DS)作为自主训练的AI模型,其核心创新在于摒弃传统人类反馈强化学习(RLHF),通过“反复思考”机制促进模型自主推理。采用混合专家架构(MoE)与多头潜在注意力(MLA),显著提升效率并降低显存消耗。其开源特性(公开模型权重与代码)及极低训练成本(百倍优于闭源模型),使性能接近甚至超越GPT-4。创新点包括无辅助损失负载均衡、多Token预测(MTP)及FP8混合精度训练,结合14.8T数据集与128K长上下文支持,强化数学、代码与多语言能力。自奖励机制实现生成质量持续优化,为构建
2025-02-12 15:47:02
702
1
原创 实现日中机器翻译模型---结合Transformer和PyTorch
实现日中机器翻译模型,结合Transformer和PyTorch,下面是一般关键步骤和技术:1. 数据准备首先,需要准备大量的日语和中文平行语料作为训练数据。这些数据应该是句子级别的对应,即每个日语句子对应一个对应的中文翻译句子。可以使用公开可用的语料库,如TED演讲语料库、开放翻译数据等。2. 构建Transformer模型Transformer是一种强大的深度学习模型,特别适合处理序列到序列的任务,如机器翻译。
2024-06-29 21:13:35
2090
1
原创 一篇带你理解机器翻译
机器翻译是指利用计算机和相关算法自动将一种自然语言的文本翻译成另一种自然语言的过程。其目标是实现从一种语言到另一种语言的自动转换,使得人类无需手动进行翻译,即可获取多种语言之间的沟通和信息传递。机器翻译系统通常基于大量的语言学和统计学数据,以及机器学习算法来实现。其核心挑战包括语言之间的语法结构、词汇的多义性、上下文的理解以及文化差异等因素。近年来,随着深度学习技术的发展,特别是神经网络的广泛应用,神经机器翻译(NMT)成为了主流方法,取代了传统的基于规则或统计的方法。
2024-06-29 20:55:55
1794
原创 多层感知器
一、背景介绍 随着科技的不断发展,人工智能成为了当今世界的一个热点研究领域。人工智能的发展离不开机器学习的算法,而神经网络作为机器学习的一种重要算法,其在人工智能领域的应用日益广泛。多层感知器(MLP)是神经网络中的一种经典模型,自从1986年由Rumelhart等人提出以来,它已经在许多领域取得了显著的应用成果。本文将探讨多层感知器的理论基础、架构及其在神经网络中的应用,并对其进行实验与分析,以期为多层感知器的研究和应用提供一定的参考。 多层感知器的研究背景可追溯至20世纪
2024-06-29 20:31:09
2048
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人