NLP
文章平均质量分 76
Virgil139
谁终将点燃闪电,必长久如云漂泊。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Mamba(SSM、S4、S4)
状态空间模型SSM,20世纪60年代有卡尔曼等研究者提出,概念很在提出。连续SSM一般形式如下:State Equation:x′(t)=Ax(t)+Bu(t)x'(t) = Ax(t) + Bu(t)x′(t)=Ax(t)+Bu(t)其中:Output Equation:y(t)=Cx(t)+Du(t)y(t) = Cx(t) + Du(t)y(t)=Cx(t)+Du(t) 或 y(t)=Cx(t)y(t) = Cx(t)y(t)=Cx(t)其中:离散SSM一般形式如下:与连续SSM相比,x,t,u,原创 2025-07-23 09:23:00 · 1157 阅读 · 0 评论 -
【论文翻译】Attention Is All You Need
主流的序列转导模型基于包含编码器和解码器的复杂循环神经网络或卷积神经网络。性能最佳的模型还通过注意力机制将编码器和解码器连接起来。我们提出了一种新的简单网络架构——Transformer,它完全基于注意力机制,完全摒弃了循环和卷积操作。在两项机器翻译任务上的实验表明,这些模型在质量上更具优势,同时具有更高的可并行性,且训练时间显著减少。我们的模型在WMT 2014英德翻译任务上达到了28.4的BLEU得分,比包括集成模型在内的现有最佳结果提高了2分以上BLEU。翻译 2025-07-18 15:33:02 · 790 阅读 · 0 评论 -
服务器常用命令
运行py文件,断开和服务器连接仍可跑。原创 2025-07-12 02:29:20 · 129 阅读 · 0 评论 -
【TrOCR】第一版记录:在自己数据集上训练TrOCR
TrOCR是一种端到端的文本识别方法,它结合了预训练的图像Transformer和文本Transformer模型,利用Transformer架构同时进行图像理解和字块级别的文本生成。TrOCR: 基于预训练模型的Transformer光学字符识别李明浩,吕腾超,崔磊,卢一娟,迪内·弗洛伦西奥,张查,李周军,魏富如,AAAI 2023。TrOCR模型也以Huggingface格式提供。文档][模型模型参数数量测试集得分62MIAM4.22(区分大小写的字符错误率)TrOCR-Base。原创 2025-07-06 20:03:05 · 1143 阅读 · 0 评论
分享