1632401541-优快云博客

原创回顾-LLM基础模块，分类，架构，训练等小汇总

回顾看过的论文与之前总结的内容，对目前这个系列做个小小的汇总。虽然LLM现在更新层出不穷+各种paper漫天飞舞，不过目前回顾看的各种结构改变并不是特别大，掌握基础的不变的才可以能更好的适应变化。欢迎大家留言小结的结构：一基础知识：attention的细节和归一化，激活函数的函数等。二 LLM分类：不同的LLM结构和原因分析三架构：不同的架构比较，如使用的编码方式，归一化方法，激活函数等四训练方式：汇总训练LLM的训练时数据的来源与预训练方法，后训练方法。

2025-12-07 20:44:23 736

原创回顾-Mistral [1]--＞“ 一句话概括论文核心+技术亮点总结”

我们引入了 Mistral 7B，这是一个拥有 70 亿参数的语言模型，经过论证的设计以实现卓越的性能和效率。Mistral 7B 在所有评估基准上均估计最佳的开放式 13B 模型（Llama 2），并在推理、数学和代码方面生成了超过最佳的发布的 34B 模型（Llama） 1）。我们的模型利用了分组查询注意力（GQA）来实现更快的推断速度，结合滑动窗口注意力（SWA）有效处理任意长度的序列，并降低推断成本。

2025-12-06 06:55:53 1052

原创回顾-OLMo3[1]--＞“ 一句话概括论文核心+技术亮点总结”

我们介绍了 Olmo 3，一个在 7B 和 32B 参数规模上达到最前沿水平的、完全开放的语言模型家族。Olmo 3 的模型构建目标涵盖长上下文推理、函数调用、代码生成、指令遵循、通用对话以及知识回忆。本次发布包含整个模型流程，即该模型家族从头到尾的完整生命周期，包括用于构建它的每一个阶段、检查点、数据点和依赖项。我们的旗舰模型是迄今发布的最强大的完全开放的思考类模型。我们介绍了Olmo 3。

2025-12-05 22:59:46 1719

原创回顾-OLMo2[1]--＞“ 一句话概括论文核心+技术亮点总结”

我们呈现OLMo 2，这是我们下一代的“完全开放”语言模型。OLMo 2 包含一系列稠密自回归语言模型，规模涵盖7B、13B 和 32B，并完整公开全部研发产物——模型权重、完整训练数据、训练代码与配方、训练日志以及数千个中间检查点。在本工作中，我们描述了经过修改的模型架构与训练方案，重点介绍用于实现更高训练稳定性与更高每 token 训练效率的技术。我们更新后的预训练数据混合方式中引入了一种新的专门化数据混合集，称为。

2025-12-04 07:18:08 1106

原创回顾-OLMo[1]--＞“ 一句话概括论文核心+技术亮点总结”

语言模型（LMs）已广泛应用于自然语言处理（NLP）研究和商业产品中。随着其商业重要性的激增，最强大的模型已变得封闭，受限于专有接口，且其训练数据、架构和开发的重要细节均未公开。鉴于这些细节在科学研究模型（包括其偏见和潜在风险）方面的重要性，我们相信研究界必须能够访问强大、真正开放的 LM。为此，我们构建了 OLMo，一个具有竞争力的、真正开放的语言模型，以支持对语言模型进行科学研究。与大多数仅发布模型权重和推理代码的先前工作不同，我们与开放的训练数据以及训练和评估代码一同发布了 OLMo。

2025-12-03 08:17:38 868

原创回顾-llama4[1]--＞“ 一句话概括论文核心+技术亮点总结”

LLaMA 4 是 Meta AI 推出的最新一代基础模型，首次在 LLaMA 家族中原生集成了多模态智能，并引入了MoE（专家混合）架构，实现了计算效率和性能的飞跃。该系列模型在统一架构中实现了文本、图像、视频等模态的早期融合处理，并将上下文窗口戏剧性地扩展至千万级别 Tokens（Llama 4 Scout 支持 10M tokens），提供了行业领先的多模态理解和超长上下文推理能力。随着越来越多的人利用人工智能提升日常生活，确保领先的模型和系统开源至关重要，这样才能让每个人都能构建个性化体验的未来。

2025-12-02 23:09:38 828

原创回顾-llama3[1]--＞“ 一句话概括论文核心+技术亮点总结”

现代人工智能（AI）系统由基础模型驱动。本文介绍了一套新的基础模型，称为 Llama 3。它是一组语言模型，原生支持多语言、编码、推理和工具使用。我们最大的模型是一个具有 405B 参数的稠密 Transformer，并支持最高 128K tokens 的上下文窗口。本文对 Llama 3 进行了全面的实证评估。我们发现，在大量任务上，Llama 3 提供了可与 GPT-4 等领先语言模型相媲美的质量。

2025-12-02 21:52:26 1254

原创回顾-llama2[1]--＞“ 一句话概括论文核心+技术亮点总结”

在本工作中，我们开发并发布了 Llama 2，一系列预训练和微调的大型语言模型（LLM），其规模从 70 亿到 700 亿参数不等。我们微调的 LLM 被称为 Llama 2-Chat，专为对话使用场景优化。我们的模型在我们测试的大多数基准上优于开源聊天模型，并且根据我们对有用性和安全性的人工评估，可能成为闭源模型的合适替代品。我们提供了对 Llama 2-Chat 微调方法和安全性改进的详细描述，以便社区能够在我们的工作基础上进行开发，并为 LLM 的负责任发展做出贡献。

2025-12-01 08:11:55 983

原创回顾-llama[1]--＞“ 一句话概括论文核心+技术亮点总结”

我们介绍LLaMA，一个由 70 亿到 650 亿参数规模组成的基础语言模型集合。我们使用数万亿 tokens 进行训练，并展示：仅使用公开可获得的数据集，在不依赖私有或不可访问数据的情况下，也能够训练出最先进水平的模型。特别是，LLaMA-13B 在大多数基准测试上优于 GPT-3（175B），而 LLaMA-65B 的性能可与最先进的模型 Chinchilla-70B 和 PaLM-540B 竞争。我们将所有模型全部开放给研究社区¹。在大规模文本语料上训练的大型语言模型（LLMs）

2025-11-30 21:48:14 619

原创从 GPT-2 到 gpt-oss[1]：架构进展分析

在更详细地讨论架构之前，让我们先概述一下图 1 所示的两个模型：gpt-oss-20b 和 gpt-oss-120b。

2025-11-30 20:01:43 1203

原创回顾-Qwen-next[1]+【最新-门控注意力机制[2]】--＞“ 一句话概括论文核心+技术亮点总结”

Gating（门控）机制被广泛应用于各类模型中：从早期的 LSTM（Hochreiter & Schmidhuber, 1997）和 Highway Networks（Srivastava et al., 2015），到近年来的状态空间模型（state-space models, Gu & Dao, 2023）、线性注意力（linear attention, Hua et al., 2022），以及 softmax 注意力（Lin et al., 2025）。

2025-11-30 17:04:37 1002

原创回顾-Qwen2[1]--＞“ 一句话概括论文核心+技术亮点总结”

本报告介绍了 Qwen2 系列，这是我们最新的语言大模型（LLM）和多模态模型。我们发布了一个全面的基础和指令调优语言模型套件，涵盖了从 5 亿到 72 亿的参数范围，包含了密集模型和混合专家模型。Qwen2 超越了大多数先前的开源模型，包括其前身 Qwen1.5，并在语言理解、生成、多语言能力、编程、数学和推理等多个基准测试中表现出色，且与私有模型相比较也具备竞争力。

2025-11-29 23:18:45 734

原创回顾-Qwen1.5[1]

Qwen1.5 是 Qwen 系列的新一代开源语言模型版本。本次发布包括多个不同规模的 Base 与 Chat 模型（从 0.5B 到 110B 参数），并且提供量化模型 (Int4, Int8, AWQ, GGUF) 以适配资源受限环境。Qwen1.5 系列统一支持长上下文 (最大 32768 tokens)，并整合进入主流开源生态 (如 Hugging Face transformers、vLLM、llama.cpp 等)，为开发者提供更便捷、灵活、实用的大语言模型解决方案。

2025-11-29 21:54:54 617

原创回顾-Qwen[1]--＞“ 一句话概括论文核心+技术亮点总结”

大型语言模型（LLM）已经彻底改变了人工智能领域，能够执行以前认为仅限于人类的自然语言处理任务。在这项工作中，我们介绍了QWEN1，这是我们大型语言模型系列的第一款。QWEN是一个综合性的语言模型系列，包含不同参数数量的模型。它包括QWEN，基础预训练语言模型，以及QWEN-CHAT，这些聊天模型通过人类对齐技术进行了微调。基础语言模型在多个下游任务中表现出色，而聊天模型，特别是那些使用人类反馈强化学习（RLHF）训练的模型，在复杂任务上表现出色，如使用代码解释器等工具的能力。

2025-11-29 20:38:44 863

原创回顾-Qwen2.5[1]--＞“ 一句话概括论文核心+技术亮点总结”

在本报告中，我们介绍了Qwen2.5，一个全面的系列大型语言模型（LLM），旨在满足多样化需求。与之前的版本相比，Qwen 2.5在预训练和后训练阶段都有了显著的改进。在预训练方面，我们将之前的7万亿标记数据集扩展到了18万亿标记，这为常识、专家知识和推理能力提供了坚实的基础。在后训练方面，我们实施了复杂的监督微调（SFT），包括超过100万个样本，以及多阶段的强化学习，涵盖离线学习DPO和在线学习GRPO。后训练技术显著增强了人类偏好，特别是在长文本生成、结构化数据分析和指令跟随方面有了显著提升。

2025-11-29 19:42:20 654

原创回顾-DeepSeek-V3 [1] --＞“ 一句话概括论文核心+技术亮点总结”

我们提出了 DeepSeek-V3，一种强大的混合专家（MoE）语言模型，具有 671B 总参数，其中每个 token 激活 37B 参数。为了实现高效推理和具有成本效益的训练，DeepSeek-V3 采用了在 DeepSeek-V2 中经过充分验证的多头潜在注意力（MLA）和 DeepSeekMoE 架构。此外，DeepSeek-V3 首创了一种无辅助损失的负载平衡策略，并设置了多 token 预测训练目标，以实现更强的性能。

2025-11-29 12:29:03 1817

原创回顾-DeepSeek-V2 [1]--＞“ 一句话概括论文核心+技术亮点总结”

我们发布了 DeepSeek-V2，这是一款具有经济化训练与高效推理特点的强大 Mixture-of-Experts（MoE）语言模型。其总参数量为 2360 亿，其中每个 token 仅激活 210 亿参数，并支持 128K tokens 的上下文长度。DeepSeek-V2 采用了包括多头潜在注意力（MLA）和【2】在内的创新架构。MLA 通过将 Key-Value（KV）缓存显著压缩为潜在向量，保证了高效推理；而 DeepSeekMoE 则通过稀疏计算，使大模型的训练以更低成本完成。

2025-11-28 00:00:11 890

原创回顾-DeepSeekMoE[1]--＞“ 一句话概括论文核心+技术亮点总结”

在大语言模型时代，Mixture-of-Experts（MoE）是一种在扩展模型参数规模时管理计算成本的有前景的架构。然而，传统的 MoE 架构（如 GShard），采用在 𝑁 个专家中激活 top-𝐾 个的方式，面临难以确保“专家专精”（expert specialization）的问题——即每个专家获得不重叠且聚焦的知识。为此，我们提出了 DeepSeekMoE 架构，旨在实现“终极专家专精”。该架构包含两个主要策略：（1）将专家细致划分为 𝑚𝑁 个，并从中激活 𝑚𝐾 个，使得被激活专家的组

2025-11-27 22:13:12 927

原创回顾-DeepSeek LLM [1]--＞“ 一句话概括论文核心+技术亮点总结”

开源大型语言模型（LLMs）的快速发展确实引人注目。然而，先前文献中描述的缩放定律（scaling laws）得出了不同的结论，这给 LLMs 的规模化带来了阴影。我们深入研究了缩放定律，并提出了我们独特的发现，这些发现有助于在两种流行的开源配置——7B 和 67B 上实现大规模模型的扩展。在缩放定律的指导下，我们推出了 DeepSeek LLM，这是一个致力于以长远眼光推进开源语言模型发展的项目。为了支持预训练阶段，我们开发了一个数据集，该数据集目前包含 2 万亿个 token，并且还在不断扩展。

2025-11-26 23:32:27 902

原创回顾-Kimi K1.5技术报告[1]

通过预测下一个标记进行语言模型预训练，已被证明在扩展计算规模方面是有效的，但它受限于可用训练数据的数量。扩展强化学习（RL）为人工智能的持续改进开辟了新的途径，大语言模型（LLMs）有望通过学习利用奖励进行探索，来扩展其训练数据。然而，先前已发表的研究并未取得具有竞争力的成果。有鉴于此，我们在此报告Kimi k1.5的训练实践，这是我们最新的通过强化学习训练的多模态大语言模型，内容包括其强化学习训练技术、多模态数据方法以及基础设施优化。

2025-11-25 22:46:49 721

原创回顾-Kimi K2技术报告[1]--＞“ 一句话概括论文核心+技术亮点总结”

我们介绍 Kimi K2，一个具有 320 亿激活参数和 1 万亿总参数的专家混合（MoE）大型语言模型。我们提出了 MuonClip 优化器，它通过一种新颖的 QK-clip 技术改进了 Muon，以解决训练不稳定性，同时享受 Muon 的先进令牌效率。基于 MuonClip，K2 在 15.5 万亿个令牌上进行了预训练，且没有出现损失峰值。

2025-11-24 23:05:30 1126

原创回顾-Qwen3 【1】

在本工作中，我们推出了 Qwen 模型家族的最新版本——Qwen3。Qwen3 包含一系列大型语言模型（LLM），旨在在性能、效率和多语言能力方面实现突破。该系列既包括Dense 架构，也包括 Mixture-of-Expert（MoE）架构，参数规模从 0.6 亿到 2350 亿不等。

2025-11-21 22:13:04 1246

原创回顾-大模型14个经典架构(DeepSeek-V3 to Kimi K2)

回顾之前看过的论文和笔记以及连接，刚好有链接【1】对目前多种大语言模型架构进行描述，在此总结归纳(按照上面给出目前具有代表性的一些架构和核心点(还有更多LLM在此不一一列举)

2025-11-18 08:25:34 1048

原创回顾- deepseek-R1理解

我们介绍了第一代推理模型，DeepSeek-R1-Zero和DeepSeek-Rl。DeepSeek-Rl-Zero是通过大规模增强学习(RL)训练的模型，而无需超级微调(SFT)作为初步的步骤，表明了出色的推理能力。通过RL，DeepSeek-R1-Zero自然而然地出现了许多强大而有趣的推理行为。但是，它遇到了挑战，例如不良的可读性和语言混合。为了解决这些问题并进一步提高推理性能，我们介绍了DeepSeek-R1，该问题在RL之前结合了多阶段培训和冷启动数据。

2025-11-17 23:07:32 1031

原创回顾-大语言模型分类

为了方便理解记忆，在此总结归纳(阐述的思维逻辑：会给出大的结构类型，后续会继续整理对应的代表方法。LLM结构类型：自回归模型(AR) 扩散语言模型(DLMs)|-连续空间DLMs|-离散空间DLMs|-混合AR-DLMs。

2025-11-13 07:48:31 1081

原创回顾-大模型位置编码

本文系统梳理了Transformer模型中的位置编码方法。首先介绍了绝对位置编码（正弦编码和可学习编码）及其局限性；然后阐述了相对位置编码（T5式）的优势；重点分析了旋转位置编码（RoPE）的数学原理，通过复数旋转操作巧妙实现相对位置编码；最后总结了位置编码外推技术（ALiBi、PI、NTK-aware、YaRN），这些方法通过插值、动态调整等技术使模型能处理超长序列。

2025-11-11 23:06:51 778

原创目标检测目标的统计

1 对目标数量，占比的统计2 对目标尺寸(长，宽及面积的箱型图)统计时你只需要修改对应目标的字典即可(下载STLITI.TTF字体格式，放到当前位置,替换fname中的位置)# encoding:utf-8""""#20200331 统计目标检测中的数据，需要输入dota格式的标签x1,y1....x4,y4,category"""import numpy as npimport osimport matplotlib.pyplot as pltfrom matplotlib i

2020-06-15 19:36:23 2985 1

翻译目标检测的历程与流程

1 目标检测算法的历程二目标检测算法基本流程传统算法：下面绿色线的流程DL：橙色线的流程，到时one-stage与two-stage到时就在橙色框中进行相应的结构调整。...

2019-09-29 17:33:21 1767

原创 mmdetection中libra rcnn算法简单阐述与libra_faster_rcnn_x101_64x4d_fpn_1x.py参数讲解

一简介在看到CVPR2019 论文 Libra R-CNN时发现这篇论文对一些训练过程中的不平衡进行了处理，从而获得了较高的准确率。如何选择具有代表性的region proposal（这个问题很多论文都探讨过，可以认为是样本（proposal）的不平衡问题不同level的特征如何融合才能真正地充分利用？（特征融合问题）损失函数的设计能不能引导目标检测器更好地收敛？针对上述...

2019-08-30 17:32:20 2962 1

翻译目标检测-斜框IOU,nms计算

1 旋转IOU"""2019.7.4 计算旋转的iou"""#coding=utf-8from __future__ import absolute_importfrom __future__ import divisionfrom __future__ import print_functionimport osimport numpy as npimport cv2...

2019-08-21 17:32:15 8008 3

原创目标识别小样本数据扩增

1 对DOTA(obb)数据增加(方法有：改变亮度，加噪声，旋转角度，镜像，平移，裁剪，cutout)"""2019.8.3 ：数据增强(dota4点转换)"""# -*- coding=utf-8 -*-# 包括:# 6. 裁剪(需改变bbox)# 5. 平移(需改变bbox)# 1. 改变亮度# 2. 加噪声# 3. 旋转角度(...

2019-08-21 17:30:15 1995

原创深度学习数据处理

一数据格式的转换脚本 1 将DOTA(HBB)数据集格式转换为yolo数据"""#2019.4.4: 将DOTA(HBB)数据集格式转换成YOLO数据集格式欠缺将标签保存的Txt文档保存"""import cv2import osfrom collections import defaultdictimagepath="/data/maq/DataSet/pytor...

2019-08-21 17:25:48 1197

原创 faster_r2cnn与r2cnn++简述

FASTER_R2CNN：一：模型结构：(https://blog.youkuaiyun.com/attitude_yu/article/details/80378023论文翻译)在原有Faster RCNN的基础上使用RPN网络产生文本区域的proposal，修改网络的输出为文本区域分类、文本区域矩形框和文本区域倾斜矩形框；为了能够更好检测文本区域，使用尺寸为(7∗7,11∗3,3∗1...

2019-08-20 11:30:28 1520 1

原创服务器+cuda9.2+cudnn7.0上编译安装tensorflow-gpu-------亲测有效

1 简介：之前在安装可支持版本的tensorflow-gpu时发现，最新的版本只支持到cuda9.0。找了很多网页，想有人分享一下，结果没有找到。后来只能自己编译，中间遇到很多坑再次说一下，以免贴友重蹈覆辙。基本的环境那装我就不介绍，我默认大家的cuda9.2+cudnn7.0+bazel(注意要安装jdk)已安装好。2 安装步骤tensorflow源码下载地址 https...

2019-03-13 17:59:33 1205

原创数据挖掘：航空公司客户价值分析实战

小结：本文是在学习数据挖掘的历程中通过学习，并将自己的一些想法进行汇总整理(书中案例处理的比较直接，有些部分则没有代码)。在此多废话点，说一下数据挖掘过程中的数据处理流程：1)数据的读取 2) 数据的预处理(因变量数据的观察和变换，自变量数据的缺失，数据类型的转换，归一化处理) 3) 数据特征的处理(过滤法，wrapper包裹法，嵌入式法) 4) 数据的建模的模型选择(不同算...

2018-12-12 16:47:41 1838 3

原创机器学习几个库的总结

在机器学习中，我一直本着现有思--》再去做的想法。只有你能想的到，然后才会往结果上走，所以我在这总结一下常用的几个库，然后里面具体用到的可以再去学习(在练习中学习与记忆，比只学习记忆更好。以上纯属个人观点，不喜误吐槽)1 NumPy快速入门手册: NumPy（Numerical Python）是Python语言的一个扩充程序库。支持大量的维度数组与矩阵运算，此外也针对数组运算提...

2018-11-22 17:34:33 1251 1

原创机器学习-特征选择

在机器学习中特征工程还很重要的，因此在此处说一下它的特征选择。1 特征选择个人理解：特征工程其实就是最大限度地从原始数据中提取重要的特征(减少特征之间的相关性等)以供算法和模型使用，来完成相应的操作目标。主要有：Filter：过滤法，按照发散性或者相关性对各个特征进行评分，设定阈值或者待选择阈值的个数，选择特征　　　　 1.1 方差选择法　　　　 ...

2018-11-19 20:46:38 336

原创 k-means

1 K-means算法 k-means: 是基于距离的聚类算法，通过选择质心并计算样本与其之间的距离，然后不断更新质心位置和迭代来完成不同类别的相聚。该算法采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。2 K-means的应用场景和优缺点应用场景：优点：1）解决聚类...

2018-11-19 20:33:24 359

原创分类与聚类的评价标准

1 ：分类算法的评价标准 p准确率=tp/(tp+fp) 正类预测为正类/正类预测为正类+负类预测为正类 r召回率=tp/(tp+fn) 正类预测为正类/正类预测为正类+正类预测为负类 F1=2pr/(p+r) 准确率:体现了模型对负样本的区分能力，准确率越高，说明模型对负样本的区分能力越强召回率：体现了分类模型对正样本的识别能力，召回...

2018-11-19 20:22:28 2405

原创 CNN实现摄像头中人物的识别

在此之前我已经大概说过tensorflow的简单流程，中间应用函数我会在例子中加以注释(更详细的可以查阅tensorflow中的函数讲解)。应用cnn实现的视频中人物识别，本想先讲一下cnn的原理，但基于时间和别人都以将的很详细在此就多说，直接上例子1 简单图片中的人脸检测在刚开始学时需要有兴趣，并且能快速实现结果。从结果到原因，再从原因到结果才是最好的学习方法(纯属个人观点)...

2018-11-12 22:29:19 3253 6

权重用于centernet.zip

在服务器+cuda9.2+cudnn7.0可安装的tensorflow-gpu最新编译好的版本

空空如也