程序员.小富-优快云博客

原创 LLM大模型之精度问题（FP16，FP32，BF16）详解与实践

浮点数据类型在标准中进行了详细的定义，定义了不同精度的浮点数格式，如binary16、binary32和binary64，分别用16位、32位和64位二进制来表示，想要更全方位深入的了解的话，可以点引用查看官方的paper。下面进行一些常用的浮点数介绍。

2025-04-02 19:15:57 664

原创 Spring实现异步流式接口

如何处理比较耗时的接口？这题我熟，直接上异步接口，使用Callable和等均可实现。但这些方法有局限性，处理结果仅返回单个值。在某些场景下，如果需要接口异步处理的同时，还持续不断地向客户端响应处理结果，这些方法就不够看了。Spring 框架提供了多种工具支持异步流式接口，如SseEmitter和。这些工具的用法简单，接口中直接返回相应的对象或泛型响应实体，如此这些接口就是异步的，且执行耗时操作亦不会阻塞Servlet的请求线程，不影响系统的响应能力。下面将逐一介绍每个工具的使用及其应用场景。

2025-03-30 17:06:42 534

原创 LLM模型保存的常见格式汇总

这种格式文件包含 protobuf 对象序列化后的数据，包含了计算图，可以从中得到所有运算符（operators）的细节，也包含张量（tensors）和 Variables 定义，但不包含 Variable 的值，因此只能从中恢复计算图，但一些训练的权值仍需要从 checkpoint 中恢复。这意味着文件中不包含用于加载或操作模型的代码，从而降低了执行恶意代码的风险。：TensorFlow 的一种模型保存格式，它不仅保存模型的权重，还包括计算图和签名定义，使得模型可以用于预测、导出或进一步训练。

2025-02-23 19:23:50 881

原创大语言模型（LLM）微调技术笔记

但是, 这些模型有时可能表现出意外的行为，例如制造虚假信息、追求不准确的目标，以及产生有害的、误导性的和偏见性的表达。自主机器人在各个行业中被越来越广泛地应用，从制造业，它们可以使用精度和一致的质量组装复杂的组件，到医疗保健，可以协助进行医疗测试和处理，再到安全，可以监控大面积地区，保障人们和财产的安全。本质上，指令微调是在自然语言格式的实例集合上微调预训练后的大语言模型的方法。目前研究表明，PEFT 相比于全参数微调，在没有微调过的大语言模型上性能略差，但是在已经微调过的模型上，性能接近。

2025-02-23 16:58:20 896

原创 Spring Boot 2 快速教程：WebFlux处理流程（五）

下面是spring mvc的请求处理流程具体步骤：第一步：发起请求到前端控制器(DispatcherServlet)第二步：前端控制器请求HandlerMapping查找 Handler （可以根据xml配置、注解进行查找）匹配条件包括：请求路径、请求方法、header信息等第三步：处理器映射器HandlerMapping向前端控制器返回Handler，HandlerMapping会把请求映射为HandlerExecutionChain对象（包含一个Handler处理器（页面控制器）对象，多个Handl

2025-02-03 17:06:20 1803

原创 Spring Boot 2 快速教程：WebFlux优缺点及性能分析（四）

我们始终都在不遗余力的追求如何开发一个高并发、低延迟的接口。通过本文实操以及linux服务器下长时间的压测，可以验证的是我们可以使用WebFlux来替代SpringMVC，从而获取更好的性能，更高的并发。如果你还和我一样，对WebFlux还一知半解，那么从今天起开始学习起来吧。

2025-02-03 16:33:30 1176

原创 Spring Boot 2 快速教程：WebFlux 集成 Mongodb（三）

上一讲用 Map 数据结构内存式存储了数据。这样数据就不会持久化，本文我们用 MongoDB 来实现 WebFlux 对数据源的操作。什么是 MongoDB?MongoDB 是一个基于分布式文件存储的数据库，由 C++ 语言编写，旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。MongoDB 是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的。由于操作方便，本文用 Docker 启动一个 MognoDB 服务。

2025-02-03 16:13:45 1349

原创 Spring Boot 2 快速教程：WebFlux Restful CRUD 实践（二）

上一篇基于功能性端点去创建一个简单服务，实现了 Hello。这一篇用 Spring Boot WebFlux 的注解控制层技术创建一个 CRUD WebFlux 应用，让开发更方便。这里我们不对数据库储存进行访问，因为后续会讲到，而且这里主要是讲一个完整的 WebFlux CRUD。这里，探讨了 Spring WebFlux 的一些功能，构建没有底层数据库的基本 CRUD 工程。为了更好的展示了如何创建 Flux 流，以及如何对其进行操作。下面会讲到如何操作数据存储。

2025-02-03 16:09:50 1009

原创 Spring Boot 2 快速教程：WebFlux 快速入门（一）

本文主要讲了 Spring Boot 2.0 WebFlux 背景和快速入门使用。用的是基于功能性端点去创建一个服务，但这个有点代码偏多。下一章一个 CRUD 我们使用注解控制层，让开发更方便。

2025-02-03 16:06:07 988

原创 HTTP异步Client源码解析

http请求发送时存在3种可能，1.连接池无可用管道，连接也没达到上限，那么将请求交给boss线程新建管道，再交给worker线程发送请求。2.连接池有可用管道，那么直接将请求交给worker发送。3.连接池无可用管道，且连接个数已达上限，那么请求阻塞等待。每个管道一次只能发送一次请求，下个请求只能等当前请求完成、管道释放后才能进行，通过管道个数来限制连接并发，导致管道利用率不高，这里也许可以进行部分优化。

2025-02-03 15:12:12 1098

原创 Java NIO全面详解

NIO 中的 N 可以理解为 Non-blocking，不单纯是 New，是解决高并发、I/O高性能的有效方式。Java NIO是Java1.4之后推出来的一套IO接口，NIO提供了一种完全不同的操作方式， NIO支持面向缓冲区的、基于通道的IO操作。新增了许多用于处理输入输出的类，这些类都被放在java.nio包及子包下，并且对原java.io包中的很多类进行改写，新增了满足NIO的功能。

2025-02-02 17:03:12 991

原创 Reactor异步化

异步化并不是高并发的银弹，但是有了异步化的确能提高你机器的qps，吞吐量等等。上述讲的一些模型如果能合理的做一些优化，然后进行应用，相信能对你的服务有很大的帮助的。

2025-02-02 16:35:00 585

原创函数式编程的Java编码实践：利用惰性写出高性能且抽象的代码

函子运算可以将一个 T 映射到 S 的 function 应用到 Box<T> 上，让其成为 Box<S>，一个将 Box 中的数字转换为字符串的例子如下：在盒子中装的是类型，而不是 1 和 "1" 的原因是，盒子中不一定是单个值，比如集合，甚至是更加复杂的多值映射关系。// 反例，不能成为函子，因为这个方法没有在盒子中如实反映 function 的映射关系public Box<S> map(Function<T,S> function) { return new Box<>(null);

2025-01-31 16:39:12 941

原创百川发布推理思考模型M1-preview，行业首个开源医疗增强大模型M1-14B

面向细分医疗场景，收集了万亿级 token 的严肃医疗数据，涵盖了千万级的中/英文专业医疗论文、院内真实中/英文医疗病例，亿级的医疗问答、医疗问诊、临床数据等，还对全网数据进行了包括医疗科室、医疗内容以及医疗价值在内的分类评估，确保模型能学习到有价值且全面的医疗知识。为了推动AI技术在医疗领域的创新发展，增强AI医疗技术的透明度和可信性，提高医疗服务的可及性，繁荣AI医疗生态，我们开源了Baichuan-M1的小尺寸版本模型Baichuan-M1-14B。众所周知，成立以来我们一直专注于AI医疗领域。

2025-01-31 09:18:20 1070

原创 Mooncake阅读笔记：深入学习以Cache为中心的调度思想，谱写LLM服务降本增效新篇章

本文是阅读Mooncake技术报告的学习笔记。短短一年内，创业团队能做出Mooncake这种完整的系统工作，并在线上服务海量用户，实打实节约成本，并给社区一些方向层面的输出，是非常了不起的成就。

2025-01-30 19:27:53 833

原创 MiniMax-01技术报告解读

刚刚MiniMax发布了MiniMax-01，简单测试了效果，感觉不错。于是又把它的看了一下。这种报告看多了，就会多一个毛病，越来越觉得自己也能搞一个。这篇文章我觉得最有意思的一句是对的强调“MiniMax-01系列模型通过创新的Lightning Attention和专家混合（Mixture of Experts, MoE）架构，实现了在长上下文处理上的突破性进展。

2025-01-30 16:03:41 1028

原创 DeepSeek-R1能力详解

我们介绍了我们的第一代推理模型，DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero，一个通过大规模强化学习（RL）训练的模型，没有经过初步的监督微调（SFT）步骤，展示了卓越的推理能力。通过RL，DeepSeek-R1-Zero自然地涌现出许多强大而有趣的推理行为。然而，它也遇到了一些挑战，例如可读性差和语言混合。为了解决这些问题并进一步提高推理性能，我们引入了DeepSeek-R1，它在RL之前结合了多阶段训练和冷启动数据。

2025-01-30 15:34:49 4095

原创 DeepSeek-V3技术报告（全文）

DeepSeek-V3 是一款性能卓越的语言模型，整体参数规模达到，其中每个 token 激活的参数量为。评估结果表明，DeepSeek-V3，并能够与主流闭源模型相媲美。图1：DeepSeek-V3和竞品的各科目考分对比。

2025-01-29 22:19:52 1365

原创 DeepSeek V2：详解MoE、Math版提出的GRPO、V2版提出的MLA(改造Transformer注意力)

而每个行为是由背后的策略所决定的，故优化行为的同时就是策略的不断迭代与优化。

2025-01-29 21:46:00 1768

原创混合专家模型MoE的全面详解

混合专家模型MoE是一种能让大型语言模型（LLM）质量变好的技术。专家——现在每个前馈神经网络（FFNN）层都有好多个“专家”，每次可以用其中一部分。“专家”一般也是前馈神经网络。门控网络——它能决定把哪些tokens送到哪些专家那儿。在带混合专家模型MoE的大型语言模型的每一层，都能看到这些有点专门作用的专家:要知道，这里的‘专家’可不是像‘心理学’‘生物学’这种特定领域的专家哦。最多就是学学词语层面的语法信息：说得更细点儿，它们擅长处理特定情境下的特定词。

2025-01-29 20:57:09 2467 1

原创 DeepSeekMoE：迈向混合专家语言模型的终极专业化

论文提出了MoE语言模型的DeepSeekMoE架构，目的是实现终极的专家专业化(expert specialization)。通过细粒度的专家分割和共享专家隔离，DeepSeekMoE相比主流的MoE架构实现了显著更高的专家专业化和性能。从较小的2B参数规模开始，论文验证了DeepSeekMoE的优势，展示了其接近MoE模型上限性能的能力。此外，论文证明DeepSeekMoE具有比GShard更高水平的专家特化。

2025-01-28 21:38:58 1420 2

原创 DeepSeek LLM解读

论文主要讨论了开源大型语言模型（LLMs）的快速发展以及如何通过DeepSeek LLM项目来推进这种发展。首先，开源大型语言模型的发展非常迅速，但之前的文献中描述的规模定律得出了不同的结论，这给规模化的LLM蒙上了一层阴影。然后，作者深入研究了规模定律，并提出了自己独特的发现，这些发现有助于在两种流行的开源配置（7B和67B）中扩展大型模型。在规模定律的指导下，作者引入了DeepSeek LLM项目，该项目致力于从长远的角度推进开源语言模型的发展。

2025-01-28 20:40:48 1633

原创大数据之路：阿里巴巴大数据实践（1）

览器的页面型产品/服务的日志采集可分为如下两大类（1）页面浏览（展现）日志采集。顾名思义，页面浏览日志是指：一个页面被浏览器加载呈现时采集的日志。此类日志是最基础的互联日志，也是目前所有互联网产品的两大基本指标：页面浏览量（Page View，PV）和访客数（UnigueVisitors，UV）的统计基础。贞面浏览日志是目前成熟度和完备度最高，同时也是最具挑战性的日志采集任务，我们将重点讲述此类日志的采集。（2）贞面交互目志采集。当贞面加载和染完成之后，用户可以在页面上执行各类操作。

2025-01-25 15:23:21 866

原创软件架构：架构模式、特征及实践指南-读书笔记(3)

在软件架构领域中，普遍的公理假设习惯将架构特征的范围置于系统级别。例如，当架核师谈论可伸缩性时，通常指的是整个系统的可伸缩性。这是十年前的假设，当时几乎所有系统都是单体的。随着现代工程技术及其支持的架构风格（例如微服务）的出现，架构特征的范围已大大缩小。随着软件开发生态系统的持续演进，之前的公理慢慢过时了。在Building Evolutionary Architectures一书的撰写过程中，作者需要一种技术来度量特定架构风格的结构演进。现有的度量方法均未提供正确的详细等级。

2024-11-03 20:42:59 791

原创软件架构：架构模式、特征及实践指南-读书笔记(2)

例如，在任何流行的JaVa或.NET开发环境中进行编码时，一日开发人员引用了尚未导入的类，DE就会显示一个对话框，询向开发人员是否要自动导入该引用。但是，即使根据团队的目标，这些也可以提供许多细微的解释。例如，也许一个团队度量了某些请求的平均响应时间，这是运营性架构特征度量的一个很好的例子。架构特征的客观定义解决了所有三个问题：通过在组织范围内就架构特征的具体定义达成一致，团队围绕架构创建了一种普遍存在的语言。此外，通过鼓励客观的定义，团队可以分解复合特征，以发现他们定义的特征是可度量的。

2024-11-03 19:47:11 821

原创环视360全景拼接原理分析

汽车360影像是一种先进的汽车影像技术，它可以让车主在驾驶汽车时，获得全方位的视角，从而更加清晰地了解车辆周围的环境。该技术通过安装摄像头和传感器在汽车周围不同位置，将所得到的图像和数据集成在一起，形成全景影像，让车主可以通过车载显示屏或智能手机APP观看。一般汽车360影像主要由四个鱼眼相机和四个超声波探头组成，分别安装在汽车前、后、左、右四个方向。每个摄像头都可以拍摄一个特定角度的视野，四个摄像头的图像通过一个中央控制器集成在一起，形成一个完整的360度全景图像。

2024-11-03 19:23:51 2151

原创 [20231103消息] 大模型商业化模式详解：烧钱之后如何挣钱？

按照微软最新财报，互联网巨头通过大模型，带动周边业务，如office，搜索引擎bing，云业务Azure等营收大幅增长，也是一种商业化的模式。目前，通用大模型平台偏爱按token计费，但国内国外的token标准并没有统一，国内一些大模型平台1 token等于1个汉字，一些平台理解为1.5个汉字，还有1.8个汉字。面对巨额成本，除了等待芯片价格下降外，大模型企业也在想办法制造芯片，如OpenAI不仅考虑自研芯片，还投资了3家芯片公司，其中包括美国算力芯片公司Cerebras。

2024-10-03 16:27:00 1388 1

原创 [20241003] 狂飙500天，国产大模型如何突破商业化之困？

大模型加速狂飙，AI商业化却面临巨大鸿沟。一方面，传统企业不知道怎么将AI融入原始业务，另一方面，AI企业难以找到合适的变现方式。AI企业究竟该如何突破商业化之困？B端和C端，呈现出两种不同的路径。纵观海外的AI玩家，已经有许多企业闯出自己的商业化道路。B端如，将AI技术集成到传统产品中并提供垂直定制服务；C端如，向个人用户提供生产力解放工具，并以付费订阅模式变现。而国内虽然起步较晚，但仍有不少企业在积极探索商业化路径，等公司都在进行相关尝试。

2024-10-03 16:21:24 1284

原创 [20241002] OpenAI融资文件曝光，ChatGPT年收入涨4倍，月费5年内翻倍

作为该论融资的主要投资者，Thrive还享有一个不同寻常的特权：根据文件显示，若OpenAI实现收入目标，它有权在明年以同样的1500亿美元估值向OpenAI再投资10亿美元。该公司预计，今年ChatGPT将带来27亿美元的收入，高于2023年的7亿美元，其中10亿美元来自使用其技术的其他企业。其最大的成本是通过与微软的合作获得的计算能力，微软也是OpenAI的主要投资者。微软已向OpenAI投入了超过130亿美元的资金，但OpenAI将大部分资金用于微软的云计算系统，这些系统托管着OpenAI的产品。

2024-10-02 21:47:18 647

原创 LLM Prompt

1、2、GitHub - PlexPt/awesome-chatgpt-prompts-zh: ChatGPT 中文调教指南。各种场景使用指南。学习怎么让它听你的话。请你充当一名论文编辑专家，在论文评审的角度去修改论文摘要部分，使其更加流畅，优美。能让读者快速获得文章的要点或精髓，让文章引人入胜；能让读者了解全文中的重要信息、分析和论点；帮助读者记住论文的要点字数限制在300字以下请你在摘要中明确指出您的模型和方法的创新点，强调您的贡献。

2024-09-17 16:34:53 3493

原创 Vector | Graph：蚂蚁首个开源Graph RAG框架设计解读

RAG的目标是通过知识库增强内容生成的质量，通常做法是将检索出来的文档作为提示词的上下文，一并提供给大模型让其生成更可靠的答案。更进一步地，RAG的整体链路还可以与提示词工程（Prompt Engineering）、模型微调（Fine Tuning）、知识图谱（Knowledge Graph）等技术结合，构成更广义的RAG问答链路。增强训练REALM引入了知识检索器增强大模型预训练，以改进大模型的问答质量和可解释性。增强微调RA-DIT实现了对大模型和检索器的双指令微调，RAFT。

2024-09-17 15:51:07 1302

原创大模型参数高效微调技术原理综述（八）-MAM Adapter、UniPELT

通过最终的实验结果，可以看到 MAM Adapter 在仅用了6.7%参数量（相比全量微调）的情况下，在Xsum和MT这两个任务上达到了和全量微调相近的效果，并且该方法大大优于 BitFit 和 Prompt Tuning，并始终优于 LoRA、Adapter 和 Prefix Tuning。基于此，作者分解了当下最先进的参数高效迁移学习方法（Adapter、Prefix Tuning和LoRA）的设计，并提出了一种新方法MAM Adapter，一个在它们之间建立联系的统一框架。插入形式有串联或并联；

2024-09-16 20:59:47 1258

原创大模型参数高效微调技术原理综述（七）-LoRA、AdaLoRA、QLoRA

在下游任务训练时，固定模型的其他参数，只优化新增的两个矩阵的权重参数，将PLM跟新增的通路两部分的结果加起来作为最终的结果（两边通路的输入跟输出维度是一致的），即h=Wx+BAx。在涉及到矩阵相乘的模块，在原始的PLM旁边增加一个新的通路，通过前后两个矩阵A,B相乘，第一个矩阵A负责降维，第二个矩阵B负责升维，中间层维度为r，从而来模拟所谓的本征秩（intrinsic rank）。通过实验也发现，在众多数据集上LoRA在只训练极少量参数的前提下，最终在性能上能和全量微调匹配，甚至在某些任务上优于全量微调。

2024-09-16 20:52:13 1451

原创大模型参数高效微调技术原理综述（六）-Adapter Tuning

如图 2所示， (Neil Houlsby, 2019)给出了Adaptor tuning与传统迁移学习（调整靠近输出的几层）在调整同等数量的参数的情况下，模型性能的差别。在训练过程中，一般只调整图 4中绿色的部分，包括适配器的下投影前馈层、上投影前馈层、非线性层以及Transformer模块中的两个归一层的参数。适配器模块的工作原理是先把输入的d维特征向量通过下投影前馈层（d×r维矩阵）投影为r维向量（r

2024-09-16 20:17:54 1399

原创大模型参数高效微调技术原理综述（五）-Prompt Tuning V2

提示微调，只用一个冻结的语言模型来微调连续的提示，大大减少了训练时每个任务的存储和内存使用。然而，在NLU的背景下，先前的工作显示，提示微调对于正常大小的预训练模型来说表现并不理想。我们还发现，现有的提示微调方法不能处理困难的序列标注任务，表明缺乏普遍性。我们提出了一个新的经验发现，适当优化的提示微调可以在广泛的模型规模和NLU任务中普遍有效。它与微调的性能相匹配，而只有0.1%-3%的微调参数。

2024-09-16 15:03:10 963

原创大模型参数高效微调技术原理综述（四）-Prompt Tuning

首先我们看一下论文摘要，快速理解论文的核心内容问题与一样，都是以任务为中心的思路解决问题。以任务为中心：它们都在试图解决FFT针对不同的下游任务都需产生一个新的微调后大模型而导致的成本效率问题。解决方案：论文提出的，也是一种使用Soft Prompt(软提示)进行迁移学习的方法。统一不同下游任务的训练数据格式，并将这些不同下游任务的训练数据汇总成一个乱序的数据集，微调预训练模型，最终获得一个能处理不同下游任务的大模型。实验效果在小参数规模的T5上，略差于FFT性能。在中参数规模的T5上，

2024-09-01 21:10:01 1292

原创大模型参数高效微调技术原理综述（三）-Prefix Tuning

首先我们看一下论文摘要，快速理解论文的核心内容问题：**FFT(全参数微调)**针对不同的下游任务都需要产生一个新的微调后大模型，存在成本效率等诸多工程问题。解决方案：论文提出的，是一种使用Soft Prompt(软提示)进行迁移学习的方法。针对不同下游任务创建不同的Prefix(前缀向量模块)，这样不同下游任务只需要在一套预训练大模型上加载不同Prefix小模型即可。实验效果在GPT-2的Table-To-Text(表格生成文本)下游任务中，Prefix。

2024-09-01 20:25:08 1563

原创大模型参数高效微调技术原理综述（一）-背景、参数高效微调简介

因此，近年来研究者们提出了各种各样的参数高效迁移学习方法（Parameter-efficient Transfer Learning），即固定住Pretrain Language model（PLM）的大部分参数，仅调整模型的一小部分参数来达到与全部参数的微调接近的效果（调整的可以是模型自有的参数，也可以是额外加入的一些参数）。参数高效微调是指微调少量或额外的模型参数，固定大部分预训练模型（LLM）参数，从而大大降低了计算和存储成本，同时，也能实现与全量参数微调相当的性能。

2024-09-01 20:23:37 1406

原创大模型参数高效微调技术原理综述（二）-BitFit

Prompt token 的长度在20左右时的表现已经不错（超过20之后，提升Prompt token长度，对模型的性能提升不明显了），同样的，这个gap也会随着模型参数规模的提升而减小（即对于超大规模模型而言，即使 Prompt token 长度很短，对性能也不会有太大的影响）。同时，通过实验结果还可以看出，BitFit微调结果相对全量参数微调而言, 只更新极少量参数的情况下，在多个数据集上都达到了不错的效果，虽不及全量参数微调，但是远超固定全部模型参数的Frozen方式。

2024-09-01 20:21:54 922

原创 OpenAI system,user,assistant 角色详解

要使用ChatGPT API与的聊天模型进行交互，您必须在消息对象中提供其中一个角色或。在本指南中，我们将讨论在ChatGPT API请求中使用这些角色的含义。

2024-09-01 19:37:47 920

uncased_L-2_H-128_A-2.zip

bert tiny We have shown that the standard BERT recipe (including model architecture and training objective) is effective on a wide range of model sizes, beyond BERT-Base and BERT-Large. The smaller BERT models are intended for environments with restricted computational resources.

2020-11-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

uncased_L-2_H-128_A-2.zip

SipMask_R_101_ms_3模型

mspn人体姿态检测算法模型

sipmask_r50_caffe_fpn_ssd_gn_10x.pth

sipmask_r50_caffe_fpn_gn_ms_1x.pth

corejava.rar

Java核心技术.zip

documents.zip

JAVA加密和解密的艺术（第二版）.zip

openbilibili-go-common-master

空空如也