自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(124)
  • 收藏
  • 关注

原创 大模型训练内存优化技术ZeRO介绍篇

ZeRO 是一项在2020年前后提出的、革命性的内存优化技术,旨在消除数据并行和模型并行中的 **内存冗余**。它保持**低通信开销**和**高计算粒度**,使得模型大小能够与设备数量成比例扩展,同时保持高效率。

2025-12-21 00:17:50 406

原创 实战LLaMA2-7B指令微调

数据质量远胜于数据数量——高质量的指令数据集能极大提升模型效果

2025-12-14 22:14:37 225

原创 大模型训练技术总结

大模型训练技术总体上为预训练-》按目标与方法选择合适的微调方式。

2025-12-07 17:31:58 587

原创 LLaMA大模型家族发展介绍

LLaMA从强大的文本处理工具进化为能够理解并生成多模态内容的通用智能体,为未来人机交互和AI应用开辟了全新的疆域。

2025-11-30 11:20:41 799

原创 混合专家模型MoEs技术发展介绍

MoE架构被认为是解决大模型 scaling law(缩放定律)挑战、通往更强大人工智能的关键路径之一。

2025-11-22 09:13:54 44

原创 java线程变量ThreadLocal用法篇v1.1

`ThreadLocal` 是 Java 中用于实现 **线程封闭** 的类,其核心作用是为每个线程提供独立的变量副本,避免多线程间的共享竞争。但**它不保证存储对象的线程安全**,存储的**对象**使用不当仍会引发线程安全问题。线程安全的本质是 **“对象不被共享”** 或 **“对象不可变”**,而非依赖 `ThreadLocal`,在分布式线程环境(如线程池、异步任务)中,必须配合 `remove()` 清理数据或者使用阿里巴巴的TransmittableThreadLocal ,否则会引发数据污染和

2025-11-12 22:07:12 824

原创 大模型训练技术RLHF介绍篇

RLHF(基于人类反馈的强化学习)是一种通过人类偏好数据训练奖励模型,并利用强化学习微调语言模型,使其输出更符合人类价值观和偏好的技术。

2025-11-09 14:24:35 584

原创 如何构造私有的大模型微调数据集

如何构造私有的大模型微调数据集

2025-11-02 22:39:34 324

原创 智谱GLM 大模型家族与 ChatGLM3-6B 微调入门

智谱GLM 大模型家族与 ChatGLM3-6B 微调入门

2025-10-26 22:14:26 850

原创 实战量化Facebook OPT模型

大模型量化方式

2025-10-19 17:15:49 661

原创 大语言模型量化入门说明篇

大语言模型量化入门说明

2025-10-18 09:23:42 633

原创 PEFT实战LoRA微调OpenAI Whisper 中文语音识别

PEFT实战LoRA微调OpenAI Whisper 中文语音识别

2025-10-02 12:17:14 1007

原创 PEFT库实战快速入门

PEFT库`AutoPeftModel` 的设计理念与 Transformers 库的 `AutoModel` 一脉相承,旨在少量代码就能自动高效微调任务

2025-09-22 22:00:06 688

原创 大模型微调技术介绍篇

大模型微调**核心都是通过训练来更新模型的参数**(权重),模型本身因为看到了新数据而发生了内在改变。**本质上就是更新Transformer模型的参数(权重)。**

2025-09-15 08:30:00 711

原创 使用(IA)³极简主义增量训练方法介绍篇

**(IA)³** 核心思想是**用最小的改动,实现最有效的控制**,(IA)³ 证明了一点:**与其增加复杂的结构,不如聪明地、精细地控制模型已有的激活值**,这是一种非常巧妙且高效的微调范式。

2025-09-14 08:43:59 350

原创 PEFT 统一框架UniPELT微调大模型介绍篇

UniPELT通过一个**门控机制**自动选择和组合最适合当前任务或数据的微调方法,无需人工干预。UniPELT 提供了一个**灵活、自适应**的微调框架,避免了对每个任务手动选择微调方法的麻烦,适合快速部署和实验多种 PEFT 策略。

2025-09-13 14:19:18 385

原创 使用QLoRA 量化低秩适配微调大模型介绍篇

QLoRA成功地打破了“高性能必须高资源”的壁垒,真正实现了大模型微调的“民主化”。

2025-09-07 17:29:21 920

原创 使用AdaLoRA 自适应权重矩阵微调大模型介绍篇

AdaLoRA解决了LoRA低秩参数r的人工选择问题,并且实现动态调整模型所有关键部分(包括FFN),全面提升模型能力

2025-08-31 12:19:15 1226

原创 使用Lora微调大模型介绍篇

LoRA使用低秩微调大模型达到甚至优于全量微调

2025-08-23 20:35:06 759

原创 分布式事务Seata XA模式设计分析篇

XA模式基于资源实现XA协议接口,在prepare阶段必须阻塞等待,性能较差

2025-08-18 08:00:00 750

原创 分布式事务Seata Saga模式设计分析篇

Saga 模式是 Seata 提供的长事务解决方案,实现最终一致性

2025-08-17 08:30:00 854

原创 人工智能技术发展历史演变

此阶段用到了BERT、PaLM、LLaMA、GPT-4、GLM,基于全网万亿数据十亿用户反馈,利用预训练 + 微调 + 开源社区,AI的发展仍在高速进行,未来方向可能包括。,此阶段用到了HMM、CTF、SVM反向传播、卷积网络,基于对百万级的数据进行标注,利用统计机器学习算法+算法包(scikit-learn,XGBoost)。,此阶段的主要是基于人工设计的规则系统,基于专家的知识和数百规则集构成,本质还是基于规则,不够智能。​ 1990年-2012年,处于。​ 2013年-2018年,处于。

2025-08-09 23:14:18 451

原创 分布式事务Seata TCC模式篇

TCC 模式是高性能分布式事务解决方案,适用于核心系统等对性能有很高要求的场景。

2025-08-09 20:21:45 829

原创 分布式事务Seata AT模式设计分析篇

Seata AT模式是分布式事务的轻量级解决方案。适合**快速接入**、**业务无侵入**,允许短暂数据不一致使用。

2025-08-03 22:51:41 1039

原创 数据库设计mysql篇

数据库设计是软件开发和系统架构的核心环节,本文介绍表设计、表事务。

2025-07-22 21:06:09 747

原创 mysql 慢sql优化篇

SQL 优化的核心目标是在保证结果正确性的前提下,减少数据库系统的资源消耗(CPU、IO、内存、网络)和提高查询响应速度。

2025-07-16 19:46:24 837

原创 java volatile关键字使用详解

在 Java 中,`volatile` 是一个关键字,用于修饰变量,主要解决多线程环境下共享变量的**可见性**和**指令重排序**问题。它提供了一种轻量级的同步机制,但需注意其适用场景和限制。只保证单次读写的原子性,不保证复合操作的原子性

2025-07-11 15:10:17 364

原创 java关键字synchronized锁详解篇

`synchronized` 是 Java 中用于实现线程同步的关键字,它通过 **内置锁(Monitor Lock)** 确保多线程环境下的原子性、可见性和有序性。

2025-07-07 15:10:46 945

原创 JVM内存模型与垃圾回收机制分析

JVM内存模型涉及运行代码,即运行代码产生的垃圾数据需要回收,堆是对象生存的核心战场,GC 主要在此区域运作,GC解决内存有限性、避免手动管理风险、动态回收垃圾、保障性能与稳定性,**让开发者从内存管理中解放,专注于业务逻辑实现**

2025-07-01 21:02:19 780

原创 java数据类型详解篇

Java基本类型和引用类型分析

2025-06-24 21:19:08 1927

原创 java线程池使用篇

java线程池使用篇

2025-06-17 11:38:28 1023

原创 java在银行业务数值金额计算问题处理篇

银行处理精度计算问题

2025-06-14 16:34:28 356

原创 java hashmap详解篇

hashmap常见问题

2025-06-14 11:23:04 1367

原创 ThreadLocal原理及内存泄漏分析

ThreadLocal内存泄漏问题分析

2025-06-12 15:38:52 488

原创 java并发包中的ReentrantLock锁详解篇

ReentrantLock是Java并发包中的互斥锁实现,提供比synchronized更灵活的锁控制

2025-06-11 15:51:32 1309

原创 java线程变量ThreadLocal用法篇

ThreadLocal 是 Java 实现线程封闭的关键类,为每个线程提供独立变量副本,避免共享竞争。但需注意:1) 存储对象本身需保证线程安全;2) 必须配合remove()清理,防止线程池复用导致数据污染;3) InheritableThreadLocal会复制父线程值,可能引发父子线程共享问题,可通过重写childValue深拷贝解决。典型风险包括:线程池残留数据、对象逃逸被多线程修改。建议:优先使用普通ThreadLocal,任务结束时强制清理,避免直接暴露对象引用。

2025-06-10 16:20:08 372

原创 spring 使用FactoryBean注入bean

​ 通常是ApplicationContext,就是IOC容器,ApplicationContext是BeanFactory的实现类,是spring最核心的接口。用getBean来加载bean。BeanFactory相当于是IOC的基础类。而FactoryBean是另一个东西,可以用来手动注入类实例,但又与BeanFactoryPostProcessor等spring提供的扩展点不同,本身没有固定的触发时机。

2025-05-04 11:37:47 474

原创 java对象拷贝

java对象拷贝

2024-10-19 10:08:45 2275 1

原创 docker desktop实战部署oracle篇

快速部署oracle数据库

2024-05-05 18:01:05 3063

原创 window轻松使用k8s (Docker Desktop安装)

window轻松使用k8s分享

2024-04-14 03:53:40 6604 2

微信小程序开发从0基础到unit-app开发

微信小程序开发从0基础到UI开发,如Vant组件、uniApp。文章从0基础讲起到各个组件的使用,都包含了代码事例,可以作为平常开发时的手册使用,也是我开发时打算用来作为开发手册使用了,毕竟人大脑不可能记住所有的知识点,能全部记住的就不是人脑了,如果大家在看我的资料有任何问题的话可以在评论区里问,有时间我看到了都会尽量给大家解答,这样大家一起进步,csdn有个不好地方就是不能导入本地笔记中的图片,头条就支持,导致笔记里有好多图片的,一个个上传太费时间了,所以大家就直接下载我的笔记文件来看吧,笔记同步也更新到了今日头条 鹏的快乐 ,大家可以搜下这个用户一起学习起来吧

2023-03-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除