自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Arthur Guo 的专栏

ArthurGuo的技术记事簿

  • 博客(257)
  • 收藏
  • 关注

原创 AI大模型底层技术——Multi-LoRA Combination Methods

"Multi-LoRA Combination Methods" 指的是在 LoRA (Low-Rank Adaptation) 微调的基础上,使用多个 LoRA 模块,并通过特定的方法将它们组合起来,以适应多任务学习、领域自适应或模型个性化等场景的技术。与传统的 LoRA 方法只使用单个 LoRA 模块不同,"Multi-LoRA Combination Methods" 能够利用多个 LoRA 模块的优势,实现更灵活、更强大的模型微调。

2025-03-29 12:29:25 690

原创 AI大模型底层技术——Adaptive Rank Allocation

"Adaptive Rank Allocation" 指的是一种在 LoRA (Low-Rank Adaptation) 微调过程中,根据模型不同层或模块的重要性,自适应地分配 LoRA 秩 (Rank) 的技术。传统的 LoRA 方法通常为所有层或模块设置相同的秩,而 "Adaptive Rank Allocation" 则允许不同的层或模块拥有不同的秩,从而更有效地利用参数,提高微调性能。

2025-03-29 12:16:13 765

原创 AI大模型底层技术——LoRA for Vision Transformer (ViT)

"LoRA for Vision Transformer (ViT)" 指的是将 LoRA (Low-Rank Adaptation) 技术应用于 Vision Transformer (ViT) 模型,以实现参数高效的微调。ViT 模型在图像识别领域取得了显著的成果,但其庞大的参数量使得全参数微调成本高昂。LoRA 提供了一种解决方案,通过只训练少量参数,即可使 ViT 模型适应新的图像任务,同时保持较高的性能。

2025-03-28 23:13:23 811

原创 AI大模型底层技术——DyLoRA

DyLoRA (Dynamic Low-Rank Adaptation) 是一种在 LoRA (Low-Rank Adaptation) 基础上发展起来的动态参数微调技术。与 LoRA 采用固定的低秩矩阵不同,DyLoRA 允许 LoRA 模块的秩 (rank)根据输入动态变化。这种动态调整机制使得模型能够根据输入样本的复杂度和重要性,自适应地分配计算资源,从而在保持性能的同时,进一步提升效率和灵活性。

2025-03-28 23:06:40 752

原创 AI大模型底层技术——QLoRA微调

是在 LoRA (Low-Rank Adaptation) 基础上发展起来的一种更高效的参数微调技术,尤其适用于资源极度受限的场景。它在保持 LoRA 优点的同时,进一步通过量化 (Quantization)技术压缩预训练模型,显著降低了内存占用,使得即使在消费级硬件上也能微调大型模型。

2025-03-27 11:43:25 420

原创 AI大模型底层技术——LoRA微调

是一种针对大型预训练语言模型 (LLMs) 的高效微调技术。它旨在解决全参数微调所带来的计算和存储成本问题。冻结预训练模型的原始参数,并通过引入少量可训练的低秩矩阵来模拟参数更新。这样,在微调过程中,只需要优化这些低秩矩阵的参数,而不需要修改原始模型的参数,从而大大减少了需要训练的参数量。

2025-03-27 11:29:18 1630

原创 AI深度思考系列——幻觉(Hallucination)

在大型语言模型(LLMs)的语境下,“幻觉”指的是模型生成的内容与现实世界不符、缺乏事实依据,甚至是完全虚构捏造的现象。简单来说,模型会“一本正经地胡说八道”。幻觉不仅仅是简单的错误,而是一种模型自信地、看似合理地产生错误信息的能力。

2025-03-26 12:39:40 606

原创 AI深度思考系列——无意识“投毒”

猫哥崇拜的某大佬继续说:即使有了大模型,感觉搜索引擎和问答网站(不是某贴8)还是有存在价值的,因为能留下来的很多事经过验证的答案,甚至可以直接搜索行业白皮书等,后者就更加是真专家的思想升华总结了。”),而非拆解问题、明确约束条件(如“基于2023年IMF报告,分析某国通胀的三种应对策略”)。随着工具链完善和用户认知升级,人机协同的“增强智能”模式将逐步成为主流。这种低效使用不仅可能浪费时间和资源,还可能因错误信息的反复输入和输出导致模型生成质量的下降(即“无意投毒”)。,反而延缓问题解决。

2025-03-26 11:42:37 400

原创 AI深度思考系列——大模型被当成了某度

猫哥崇拜的某大佬说:随着AI大模型的不断科普,很多人只是把大模型当百度用。于是对于一些复杂的问题,一个大模型没解决,就换下一个大模型,结果得到差不多的答案,然后换prompt,还是得不到答案,幻觉很严重,然后无限循环,直至崩溃。猫哥第一反应,为什么我没想到这些?大佬就是大佬!

2025-03-25 23:22:18 711

原创 DeepSeek底层揭秘——GEMM

GEMM (General Matrix Multiplication) 指的是通用矩阵乘法,是线性代数中一个基础且核心的运算。在机器学习,特别是深度学习领域,GEMM 占据了绝大部分的计算量。DeepSeek 开源的 GEMM 库,专注于提供极致性能的矩阵乘法运算,针对不同的硬件平台(如 CPU、GPU)进行深度优化,旨在加速 AI 模型的训练和推理过程。

2025-03-25 23:06:09 1008

原创 DeepSeek底层揭秘——deepEP

deepEP (DeepSeek EndPoint) 是 DeepSeek 开源的一款高性能、低延迟的分布式通信库,专为大规模深度学习训练和推理场景设计。它旨在优化分布式计算环境中的通信效率,特别是在节点间数据交换、梯度同步、模型分发等方面,能够显著提升训练速度和推理性能。deepEP 的设计目标是提供一种易于使用、高度灵活且性能卓越的通信解决方案,以满足日益增长的 AI 模型规模和数据量需求。

2025-03-24 22:48:47 1022

原创 DeepSeek底层揭秘——EPLB

是DeepSeek团队开源的一套针对于大规模并行任务(如分布式AI训练任务)负载均衡问题的弹性、智能、并行调度平台。其设计目的是优化大规模GPU/ CPU集群资源的高效管理、任务实时分配与并发执行,动态地将负载分布到计算节点上,进行高效的计算资源利用率与最优的任务执行性能。与传统网络层负载均衡(如 NGINX、HAProxy)或云原生负载均衡(如 K8s的Ingress)截然不同的是,EPLB关注的是计算资源粒度的负载均衡,尤其注重异构硬件场景(CPU、GPU、TPU、FPGA)资源管理。

2025-03-24 22:40:18 851

原创 ACP科普:几种常见的估算方法

作为敏捷开发中的一项重要实践,旨在帮助团队预测任务的工作量、时间、复杂度等,并为产品交付做出更有效的计划。敏捷估算方法可以帮助团队成员协调一致、透明化进度,并确保在迭代周期内能够按时交付高质量的产品。下面我会详细介绍一些常见的敏捷估算方法,并总结其目标、过程、参与角色及注意事项。

2025-03-14 17:24:03 602

原创 ACP科普: 客户是否参加retrospective会议

在的语境下,(回顾会议)是敏捷方法论(如Scrum)中的一个重要组成部分。它帮助团队反思和改进,以不断提高工作效率、质量和团队协作。

2025-03-14 16:07:46 867

原创 DeepSeek底层揭秘——交互指令集

【代码】DeepSeek底层揭秘——交互指令集。

2025-03-04 08:13:41 363

原创 DeepSeek底层揭秘——Smallpond

Smallpond 是一个专为大规模 AI 训练设计的高性能、分布式数据加载和预处理框架。它由上海交通大学 IPADS 实验室开发,旨在解决 AI 训练中数据 I/O 瓶颈问题,特别是与 3FS 文件系统结合使用时,能够显著提升数据加载和预处理的效率。Smallpond 的设计理念是“小数据池”(small pond),通过将大规模数据集划分为多个小数据块(chunks),并利用分布式缓存和并行处理技术,实现高效的数据访问和预处理。

2025-03-03 12:46:23 1109

原创 DeepSeek底层揭秘——3FS

3FS(Three-Level File System)是一种创新的分布式文件系统,由上海交通大学 IPADS 实验室开发,旨在解决大规模数据中心环境中传统文件系统在元数据管理、扩展性、性能和可靠性方面的挑战。3FS 采用了一种独特的三层元数据管理架构,将文件系统的元数据分为三个层次:目录服务器(Directory Server, DS)、元数据服务器(Metadata Server, MDS)和存储服务器(Storage Server, OSS),从而实现高性能、高可扩展性和高可靠性。

2025-03-03 12:27:31 1051

原创 可观测之Tracing-eBPF生态和发展

eBPF已经不仅仅是一个内核技术,而是一个蓬勃发展的生态系统,涵盖了各种工具、库和项目,为可观测性、网络、安全等领域提供了强大的支持。eBPF已经成为构建现代可观测性解决方案的关键技术,为可观测性带来了更广阔的前景。

2025-03-01 20:02:59 1009

原创 可观测之Tracing-bpftrace

bpftrace是基于eBPF(extended Berkeley Packet Filter)技术的高级跟踪工具。eBPF是Linux内核中的一个虚拟机,允许用户在内核空间安全、高效地运行自定义的程序(称为eBPF程序)。bpftrace可以作为APM、安全监控、系统诊断等工具的核心组件,实现工程化应用。

2025-03-01 19:53:33 1132

原创 AI大模型-提示工程学习笔记22-元提示(meta-prompting)

是一种利用大语言模型 (LLM) 本身来生成、优化或选择提示(Prompt)的提示技术。与传统的由人类手动设计提示不同,Meta-Prompting 将提示的生成过程也交给 LLM 来完成,从而实现提示的自动化和自适应。通过利用 LLM 的生成能力和上下文学习能力,Meta-Prompting 可以生成更有效、更符合特定任务需求的提示,从而提高 LLM 在各种任务中的性能。

2025-02-28 22:10:16 1008

原创 AI大模型-提示工程学习笔记21-图提示 (Graph Prompting)

是一种利用图结构数据(Graph-Structured Data)来增强大语言模型 (LLM) 在处理需要图推理的任务中性能的提示技术。与传统的基于文本的提示不同,Graph Prompting 将知识表示为图的形式,其中节点(Nodes)表示实体,边(Edges)表示实体之间的关系。通过将图结构数据融入到提示中,LLM 可以更好地理解实体之间的复杂关系,从而提高推理能力和生成内容的准确性。Graph Prompting 通过将知识表示为图的形式,弥补了传统提示的不足。

2025-02-28 22:06:24 1099

原创 可观测之Tracing-浅析eBPF

eBPF 是一种更底层、更通用、更安全的技术,可以用于实现更广泛的可观测性场景,包括 Jaeger/Zipkin 所关注的分布式追踪。

2025-02-27 22:28:57 1181

原创 ACP科普:SCRUM中的迭代和发布

迭代(在SCRUM中通常称为。

2025-02-27 11:59:26 700

原创 AI大模型-提示工程学习笔记20-多模态思维链提示

是一种将大语言模型 (LLM) 与多模态信息(如图像、文本)结合起来,以增强其在需要多模态推理的任务中性能的提示技术。与传统的单模态思维链 (CoT) 提示不同,Multimodal CoT 不仅利用文本信息进行推理,还利用图像等其他模态的信息,从而更全面地理解任务,并生成更准确、更相关的答案。多模态思维链提示 (Multimodal CoT Prompting) 是一种将大语言模型 (LLM) 与多模态信息(如图像、文本)结合起来,以增强其在需要多模态推理的任务中性能的提示技术。

2025-02-26 22:51:55 959

原创 AI大模型-提示工程学习笔记19-自我反思

与单纯依赖 LLM 生成答案不同,Reflexion 通过引入一个“反思者”(Reflector)模块,让 LLM 能够评估自身输出的质量,并根据评估结果进行调整和改进,从而逐步提高生成内容的准确性和可靠性。未来,随着 LLM 技术的不断发展和 Reflexion 框架的不断完善,自我反思有望成为 LLM 应用的重要组成部分。自我反思 (Reflexion) 是一种通过让 LLM 对自身生成的输出进行反思和评估,从而提高其在需要推理的任务中性能的框架。Reflexion 的核心理念——

2025-02-26 22:46:25 582

原创 AI大模型-提示工程学习笔记18—推理与行动的协同 (ReAct)

是一种将大语言模型 (LLM) 的推理能力(Reasoning)和行动能力(Acting)结合起来的框架,旨在让 LLM 能够像人类一样,在解决问题的过程中既能进行推理(思考、分析),又能采取行动(与外部环境交互、获取信息),从而更有效地解决复杂的任务。ReAct 是一种将大语言模型 (LLM) 的推理能力和行动能力结合起来的框架,旨在让 LLM 能够像人类一样,在解决问题的过程中既能进行推理,又能采取行动。,为大语言模型的应用开辟了新的方向,也为构建更智能、更强大的 AI 系统提供了新的思路。

2025-02-25 22:10:56 846

原创 AI大模型-提示工程学习笔记17—程序辅助语言模型

是一种将大语言模型 (LLM) 与外部程序(如 Python 解释器)结合起来,以提高 LLM 在处理需要精确计算或符号推理的任务时的准确性和可靠性的框架。未来,随着 LLM 技术的不断发展和 PAL 框架的不断完善,程序辅助语言模型有望在更多领域发挥重要作用。程序辅助语言模型 (PAL) 是一种将大语言模型 (LLM) 与外部程序结合起来,以提高 LLM 在处理需要精确计算或符号推理的任务时的准确性和可靠性的框架。,为大语言模型的应用开辟了新的方向,也为构建更智能、更可靠的 AI 系统提供了新的思路。

2025-02-25 22:05:01 1052

原创 AI大模型-提示工程学习笔记16—方向性刺激提示

与传统的提示工程方法不同,DSP 不仅仅依赖于任务描述或少量示例,还通过添加额外的线索(Cues)或约束(Constraints)来更精确地控制 LLM 的生成方向,从而提高生成内容的质量和相关性。未来,随着 LLM 技术的不断发展和 DSP 方法的不断完善,方向性刺激提示有望成为 LLM 应用的重要组成部分。方向性刺激提示 (DSP) 是一种通过在提示中添加特定的“方向性刺激”来引导 LLM 生成更符合预期结果的提示工程技术。,为提示工程提供了新的思路,也为大语言模型的应用开辟了更广阔的可能性。

2025-02-24 23:34:37 1071

原创 ACP科普:SCRUM回顾会协调员

在敏捷开发方法中,(Sprint Retrospective)是SCRUM框架中的一个重要仪式,它在每个迭代(Sprint)结束时举行,目的是让团队反思过去的工作,找出改进的地方,并规划如何改进工作流程。SCRUM回顾会议上的协调员扮演着至关重要的角色,帮助团队进行有效的反思和改进。

2025-02-24 15:14:46 997

原创 AI大模型-提示工程学习笔记15—主动提示 (Active Prompt)

是一种结合了主动学习(Active Learning)和提示工程(Prompt Engineering)的技术,旨在通过迭代地选择最有信息量的样本进行标注,并利用这些标注样本来优化大语言模型(LLM)的提示,从而提高 LLM 在特定任务上的性能。主动提示 (Active Prompt) 是一种结合了主动学习和提示工程的技术,旨在通过迭代地选择最有信息量的样本进行标注,并利用这些标注样本来优化 LLM 的提示,从而提高 LLM 在特定任务上的性能。Active Prompt 的核心理念——

2025-02-21 16:11:37 1058

原创 AI大模型-提示工程学习笔记13—自动提示工程师 (Automatic Prompt Engineer)

是一种利用大语言模型 (LLM) 自动生成和优化提示(Prompt)的框架,旨在减少人工设计提示的工作量,并提高 LLM 在特定任务上的性能。与手动设计提示不同,APE 通过让 LLM 自身生成和评估提示,自动探索更有效的提示策略,从而实现提示工程的自动化。未来,随着 LLM 技术的不断发展和 APE 框架的不断完善,自动提示工程有望成为 LLM 应用的重要组成部分。自动提示工程师 (APE) 是一种利用 LLM 自动生成和优化提示的框架,旨在减少人工设计提示的工作量,并提高 LLM 在特定任务上的性能。

2025-02-21 15:48:32 1032

原创 AI大模型-提示工程学习笔记13-自动推理并使用工具

是一种结合了大语言模型(LLM)的推理能力和外部工具的实用性的框架,旨在让 LLM 能够自动选择和使用工具来完成复杂任务。未来,随着工具库的不断丰富和工具选择机制的不断优化,ART 有望在更多领域发挥重要作用。自动推理并使用工具 (ART) 是一种强大的技术,通过结合大语言模型的推理能力和外部工具的实用性,扩展了 LLM 的能力。,为大语言模型的应用开辟了新的方向,也为构建更智能、更实用的 AI 系统提供了新的思路。卷首语:我所知的是我自己非常无知,所以我要。ART 的核心理念——

2025-02-20 22:13:05 967 1

原创 DeepSeek底层揭秘——微调

大语言模型微调是一种通过在预训练模型基础上进行特定任务训练,以提高模型在特定任务上性能的技术。大语言模型微调(Fine-tuning of Large Language Models)是指在预训练的大型语言模型(如 GPT、BERT、LLaMA 等)的基础上,使用特定任务的数据集进行进一步训练,以使模型适应特定任务或领域的过程。微调通常涉及调整预训练模型的部分或全部参数,以提高模型在特定任务上的性能。通过在特定任务的数据集上进行训练,模型能够学习到与任务相关的特征和模式,从而提高在该任务上的性能。

2025-02-20 01:51:31 1717 1

原创 ACP科普:敏捷项目中的业务优先级和风险冲突

在敏捷项目管理的过程中,业务优先级与风险之间的冲突是一个经常遇到的问题。业务优先级往往是由市场需求、客户需求、利润目标等因素驱动的,而风险则可能来源于技术难度、依赖关系、资源瓶颈等方面。作为一个10+年敏捷开发深度践行者,猫哥将通过两种流行的敏捷方法——SCRUM和Kanban,向大家阐述它们如何处理这两者的冲突。

2025-02-19 19:26:56 622

原创 ACP科普:Sprint与Iteration的微妙共性

它们的核心思想都是将一个大项目拆分成小的、有时间限制的工作周期,团队在每个周期内专注完成一部分任务,不断迭代和改进,最终实现项目的成功交付。第一次 Iteration 我们先拼出拼图的大致轮廓,第二次 Iteration 在轮廓的基础上填充一些关键的图案,第三次 Iteration 进一步完善细节。假设我们要策划一场大型的商业活动,这就像是规划一次漫长的旅行。可以看出,Sprint 和 Iteration 都是将一个复杂的项目拆分成有时间限制的小阶段,团队在每个阶段内专注完成一部分任务,逐步推动项目前进。

2025-02-19 19:16:15 369

原创 DeepSeek底层揭秘——多跳推理

多跳推理是一种通过跨越多个信息片段或知识点逐步推导答案的技术,能够处理复杂的推理任务,提升模型的逻辑推理能力和信息整合能力。多跳推理(Multi-hop Reasoning)是一种复杂的推理技术,指模型在回答问题或解决任务时,需要跨越多个信息片段或知识点,逐步推导出最终答案,而不是直接从单一信息源中获取结果。例如,在自然语言处理(NLP)中,多跳推理任务可能需要模型从多个段落中提取相关信息,并将这些信息结合起来得出答案。例如,在多跳问答任务中,模型需要先回答中间问题,再利用中间答案推导最终答案。

2025-02-18 09:46:23 916

原创 DeepSeek底层揭秘——动态注意力机制

动态注意力机制是一种通过动态调整注意力权重分布的深度学习技术,能够根据输入数据的特性自适应地提取关键特征,提升模型的表达能力和泛化性能。动态注意力机制(Dynamic Attention Mechanism)是一种深度学习技术,旨在根据输入数据的特性动态调整注意力权重分布,从而更高效地捕获数据的关键特征。与静态注意力机制不同,动态注意力机制会根据输入的上下文或任务需求实时调整注意力分配,而不是使用固定的权重或模式。动态注意力机制能够根据输入数据的特性动态调整注意力权重,从而更高效地提取关键特征。

2025-02-18 08:42:57 1446

原创 DeepSeek底层揭秘——FP8混合精度训练

FP8混合精度训练是一种通过结合低精度(FP8)和高精度(FP16/FP32)计算的深度学习优化技术,能够显著减少内存占用和计算复杂度,同时保证模型性能。相比传统的 FP32(32位浮点数)和 FP16(16位浮点数),FP8 的表示范围更小,但通过混合精度训练策略,可以在不显著损失模型性能的情况下,提升训练效率。:相比传统的 FP16 训练,FP8 混合精度训练提升了 30% 的训练速度,同时显存占用减少了 40%。:在医疗影像数据的分割任务中,使用 FP8 表示特征图,结合 FP32 进行关键计算。

2025-02-17 11:12:16 1529

原创 DeepSeek底层揭秘——多头潜在注意力MLA

MLA 的核心思想是利用多头注意力机制在潜在空间中学习不同的特征表示,从而提升模型对复杂数据的理解能力。多头潜在注意力(MLA)是一种结合多头注意力机制和潜在空间建模的深度学习方法,能够在高维数据中捕获全局和局部特征,提升模型的表达能力和泛化性能。MLA 通常用于处理高维数据(如图像、文本、时间序列等),通过在潜在空间中引入多头注意力机制,能够更好地捕获数据的全局和局部特征,提升模型的表达能力和泛化性能。它通过在潜在空间中引入多头注意力机制,提升了模型对复杂数据的理解能力。

2025-02-17 10:58:30 1228 1

原创 DeepSeek底层揭秘——模型迭代加速策略

模型迭代加速策略”是一种通过优化数据处理、模型开发、训练、验证和部署等环节,缩短模型迭代周期的技术方法。通过数据增强、迁移学习、分布式训练、模型压缩等技术,已经在推荐系统、自动驾驶、医疗诊断等领域取得了显著成果。未来,随着自动化工具、多模态学习和实时迭代技术的发展,模型迭代加速策略将进一步推动人工智能的创新与应用。“模型迭代加速策略”是指通过优化模型开发、训练、验证和部署的各个环节,缩短模型迭代周期的技术和方法集合。其目标是快速响应业务需求或研究目标的变化,提升模型的开发效率和性能,同时降低资源消耗。

2025-02-15 17:16:50 969

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除