
大模型面试题
永远的HelloWorld
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
开源产品 coze、dify、dbgpt、langchain-chatchat比对
原创 2024-10-24 00:13:55 · 831 阅读 · 0 评论 -
LangChain与LangGraph的区别?
无论是开发交互式代理、复杂决策系统还是迭代处理模型,LangGraph都提供了所需的工具和灵活性,使您能够创造更智能和响应更迅速的应用。LangGraph通过扩展LangChain的功能,引入循环计算和状态执行,显著提升了LLM应用的能力。LangGraph以其循环计算、状态执行和条件逻辑,成为开发者探索LLM应用新可能的关键工具。原创 2024-10-23 23:39:10 · 643 阅读 · 0 评论 -
面试宝典2:训练过程中用deepspeed进行优化
Zer0-0:不使用所有类型的分片,仅使用DeepSpeed作为DDP,速度最快(显存够时使用)。Zero-1:切分优化器状态,分片到每个数据并行的工作进程(每个GPU)下;Zero-2:切分优化器状态+梯度,分片到每个数据并行的工作进程(每个GPU)下。首先deepspeed是一个pytorch优化库,用来加速分布式训练。Zero-3:切分优化器状态+梯度+模型参数,分片到每个数据并行的工作进程(每个GPU)下。核心便是其Zero策略,ZeRO训练支持了完整的ZeRO Stages1,2和3.原创 2024-10-23 23:19:27 · 317 阅读 · 0 评论 -
Fine-tuning 和 LoRA 和 QLoRA的区别
Fine-tuning是一种常见的迁移学习方法,它通过在特定任务上继续训练预训练模型来调整模型参数。原创 2024-10-23 23:12:03 · 712 阅读 · 0 评论