
大模型
文章平均质量分 74
热爱生活的猴子
持续输出一些实际工作中遇到的问题和自己的总结,期待沟通交流
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
FastAPI 全局配置获取方式对比,Depends 和 request: Request 依赖注入
在 FastAPI 项目中获取全局配置有两种常见方式:直接通过 request.app.state.config 获取配置使用依赖注入机制 Depends(get_config) 获取配置原创 2025-05-21 10:15:55 · 572 阅读 · 0 评论 -
关于epoch、batch_size等参数含义,及optimizer.step()的含义及数学过程
名称含义示例Epoch整个训练集被完整遍历一次如果有 60,000 张图片,每次 batch 处理 64 张,则一个 epoch ≈ 938 次迭代Batch Size每次输入给模型的数据样本数量如 batch_size = 64,表示每次用 64 张图像更新模型参数执行一次参数更新,使用当前 batch 的梯度公式:$ W := W - \alpha \cdot g $,其中 $ g $ 是当前 batch 的梯度一个 epoch是对整个训练集的一次完整遍历;batch_size。原创 2025-04-30 18:00:41 · 831 阅读 · 0 评论 -
如何理解神经网络训练的循环过程
神经网络训练的循环过程原创 2025-04-30 16:12:07 · 577 阅读 · 0 评论 -
一个完整的神经网络训练流程详解(附 PyTorch 示例)
一个完整的神经网络训练流程详解原创 2025-04-30 16:04:14 · 2240 阅读 · 1 评论 -
为什么在加载大模型时,内存使用远小于模型本身的大小
我是在非GPU单机器上通过transformers的AutoModelForCausalLM, AutoTokenizer加载的模型和分词器,这种加载方式,并不存在分段加载或分布式部署等情况。理论上由于 CPU 环境没有显存限制,整个模型的权重文件(2.9G 或其他大小)会被一次性加载到 主机内存(RAM) 中。就是大模型本身大小是2.9G,为什么加载到内存以后,发现内存大小远小于模型本身的大小。而且只应该比2.9G大,不应该只有一半左右。原创 2024-09-23 22:07:15 · 495 阅读 · 0 评论 -
glm4-9b-chat在使用llama-factory加载和微调时出现报错ValueError: too many values to unpack (expected 2)
glm4-9b-chat在使用llama-factory加载和微调时出现报错ValueError: too many values to unpack (expected 2)原创 2024-09-05 13:51:36 · 734 阅读 · 0 评论 -
什么是AIGC?什么是AGI?
AIGC聚焦于通过 AI 技术自动生成内容,已经在很多领域取得了实际应用。AGI则是人工智能领域的长期愿景,目标是实现具有广泛智能的系统,但目前仍处于研究和探索阶段。原创 2024-09-02 14:39:28 · 560 阅读 · 0 评论 -
chatglm3-6b下载时,需要下载哪些文件
在huggingface或modelscope上下载chatglm3-6b时,会发现有两种可执行文件,一种是.bin,一种是.safetensors,在使用的时候你如果直接用git命令git clone https://www.modelscope.cn/ZhipuAI/chatglm3-6b.git直接下载,你会发现它会把所有的文件都下载下来。所以当你使用.safetensors模型时,pytorch_model.bin.index.json和special_tokens_map.json可以不用下载。原创 2024-08-22 14:59:45 · 507 阅读 · 0 评论 -
大模型中常见的名词:token、temperature、top-p、top-k
Token是文本处理的基本单位。控制生成文本的随机性和多样性。Top-p和Top-k是两种常见的采样方法,用于控制生成模型的输出,前者基于累积概率,后者基于固定的候选数量。原创 2024-08-19 17:14:26 · 1818 阅读 · 0 评论 -
【内网Tesla T4_16G为例】GPU安装NVIDIA Driver、CUDA、cuDNN、Python
【内网Tesla T4_16G为例】GPU安装NVIDIA Driver、CUDA、cuDNN、Python原创 2024-07-18 14:38:27 · 3461 阅读 · 0 评论 -
【内网Tesla T4_16G为例】超详细部署安装ollama、加载uugf格式大模型qwen2、chatglm3及大模型的使用
【内网Tesla T4_16G为例】超详细安装部署ollama、加载uugf格式大模型qwen2、chatglm3及大模型的使用原创 2024-07-18 12:58:43 · 3377 阅读 · 0 评论