Kristin_LLM-优快云博客

原创一文搞懂LLM训练推理中的GPU显存与算力

对比维度GPU 显存GPU 算力本质相当于 GPU 的 “专属内存”，用于临时存储数据和模型参数相当于 GPU 的 “计算能力”，用于执行矩阵运算、注意力计算等核心任务作用存放模型权重、KV 缓存、输入输出数据、中间计算结果完成大模型的前向推理（生成 token）、反向传播（训练更新参数）衡量单位容量：GB（如 24GB、40GB、80GB）带宽：GB/s（影响数据读写速度）浮点运算能力：FLOPS（如 TFLOPS / 秒）常用单位：FP16 TFLOPS、INT8 TOPS核心瓶颈场景。

2025-12-09 16:02:12 631

原创一文搞懂LLM高吞吐

高吞吐的本质是最大化硬件资源利用率，在单位时间内处理更多请求，核心依赖连续批处理、高效显存管理等技术。它是大模型商业化服务的核心性能指标，直接决定了服务的用户承载量和运营成本。

2025-12-09 15:46:41 773

原创大模型文本分类任务常用技术路径简述

大模型做文本分类的核心路径可概括为「轻量路径（零 / 少样本）→ 精准路径（SFT）→ 部署路径（蒸馏）」，按 “标注数据量 + 算力 + 部署需求” 逐步升级，具体分类任务建议从少样本分类入手，再过渡到 SFT 微调，最终用蒸馏模型落地。

2025-12-04 15:41:48 1203

原创 LLM入门必看：Andrej Karpathy -Deep Dive into LLMs like ChatGPT 学习笔记

课程地址：khttps://www.youtube.com/watch?v=7xTGNNLPyMIhttps://www.youtube.com/watch?v=7xTGNNLPyMIhttps://www.youtube.com/watch?v=7xTGNNLPyMIHuggingFace FineWeb Dataset https://huggingface.co/datasets/HuggingFaceFW/finewebhttps://huggingface.co/datasets/Hugging

2025-11-26 14:59:27 1987

原创 AI编程提效必看：Claude Code Router + modelscope免费模型（Linux）

无需额外启动其他服务（环境变量会自动让 CCR 对接魔搭的代码模型），和你用本地终端工具写指令一样简单。），跳转后再点击左侧“访问令牌”，可新建或使用已有的令牌。（1）获取API密钥：登录魔塔社区，点击右上角头像（API推理介绍 · 文档中心。，输出版本号即安装成功。

2025-11-20 17:36:08 846

原创 Qwen3技术报告学习简记

Qwen3系列包含6个Dense模型：Qwen3-0.6B、Qwen3-1.7B、Qwen3-4B、Qwen3-8B、Qwen3-14B和Qwen3-32B，以及2个MoE模型：Qwen3-30B-A3B和Qwen3-235B-A22B。针对每个问题q，使用旧策略抽取一组输出，通过奖励模型给出一组奖励，对多个奖励进行标准化得到相对优势，最大化目标函数以优化测策略。按照以上四个阶段训练得Qwen3-235B-A22B和Qwen3-32B，其余模型在其基础上蒸馏得到。用少量人工标注的CoT数据微调，会进行。

2025-11-19 17:09:48 294

原创已利用key.pem密钥文件在mobaxterm上连接成功了，但现在vscode连接时需要输密码

MobaXterm 连接成功但 VSCode Remote - SSH 要输密码，核心是。VSCode 对密钥格式、权限和 SSH 配置的要求更严格，而 MobaXterm 兼容性更强。将.pem格式密钥转换为 OpenSSH 格式，用 MobaXterm 自带的工具最方便，步骤如下（确保你的.pem。

2025-11-11 19:31:11 403

about0406的博客