LT_real-优快云博客

原创大模型从基础到入门——入门知识二相关工具

本文介绍了大模型相关工具和优化技术：1）优化框架如DeepSpeed和vLLM，通过分页注意力、连续批处理等提升推理效率；2）轻量化引擎llama.cpp的跨平台量化技术；3）KTransformer的MoE架构优化和计算加速策略。还探讨了深度学习的梯度问题（爆炸/消失）及解决方案，以及熵、交叉熵、KL散度的概念区别与应用场景。这些技术涵盖了大模型训练、推理、部署等多个环节的优化方法。

2025-06-23 15:04:04 683

摘要：DeepSeek大模型系列通过技术创新持续演进，从DeepSeek-V2的MoE架构到V3引入MTP、FP8混合精度训练等技术，再到DeepSeek-R1采用强化学习框架GRPO和蒸馏技术。MoE架构通过细粒度专家划分和共享专家策略优化计算效率，MLA技术则通过低秩压缩减少KVcache显存占用。微调方法包括LoRA、AdapterTuning等，强化学习方面PPO、DPO和GRPO各有特点，其中GRPO通过分组对比优化奖励机制。这些技术突破推动了大模型在性能与效率上的平衡发展。

2025-06-23 15:01:00 705

原创大模型从基础到入门——基础知识

本文主要记录入门大模型学习的相关知识，以期为后续工作学习提供帮助。（除了我自己截图外，引用的我尽量标注来源，有些忘记来源了请告诉我orz）

2025-05-20 13:09:33 1133

原创大模型从基础到入门——大模型文件

本文以DeepSeek-R1-Distill-Qwen-7B大模型为例，详细解析了大模型文件的结构及其参数意义。主要文件包括config.json（模型架构配置）、generation_config.json（生成控制配置）、tokenizer_config.json（分词器配置）及model.safetensors（模型权重文件）等。文章对比了不同模型文件的差异，如DeepSeek与Qwen系列在分词器上的优化，以及safetensors格式的引入，强调了其在安全性和加载速度上的优势。此外，文章还探讨了模

2025-05-20 00:38:18 1742

原创 docker容器中的KTransformer更新

这里安装flash-attn有坑：（看github中有人提到，非官方docker容器编译总是报错，要用cpufeature=0.2.2版本才行）我们可以使用0.2.3版本的docker容器，作为项目运行环境，这样就不用再下一次了：（叉叉，还是不能偷懒，后面一堆报错，建议从头开始）找到与自己环境cuda版本一致的镜像，我这里用的是pytorch2.5.1，cuda12.1，devel版本。进入容器，其实后面步骤就是普通的部署过程了，我参考的是知乎上一位大佬的操作：？网络好的可以直接运行这行代码，不报错就行）

2025-04-16 10:20:22 978

原创本地构建知识向量库+大模型问答系统

本地化知识库+大模型=RAG，rag技术简单来说就是三个过程：retrieval检索+ augment增强 + generate生成；其中检索部分我选择使用milvus向量数据库实现，生成部分由本地大模型完成。

2025-04-14 15:58:42 1190

原创 Quite-STaR论文阅读

原文：[2403.09629] Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking自学推理器（STaR：Self Taught Reasoner），LLM通过抽样基本原理来尝试回答问题，在基本原理上进行训练，如果回答正确，则重复该过程迭代以解决更困难的问题，从而在问答对数据集中引导大模型推理能力。然鹅，这种方法将大模型训练限制在精心准备的QA数据集，限制了基本原理的规模和普遍性，提高大模型训练的难度；同时，原始文

2025-04-09 17:15:21 698 1

原创本地离线部署llamafactory项目

在联网环境中部署llamafactory只需按官方教程来即可，但离线部署就有点麻烦了。

2025-04-02 10:20:15 1403

原创基于Ktransformer部署DeepSeek-R1模型

我这边离线机器跑起来居然没有报错，成功后可以访问10012端口看看，一般会显示detail Not Found，访问后缀加/web/index.html即可进入聊天页面。其中gguf_path为gguf文件路径，需要有config配置文件在同一路径；记录一次在离线机器上使用kt框架部署Deepseek:671B模型过程。model_path为模型路径，不知道为什么没有后会报错（再看看；cpu_infer为用于推理CPU线程数，越多越快？一、前置准备下载（在联网的机器上操作）我这里下载的是Q5模型。

2025-03-18 17:07:55 702

原创新版本本地化的fastgpt接入重排模型≥4.8.20

新版本本地化的fastgpt接入重排模型

2025-02-19 00:04:58 1542 6

原创记一次使用CUDA编程并行矩阵乘法程序

记录使用CUDA完成矩阵乘法程序的过程。

2025-02-10 22:45:43 297

原创 rust实现大语言模型记录

Tensor结构拥有四个字段，分别为存储数据的data、张量形状shape、数据起始偏移量offset、数据长度length；其中用Arc（原子引用计数）实现数据共享，以实现多个Tensor共享底层数据功能。其中，new方法接收数据和形状，将数据转换为Boxed切片并用Arc包装；而default方法创建一个默认值的张量，大小由形状决定；data方法返回不可变数据的切片；

2025-02-10 22:43:29 1226 2

原创在linux系统中的python虚拟环境管理

目前遇到linux系统机、windows系统机器中使用wsl、windows系统机器中使用虚拟机运行linux几种，都按上面建议重装吧，为图方便这里使用miniconda。不同电脑环境奇奇怪怪，建议打包环境后，全部删除重装（注意有些涉及显卡版本的包需要手动适配版本！deactivate退出虚拟环境后，删除该虚拟环境所在目录即可。将上面保存的requirem.txt逐一安装就可以了。

2025-01-22 11:44:00 505

原创记一次复现缓冲区溢出过程

记录使用kali复现缓冲区溢出攻击的过程（seedlab）。

2024-10-12 09:34:00 1556

原创人工智能对网络空间安全带来的新机遇和新挑战工程科技学术研讨会分论坛二:大模型赋能网络安全总结

主题：大模型应用于网络安全（大模型网络攻击流量识别、网络安全防御可解释性、遇攻击的自动化配置等）流程：嘉宾工作汇报分享+专家点评+问答。

2024-10-12 09:33:21 2462

原创使用docker-compose一键本地化部署fastgpt，并连接本地ollama部署的大模型

环境：win11+wsl2+docker，但主要操作在wsl中完成。

2024-08-20 01:10:46 2515

原创使用docker通过ollama本地化部署qwen大模型

如果配置不对，重装！如果有奇怪的错误，重启！（基本解决99%问题）

2024-08-19 22:31:09 2002 2

原创在docker内使用nginx反向代理其他容器

在linux系统中，简单使用nginx反向代理docker中容器提供的服务。

2024-08-15 02:05:30 2305

原创记一次使用MPI完成矩阵乘法程序

记录使用MPI完成矩阵乘法程序的过程。

2024-06-04 19:49:49 718

原创使用Pthread实现并行快速排序程序

记录一次使用pthread编程实现并行快速排序程序过程。

2024-05-10 15:13:10 588

原创关于anaconda中虚拟环境创建及深度学习中模型训练的过程记录

本文主要为个人查询网络资料的总结，便于后续的学习过程，如有不妥，敬请指教。

2024-04-29 01:02:44 1497

原创基于OpenMP实现利用泰勒级数计算正弦函数sin(x)的并行程序

本文主要为个人查询网络资料的总结，便于后续的学习过程，如有不妥，敬请指教。

2024-03-23 20:27:55 606 1

原创基于win11系统的vscode中OpenMP配置

本文主要为个人查询网络资料的总结，便于后续的学习过程，如有不妥，敬请指教。

2024-03-22 18:10:46 3753 5

原创交叉验证法和自助法的异同

在机器学习中，我们使用随机采样方法，从数据集D划分训练集和测试（验证）集进行模型的选择，也就是人工智能中模型评估常用的三种方法：留出法、交叉验证法和自助法（其中留出法也叫简单的交叉验证法）。本文则针对其中交叉验证法和自助法的异同进行探讨。ps：本文主要为个人查询网络资料的总结，便于后续的学习过程，如有不妥，敬请指教。

2023-09-15 15:38:09 589

使用cuda在GPU 实现上实现矩阵相乘程序+报告

北航并行课程作业：在GPU 实现一个矩阵并行乘法程序，要求矩阵大小不小于8000*8000，且元素为双精度浮点数（double）类型；比较并行程序与串行程序的加速比，同时注意排除数据准备时间作程序运行时间。

2025-02-09

SYCL阅读文献的报告

北航并行课程作业：SYCL文献阅读报告

2025-02-09

MPI并行矩阵乘法编程实验+报告

北航并行课程作业：使用MPI 实现一个矩阵并行乘法程序，要求矩阵大小不小于8000*8000，且元素为双精度浮点数（double）类型；并在多核系统中，比较并行程序与串行程序的加速比；同时注意排除数据准备时间作程序运行时间，使程序有并行进程个数可变的可拓展性。

2025-02-09

OpenMP编程实验+报告

北航并行课程作业： 1. 并行矩阵乘法程序实现一个并行矩阵乘法程序，要求矩阵大小不小于6000*6000，且矩阵元素为双精度浮点数（double）类型；并在多核系统中，比较不同线程个数与串行程序的加速比； 2. 实现正弦函数sin(x) 计算程序

2025-02-09

并行排序编程实验+报告

北航并行课程作业：实现一个使用pthread 的并行快速排序程序，要求数组大小不小于2000 万，且元素为双精度浮点数（double）类型；并在多核系统中，比较不同线程个数与串行程序的加速比；同时注意保持实验中数据一致性，排除数据准备时间作程序运行时间，使程序有并行线程个数可变的可拓展性。

2025-02-09

基于win11系统的vscode中OpenMP配置的task.json文件

2025-02-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人