Gu_erye-优快云博客

原创大模型不同量化后缀分别代表什么的意思

AWQ是一种基于激活值分布挑选显著权重通道进行保护的量化方法。其核心是通过统计激活值的绝对值均值，保留1%的关键权重通道为FP16精度，其余通道量化为4位整数（INT4），并通过缩放因子（scale）降低量化误差。-AWQ。

2025-04-08 09:42:30 267

原创大模型量化笔记

大模型量化是通过降低模型参数的数值精度（如32位浮点转8位整数）来压缩模型规模、提升推理效率的核心技术。

2025-04-08 09:22:05 839

原创基于langchain实现简化版的deepresearch（详细教程）

ollama: qwen2.5:14b，或者其他可用ollama部署的大模型，vllm部署的同样可以，langchain支持不同框架下的大模型。GitCode是面向全球开发者的开源社区,包括原创博客,开源代码托管,代码协作,项目管理等。每个deepresearch都有规划者和写作者两个角色，这里我们两个角色都让qwen14b担任，然后设置最大深度为2，防止无限循环。GitCode - 全球开发者的开源社区,开源代码托管平台。每个节点内部的代码实现参考详细的代码实现。执行入口：execute。

2025-04-07 11:39:12 286

转载 DeepSearch/DeepResearch关系和区别

DeepSearch是2025年新兴的搜索标准，通过迭代搜索、阅读和推理提供高质量答案。它集成了测试时计算和延迟满足技术，主要区别于DeepResearch，后者生成结构化长篇研究报告。实现细节包括系统提示、查询重写和网页内容抓取等。DeepSearch简介：发展背景：技术进步：DeepSearch的工作原理：DeepResearch简介：DeepSearch与DeepResearch的区别：实现细节：内存管理：预算强制：结论：参考：https://github.com/jerrylususu/bookma

2025-03-31 17:13:48 87

原创 Browser Use和Computer Use笔记

Browser Use是一个开源的Python库，通过连接AI代理与浏览器（如Playwright），实现类人化的网页操作。它支持自然语言指令转换为浏览器动作，例如点击、表单填写、数据采集等。

2025-03-13 13:24:12 636

原创大模型MOE，Encoder-only，Decoder-only笔记

大模型的结构主要分为三种类型，每种类型对应不同的架构设计和应用场景。

2025-03-11 14:25:38 650

原创 vllm中的lora适配器笔记

vLLM中的LoRA（Low-Rank Adaptation）适配器是一种针对大型语言模型（LLM）的高效微调技术，其核心作用是通过低秩矩阵分解技术调整模型的少量参数，从而实现对特定任务或场景的优化。以下是具体作用和适用场景的详细分析：参数高效微调仅调整预训练模型中部分权重矩阵的低秩分解参数（通常仅占原模型参数的0.1%-1%），避免全量微调的计算开销。例如，在Llama-3-8B等模型中，LoRA适配器通过低秩矩阵（如rank=16）注入微调后的参数，显著减少显存占用和训练时间。多任务动态切换

2025-02-28 09:20:06 482

原创大模型文生视频现状

**性能特点**：总分82.02（SuperCLUE榜单第一），支持5-8秒视频生成（1080p），多比例适配（16:9、9:16等），采用DiT架构，画面一致性和细节处理优秀。- **性能特点**：对标Sora，采用U-ViT架构，生成时长4-8秒（1080p），画面连贯性较强，但商业化应用较晚。- **性能特点**：总分80.92，生成视频时长6-8秒，支持多镜头转场，在短视频领域应用广泛，但动作变形问题仍存在。- **性能特点**：可生成任意长度视频，但质量较差，真实性不足，尚未公测。

2025-02-19 09:27:18 994

原创 docker常用命令笔记

docker stop 容器名称。加载本地已经到处的镜像压缩文件。查看docker的相关信息。查看docker缓存。

2025-02-17 11:14:46 177

原创 vscode中的launch.json文件笔记

【代码】vscode中的launch.json文件笔记。

2025-02-13 14:44:16 97

原创大模型推理显存计算笔记

模型推理（inference）是指在已经训练好的模型上对新的数据进行预测或分类。推理阶段通常比训练阶段要求更低的显存，因为不涉及梯度计算和参数更新等大量计算。模型的结构包括层数、每层的神经元数量、卷积核大小等。较深的模型通常需要更多的显存，因为每一层都会产生中间计算结果。推理时所需的显存与输入数据的尺寸有关。更大尺寸的输入数据会占用更多的显存。批处理大小是指一次推理中处理的样本数量。较大的批处理大小可能会增加显存使用，因为需要同时存储多个样本的计算结果。

2024-12-26 17:58:15 246

原创 git使用笔记

【代码】git使用笔记。

2024-12-25 23:08:00 154

原创 screen使用方式笔记

screen能够协助你在linux完成长时间的远程任务，当你的主机会话已经断开也没有关系，相当于有一个进程在linux机器上一直帮你保证程序的运行，并且你可以随时上去查看运行的情况。

2024-12-24 23:52:28 117

原创 vllm部署大模型的参数--dtype和量级AWQ有什么区别

量化方法，如 **AWQ（Adaptive Weight Quantization）**，是指通过特定的算法将模型权重和激活值从高精度格式（如FP32）转换为低精度格式（如INT8）的过程。- **INT8（8-bit Integer）**：8位整数，极大地减少内存和计算资源消耗，但需要特别的量化和反量化处理，以保持模型性能。- **影响**：通过量化和反量化过程，优化模型的内存和计算资源消耗，同时尽量保持模型性能。- **示例**：`--dtype=fp16`，表示使用16位浮点数进行计算。

2024-08-16 16:49:57 3743 2