- 博客(21)
- 收藏
- 关注
原创 大模型不同量化后缀分别代表什么的意思
AWQ是一种基于激活值分布挑选显著权重通道进行保护的量化方法。其核心是通过统计激活值的绝对值均值,保留1%的关键权重通道为FP16精度,其余通道量化为4位整数(INT4),并通过缩放因子(scale)降低量化误差。-AWQ。
2025-04-08 09:42:30
267
原创 基于langchain实现简化版的deepresearch(详细教程)
ollama: qwen2.5:14b,或者其他可用ollama部署的大模型,vllm部署的同样可以,langchain支持不同框架下的大模型。GitCode是面向全球开发者的开源社区,包括原创博客,开源代码托管,代码协作,项目管理等。每个deepresearch都有规划者和写作者两个角色,这里我们两个角色都让qwen14b担任,然后设置最大深度为2,防止无限循环。GitCode - 全球开发者的开源社区,开源代码托管平台。每个节点内部的代码实现参考详细的代码实现。执行入口:execute。
2025-04-07 11:39:12
286
转载 DeepSearch/DeepResearch关系和区别
DeepSearch是2025年新兴的搜索标准,通过迭代搜索、阅读和推理提供高质量答案。它集成了测试时计算和延迟满足技术,主要区别于DeepResearch,后者生成结构化长篇研究报告。实现细节包括系统提示、查询重写和网页内容抓取等。DeepSearch简介:发展背景:技术进步:DeepSearch的工作原理:DeepResearch简介:DeepSearch与DeepResearch的区别:实现细节:内存管理:预算强制:结论:参考:https://github.com/jerrylususu/bookma
2025-03-31 17:13:48
87
原创 Browser Use和Computer Use笔记
Browser Use是一个开源的Python库,通过连接AI代理与浏览器(如Playwright),实现类人化的网页操作。它支持自然语言指令转换为浏览器动作,例如点击、表单填写、数据采集等。
2025-03-13 13:24:12
636
原创 vllm中的lora适配器笔记
vLLM中的LoRA(Low-Rank Adaptation)适配器是一种针对大型语言模型(LLM)的高效微调技术,其核心作用是通过低秩矩阵分解技术调整模型的少量参数,从而实现对特定任务或场景的优化。以下是具体作用和适用场景的详细分析:参数高效微调 仅调整预训练模型中部分权重矩阵的低秩分解参数(通常仅占原模型参数的0.1%-1%),避免全量微调的计算开销。例如,在Llama-3-8B等模型中,LoRA适配器通过低秩矩阵(如rank=16)注入微调后的参数,显著减少显存占用和训练时间。多任务动态切换
2025-02-28 09:20:06
482
原创 大模型文生视频现状
**性能特点**:总分82.02(SuperCLUE榜单第一),支持5-8秒视频生成(1080p),多比例适配(16:9、9:16等),采用DiT架构,画面一致性和细节处理优秀。- **性能特点**:对标Sora,采用U-ViT架构,生成时长4-8秒(1080p),画面连贯性较强,但商业化应用较晚。- **性能特点**:总分80.92,生成视频时长6-8秒,支持多镜头转场,在短视频领域应用广泛,但动作变形问题仍存在。- **性能特点**:可生成任意长度视频,但质量较差,真实性不足,尚未公测。
2025-02-19 09:27:18
994
原创 大模型推理显存计算笔记
模型推理(inference)是指在已经训练好的模型上对新的数据进行预测或分类。推理阶段通常比训练阶段要求更低的显存,因为不涉及梯度计算和参数更新等大量计算。模型的结构包括层数、每层的神经元数量、卷积核大小等。较深的模型通常需要更多的显存,因为每一层都会产生中间计算结果。推理时所需的显存与输入数据的尺寸有关。更大尺寸的输入数据会占用更多的显存。批处理大小是指一次推理中处理的样本数量。较大的批处理大小可能会增加显存使用,因为需要同时存储多个样本的计算结果。
2024-12-26 17:58:15
246
原创 screen使用方式笔记
screen能够协助你在linux完成长时间的远程任务,当你的主机会话已经断开也没有关系,相当于有一个进程在linux机器上一直帮你保证程序的运行,并且你可以随时上去查看运行的情况。
2024-12-24 23:52:28
117
原创 vllm部署大模型的参数--dtype和量级AWQ有什么区别
量化方法,如 **AWQ(Adaptive Weight Quantization)**,是指通过特定的算法将模型权重和激活值从高精度格式(如FP32)转换为低精度格式(如INT8)的过程。- **INT8(8-bit Integer)**:8位整数,极大地减少内存和计算资源消耗,但需要特别的量化和反量化处理,以保持模型性能。- **影响**:通过量化和反量化过程,优化模型的内存和计算资源消耗,同时尽量保持模型性能。- **示例**:`--dtype=fp16`,表示使用16位浮点数进行计算。
2024-08-16 16:49:57
3743
2
原创 vllm框架大模型部署笔记
注意:张量并行计算的并行度通常需要与指定的 GPU 数量保持一致。这是因为张量并行计算的核心思想是将模型的张量(如权重矩阵)分割成多个部分,并将这些部分分布到多个 GPU 上进行并行计算。:通过存储进程 ID,可以方便地管理和终止后台运行的程序。
2024-08-12 09:50:32
4278
原创 个人微调qwen2-7B笔记
这里由于数据处理的时间太久,我们只用了10条数据训练,代码通过,但是测试的时候出现内存溢出的情况,显示显存不够了,接下来我们直接申请A800试一试...数据集下载:直接下载,别用git,会因为文件太大,git版本等问题出错。可视化工具:swanlab。大模型:qwen2-7B。
2024-07-16 22:13:46
1329
原创 个人搭建qwen2大模型过程笔记
配置:4090,24G显存,windterm远程,vscode等基于软件就不说了。第一步:申请资源,创建python环境(autodl自带conda环境)哼...,pip install vllm不行,使用下面结束!第三步:下载qwen2-7B大模型(确保下载完)
2024-07-11 00:27:31
1920
原创 Input type (torch.FloatTensor) and weight type (torch.cuda.FloatTensor) should be the same
【代码】Input type (torch.FloatTensor) and weight type (torch.cuda.FloatTensor) should be the same。
2023-07-29 23:28:30
159
原创 如何将pytorch的模型和tensorflow的summary()函数一样,展示模型的细节?
【代码】如何将pytorch的模型和tensorflow的summary()函数一样,展示模型的细节?
2023-07-29 17:55:29
332
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人