
llm
文章平均质量分 62
music&movie
这个作者很懒,什么都没留下…
展开
-
低资源需求的大模型训练项目---3、综合对比与选型建议
• 希望全面学习工业级大模型全流程(预训练→微调→强化学习→部署),且具备中端显卡(如RTX 3060)的用户。:阿里云提供了完整的预训练、微调、强化学习(RLHF)代码和文档,支持从数据处理到模型部署的全链路实践。:支持3小时内从零训练模型,提供预训练、SFT、LoRA、RLHF-DPO全流程代码,适合快速实验。:显存需求最低(2GB),且从零手搓全流程(架构→预训练→评估→应用),适合系统性学习底层原理。• 预算极低(仅入门级显卡或CPU)、希望快速验证算法原型(如LoRA微调、蒸馏)的用户。原创 2025-04-13 21:17:45 · 926 阅读 · 0 评论 -
低资源需求的大模型训练项目---调研0.5B大语言模型
• 参数仅0.5B,采用共享FFN设计降低冗余,在资源受限设备(如手机、平板)上推理速度达147 tokens/s,内存占用仅350MB。• 基于0.5B模型的思维链优化版本,通过软化奖励机制(分步得分)实现长思考链生成,但存在收敛至短推理模式的风险,需结合课程学习逐步训练。:数学推理、长文本逻辑处理准确率显著低于7B+模型(如Qwen2.5-72B的GSM8K得分95.8 vs. 0.5B的9.7)。(如百万级Token),建议使用A10或更高性能显卡,以避免显存瓶颈导致的频繁数据加载中断。原创 2025-04-13 20:11:22 · 761 阅读 · 0 评论 -
调研大模型训练语料处理工具
结合文档解析引擎(TextIn文档解析)、文本向量模型(TextInEmbedding)和OpenKIE信息抽取工具,支持多格式文档(PDF、Word、图表等)的结构化处理。通过合理选择工具,可提升语料处理效率50%以上(如olmOCR节省GPT-4o成本的97%),建议结合具体需求进行技术验证。◦ 开源(Apache 2.0),支持本地GPU和AWS多节点并行处理,百万页PDF处理成本约190美元。◦ 支持多领域场景(金融、医学、法律),已集成到多家头部厂商的预训练流程中。原创 2025-04-13 05:16:01 · 788 阅读 · 0 评论 -
调研大语言模型的知识编辑技术
大语言模型(LLMs)的知识编辑旨在通过高效、精准的方式修改模型内部存储的特定知识,以纠正错误、更新信息或消除偏见,同时保持模型的通用能力。:结合Elasticsearch与向量数据库实现混合检索,提升知识更新效率(如MaxKB):AnyEdit通过分解长文本为知识块并迭代扰动隐状态,解决复杂知识更新问题。:识别影响特定知识生成的神经元(如Knowledge Neuron理论):频繁编辑可能导致模型崩溃(现有方法将崩溃阈值从千次提升至万次):支持超大规模模型的协同更新(如万亿参数模型)原创 2025-04-13 04:56:32 · 477 阅读 · 0 评论 -
低资源需求的大模型训练项目——调研MiniMind/白盒子指南
仅需单张RTX 3090显卡(24GB显存),支持3小时完成26M参数模型的端到端训练。• 混合专家架构(MoE):426M参数版本仅激活27.5亿参数。:2GB显存即可运行,支持RAG/Agent等高级功能的手搓实现。• 梯度累积技术:支持小批量训练(batch_size=16)• LoRA适配(任务迁移):仅微调1%参数即可适配新场景。• 预训练(语言理解):基于通用语料建立基础语言能力。• 动态批处理:自动调整序列长度(32-128)• 指令微调(对话能力):通过。原创 2025-04-02 14:06:41 · 487 阅读 · 0 评论 -
BabyAGI核心代码分析与Qwen模型适配实例
该实现已通过Qwen-72B模型测试,完整案例可参考网页5的简化版实现。建议运行时设置温度参数为0.3-0.7平衡创造性与稳定性。• 使用ChromaDB替代Pinecone实现本地存储(网页3)通过Prompt工程约束Qwen生成结构化任务列表(网页4)该循环通过无限迭代实现任务的动态生成与执行(网页1)• 调整Prompt模板适配Qwen的指令遵循能力。• 将OpenAI调用替换为Qwen API接口。支持文本生成、数据分析等多种任务类型(网页1)原创 2025-03-19 01:49:13 · 143 阅读 · 0 评论 -
Agent系列——BabyAGI调研
集成多模态能力后,BabyAGI可分解“数学题讲解”为“公式识别→步骤拆解→错题归纳”。:供应链异常处理,通过动态生成“订单核查→物流协调→客户通知”任务链,响应速度提升3倍。使用数值排序Prompt(如“返回编号列表”)动态调整队列顺序,确保关键任务优先执行。:在测试中,系统可完成从背景调研到章节撰写的全流程,生成超过5000字连贯文本。:基于目标拆解新任务,例如“写科幻小说”分解为“市场分析→角色设计→章节撰写”:增加伦理审查模块,过滤有害任务(如论文中提到的“回形针末日”风险)原创 2025-03-18 21:58:43 · 385 阅读 · 0 评论 -
Agent系列——Agent框架调研
知识领域关键技术点学习资源参考大模型集成Prompt工程、LoRA微调、API路由(如OpenAI/Gemini)多模态处理跨模态对齐(CLIP模型)、实时数据流处理规划与决策ReAct框架、树状推理(ToT)、强化学习策略优化工具调用API编排(如FastAPI)、安全沙箱机制、权限控制记忆管理向量数据库(Milvus)、短期/长期记忆分层存储设计性能优化延迟削减(TFX模型压缩)、分布式计算(Ray框架)实践建议从轻量级框架(BabyAGI)入手,理解基础架构后逐步扩展模块。原创 2025-03-18 21:55:31 · 590 阅读 · 0 评论 -
手写系列——VIT网络
理论:【深度学习】详解 Vision Transformer (ViT)-优快云博客原创 2025-02-20 16:45:20 · 154 阅读 · 0 评论 -
模型蒸馏实践
深度学习中的模型蒸馏技术:实现流程、作用及实践案例-优快云博客https://zhuanlan.zhihu.com/p/22504630293原创 2025-02-19 11:01:59 · 206 阅读 · 0 评论 -
大模型进展跟踪
Flash Attention:FLASH:可能是近来最有意思的高效Transformer设计_flash transformer-优快云博客https://zhuanlan.zhihu.com/p/676655352VLA & VLM:视频理解任务综述 & VLM多模态大模型概览-优快云博客VLA技术介绍-优快云博客视觉语言模型详解【VLM】-优快云博客主流VLM原理深入刨析(CLIP,BLIP,BLIP2,Flamingo,LLaVA,MiniCPT,InstructBLIP,mPLUG-owl原创 2024-12-10 11:07:16 · 128 阅读 · 0 评论 -
AIGC的2+1个基座模型——Transformer、Diffusion、MOE以及PPO
self-attention、multi-head-attention、cross-attention的理论分析与计算过程代码层面比较freeze、lora、p-tuning方法成功训练nanoGPT 应用nanoGPT训练中文语料 ChatGPTBook——基于GPT-2模型的文本摘要实战分析gpt2 神经网络常微分方程 (Neural ODEs) 的解析和实现diffusion model原理与实现过程stable diffusion架构分析逐步认识Diffusion模型-优快云博客MOE原理解释及从原创 2024-11-24 10:36:02 · 227 阅读 · 0 评论 -
从零构建LLM
参考:个人从零预训练1B LLM心路历程原创 2024-11-17 21:40:31 · 110 阅读 · 0 评论 -
win11安装ollama和qwen2.5:0.5b
【代码】win11安装ollama和qwen2.5:0.5b。原创 2024-11-14 00:20:41 · 387 阅读 · 0 评论 -
大模型置信度、自洽性、自我反思
大模型置信度:大模型置信度评估问题(持续更新)_大模型 置信度-优快云博客论文解读 | TTA:大模型回答置信度评估新方法 | YuyaoGe's Website可信大模型 Reliable LLM(一):生成大模型的置信度估计与评测-优快云博客原创 2024-09-24 14:17:20 · 357 阅读 · 0 评论