- 博客(10)
- 收藏
- 关注
原创 从原理到实践:一文读懂大语言模型的核心与未来
回望历程,语言模型从稚嫩的“猜词游戏”起步,历经数次范式革命,终成今日的“数字大脑”。它的核心魅力,在于将人类浩如烟海的语言知识,压缩进一个可计算、可交互的模型中。它并非万能,其光芒与阴影同样显著。理解其原理,我们便能更好地驾驭它;看清其局限,我们才能更负责地使用它。未来已来,这场由语言驱动的智能革命,正邀请我们每个人成为参与者,而不仅仅是旁观者。
2025-12-29 17:25:55
715
原创 NVIDIA DLI《Build a Deep Research Agent》课程学习笔记
智能体的多阶段工作流由LangGraph等框架编排。# 基于课程描述的智能体工作流伪代码# 第一阶段:Scoping (计划制定)research_plan = scoping_agent.run(user_query) # 与用户对话,生成计划if not user_approves(research_plan): # 人工审批环节# 第二阶段:Execution (计划执行)# 并行检索# 信息整合与迭代。
2025-12-29 11:58:53
556
原创 大模型全栈开发实战指南(第三天)
通过本次实战学习,我们掌握了如何利用和QLoRA技术在有限的算力资源下对开源大模型(如 Qwen)进行微调。核心流程回顾:构造高质量的指令问答对。使用 BitsAndBytesConfig 进行 4-bit 加载。只训练低秩适配器矩阵。使用trl库快速启动训练。加载适配器进行推理。微调不仅让模型学会了特定任务,更重要的是让模型的行为更符合人类的预期,是构建垂直领域 AI 应用的基石技能。
2025-12-25 09:39:23
954
原创 [特殊字符] Docker 核心技术进阶学习笔记
容器是进程,不是虚拟机:容器共用宿主机内核,所以它启动极快。但也意味着容器内的内核参数调优可能影响宿主机。不可变基础设施 (Immutable Infrastructure):不要在运行中的容器内手动安装软件或修改配置。所有的变更都应体现在Dockerfile中并重新构建,确保环境的可追溯性。无状态化 (Stateless):尽量让应用服务无状态化(将状态存入数据库或 Redis),这样可以利用 Docker 快速实现水平扩容。学习建议初学者:熟练掌握常用指令和部署流程。进阶者。
2025-12-24 14:49:04
866
原创 《源大模型微调实战》学习笔记
数据处理一致性:验证阶段prompt模板需与训练阶段保持一致错误处理:生成时设置可解决"NoneType object has no attribute 'shape'"错误资源管理:训练前后注意显存清理,Demo运行需重启内核释放显存模型选择:源2.0-2B作为中文优化模型,适合中文NLP任务微调LoRA优势:显著减少训练参数,本例中可训练参数占比极小,实现高效微调。
2025-12-23 20:43:37
483
原创 Docker容器化与AI大模型部署全栈指南
1. 基础镜像选择 - GPU环境# 2. 元数据标签LABEL description="Qwen2VL模型推理环境"# 3. 环境变量优化# 4. 系统依赖安装(最小化原则)wget \git \curl \# 5. Conda环境安装# 6. 复制环境配置文件并创建环境# 7. 激活环境# 8. 工作目录设置COPY . .# 9. 创建非root用户(安全实践)# 10. 健康检查# 11. 暴露端口# 12. 启动命令(使用gunicorn优化)
2025-12-19 21:58:45
633
原创 大模型全栈开发实战指南(第二天)
RAG核心价值:解决大模型知识局限性、安全性和幻觉问题技术关键点:向量表示质量、检索准确率、prompt设计实战要点:从简化实现开始,逐步添加优化策略学习路径:理解原理 → 动手实现 → 学习框架 → 深入优化RAG技术仍在快速发展中,掌握基本原理和实现方法后,可根据具体应用场景选择合适的技术栈和优化方案。
2025-12-18 12:50:36
539
原创 动手学大模型应用全栈开发学习心得:从零基础到10分钟速通实践baseline
这个教程最大的亮点是将复杂的大模型应用开发流程简化到了极致。通过使用成熟的框架和预训练模型,即使是零基础的学习者也能在短时间内搭建起可用的应用。这让我意识到,学习新技术时,选择合适的工具和框架可以事半功倍。"动手学大模型应用全栈开发"这个教程为我打开了大模型应用开发的大门。通过10分钟的速通实践,我不仅掌握了基本的全栈开发技能,更重要的是建立了继续学习的信心和方向。对于任何想进入大模型应用开发领域的学习者来说,这个baseline都是一个极佳的起点。
2025-12-18 11:27:22
456
原创 大模型全栈开发实战指南(第一天)
大模型本质是超大规模的语言模型,核心任务在于建模「下一个词的概率分布」。其技术演进经历了从统计语言模型到神经语言模型,再到预训练模型和大语言模型的四个阶段。模型开发本质上是通过不同技术手段释放预训练模型潜力,需要根据具体场景在效率、成本、性能之间取得平衡。
2025-12-16 10:52:40
305
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅