自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 从原理到实践:一文读懂大语言模型的核心与未来

回望历程,语言模型从稚嫩的“猜词游戏”起步,历经数次范式革命,终成今日的“数字大脑”。它的核心魅力,在于将人类浩如烟海的语言知识,压缩进一个可计算、可交互的模型中。它并非万能,其光芒与阴影同样显著。理解其原理,我们便能更好地驾驭它;看清其局限,我们才能更负责地使用它。未来已来,这场由语言驱动的智能革命,正邀请我们每个人成为参与者,而不仅仅是旁观者。

2025-12-29 17:25:55 715

原创 NVIDIA DLI《Build a Deep Research Agent》课程学习笔记

智能体的多阶段工作流由LangGraph等框架编排。# 基于课程描述的智能体工作流伪代码# 第一阶段:Scoping (计划制定)research_plan = scoping_agent.run(user_query) # 与用户对话,生成计划if not user_approves(research_plan): # 人工审批环节# 第二阶段:Execution (计划执行)# 并行检索# 信息整合与迭代。

2025-12-29 11:58:53 556

原创 大模型全栈开发实战指南(第三天)

通过本次实战学习,我们掌握了如何利用和QLoRA技术在有限的算力资源下对开源大模型(如 Qwen)进行微调。核心流程回顾:构造高质量的指令问答对。使用 BitsAndBytesConfig 进行 4-bit 加载。只训练低秩适配器矩阵。使用trl库快速启动训练。加载适配器进行推理。微调不仅让模型学会了特定任务,更重要的是让模型的行为更符合人类的预期,是构建垂直领域 AI 应用的基石技能。

2025-12-25 09:39:23 954

原创 [特殊字符] Docker 核心技术进阶学习笔记

容器是进程,不是虚拟机:容器共用宿主机内核,所以它启动极快。但也意味着容器内的内核参数调优可能影响宿主机。不可变基础设施 (Immutable Infrastructure):不要在运行中的容器内手动安装软件或修改配置。所有的变更都应体现在Dockerfile中并重新构建,确保环境的可追溯性。无状态化 (Stateless):尽量让应用服务无状态化(将状态存入数据库或 Redis),这样可以利用 Docker 快速实现水平扩容。学习建议初学者:熟练掌握常用指令和部署流程。进阶者。

2025-12-24 14:49:04 866

原创 《源大模型微调实战》学习笔记

数据处理一致性:验证阶段prompt模板需与训练阶段保持一致错误处理:生成时设置可解决"NoneType object has no attribute 'shape'"错误资源管理:训练前后注意显存清理,Demo运行需重启内核释放显存模型选择:源2.0-2B作为中文优化模型,适合中文NLP任务微调LoRA优势:显著减少训练参数,本例中可训练参数占比极小,实现高效微调。

2025-12-23 20:43:37 483

原创 Docker容器化与AI大模型部署全栈指南

1. 基础镜像选择 - GPU环境# 2. 元数据标签LABEL description="Qwen2VL模型推理环境"# 3. 环境变量优化# 4. 系统依赖安装(最小化原则)wget \git \curl \# 5. Conda环境安装# 6. 复制环境配置文件并创建环境# 7. 激活环境# 8. 工作目录设置COPY . .# 9. 创建非root用户(安全实践)# 10. 健康检查# 11. 暴露端口# 12. 启动命令(使用gunicorn优化)

2025-12-19 21:58:45 633

原创 大模型全栈开发实战指南(第二天)

RAG核心价值:解决大模型知识局限性、安全性和幻觉问题技术关键点:向量表示质量、检索准确率、prompt设计实战要点:从简化实现开始,逐步添加优化策略学习路径:理解原理 → 动手实现 → 学习框架 → 深入优化RAG技术仍在快速发展中,掌握基本原理和实现方法后,可根据具体应用场景选择合适的技术栈和优化方案。

2025-12-18 12:50:36 539

原创 动手学大模型应用全栈开发学习心得:从零基础到10分钟速通实践baseline

这个教程最大的亮点是将复杂的大模型应用开发流程简化到了极致。通过使用成熟的框架和预训练模型,即使是零基础的学习者也能在短时间内搭建起可用的应用。这让我意识到,学习新技术时,选择合适的工具和框架可以事半功倍。"动手学大模型应用全栈开发"这个教程为我打开了大模型应用开发的大门。通过10分钟的速通实践,我不仅掌握了基本的全栈开发技能,更重要的是建立了继续学习的信心和方向。对于任何想进入大模型应用开发领域的学习者来说,这个baseline都是一个极佳的起点。

2025-12-18 11:27:22 456

原创 大模型全栈开发实战指南(第一天)

大模型本质是超大规模的语言模型,核心任务在于建模「下一个词的概率分布」。其技术演进经历了从统计语言模型到神经语言模型,再到预训练模型和大语言模型的四个阶段。模型开发本质上是通过不同技术手段释放预训练模型潜力,需要根据具体场景在效率、成本、性能之间取得平衡。

2025-12-16 10:52:40 305

原创 AI工具测评:性能、体验与实战应用

突出工具的优势和独特功能指出不足和改进建议。

2025-12-16 09:19:53 217

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除