你向江南处处栽-优快云博客

原创 [LLM-RAG] Task01：初识RAG（理论与简单实践）

摘要：RAG（检索增强生成）通过在LLM生成前检索外部知识库来提升输出准确性与时效性。其核心流程包括数据准备、索引构建、查询检索和生成集成四个步骤，使用工具如LangChain和LlamaIndex。RAG能解决静态知识局限、减轻幻觉现象，具有准确性高、实时性强、成本效益好等优势。实践案例展示了不同分块策略对检索效果的影响，最终生成的回答能精准融合检索内容。RAG通过增强上下文信息输入，显著提升了语言模型的专业领域表现。

2025-11-12 14:24:54 845

原创 [LLM Post-training] 在线强化学习Online RL - Task04

当我们提到 “在线强化学习（Online RL）”时，通常指的是在在线学习场景中应用的强化学习方法。在线强化学习是指模型在生成新响应的过程中实时地接收反馈并更新参数，即模型一边推理一边学习。它与“离线强化学习（Offline RL）”的区别在于：* Online RL：模型在训练过程中不断生成新的响应、计算奖励、更新参数；* Offline RL：模型仅从预收集的 (prompt, response, reward) 数据集中学习，不再生成新响应。与 SFT（监督微调）或 DPO（偏好优化

2025-10-20 15:12:18 1010

原创 [LLM Post-training]直接偏好学习DPO-Task03

DPO（直接偏好优化）是一种通过对比学习优化大语言模型的方法。它使用正负样本对比数据（如优质回答与低质回答），通过最小化对比损失函数，使模型更倾向于生成高质量回答。DPO能有效调整模型行为（如风格、安全性）或提升回答质量，相比监督微调更适合偏好对齐。实践步骤包括数据准备（替换关键词构建正负样本）、配置训练参数（如β值控制更新强度）和模型训练。关键点在于数据质量决定效果，需注意避免过拟合和样本偏差问题。DPO作为SFT后的优化手段，能快速改善模型表现而无需额外训练奖励模型。

2025-10-17 20:25:32 885

原创 [LLM Post-training]监督微调SFT实战-task02

本文介绍了监督微调（SFT）技术的关键要点：SFT通过微调基础模型使其学会特定任务模式，训练数据的质量比数量更重要。文章阐述了三种获取高质量数据的方法（蒸馏、拒绝采样和过滤），对比了全参数微调与参数高效微调的优缺点，并提供了基于Hugging Face的实践指南，包括模型加载、数据格式转换、训练配置和效果验证。实验表明，即使使用少量高质量数据（500条Alpaca数据），SFT也能显著改善模型输出质量。文章强调，正确设置Chat模板和合理配置训练参数是SFT成功的关键。

2025-10-16 21:05:29 618

原创 [LLM Post-training] 初识概念Task01

预训练(pre-training)：使用大规模无标注文本语料，以预测下一个词为目标训练模型，让模型“认字”。后训练(post-training)：使用预训练的模型学习到的语义知识回答用户的问题，让模型学会“说话”。

2025-10-13 20:11:18 416

原创 mysql安装及故障排查[windows+mysql8.0以上版本]

安装MySQL故障排查，主要为检查计算机名称、彻底卸载旧版本以及仍然出现问题的解决办法

2023-12-27 10:29:19 608 1

原创［期末复习］商业人工智能

西电经管院大数据管理与应用专业《商业人工智能》课程（可以参加往期课程做做课后练习）

2023-07-04 13:00:27 480 1

原创 JAVA进行HDFS操作报错

解决JAVA实现HDFS文件操作绝大多数报错

2023-04-01 10:32:26 539

原创 Python定向爬虫实例：中国大学排名爬虫

昨天学到北理工开设的《Python网络爬虫与信息提取》的“中国大学排名”实例，总结编写实例过程中遇到的一些问题。url视频中代码给出的网址是：http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html但是编写过程中发现该url已不可用，该网站已改名为软科要用新的url进行编程：【软科排名】2021年最新软科中国大学排名|中国最好大学排名TypeError: unsupported format string passed t..

2021-10-04 16:47:18 7243 8

qdabuliuq的博客