毫不夸张地讲,你的大模型微调效果好不好关键在于数据集质量如何。而微调工具或者微调参数只是其次。那么如何将公司内部的私有数据制作成大模型微调用的数据集呢?我给大家总结了6大步。
第一阶段:规划与准备 (最重要的阶段)
在开始任何技术工作之前,必须明确目标和规则。
1)明确训练目标:
任务类型:你想训练模型完成什么任务?
- 知识问答:基于文档内容回答问题。
- 文本摘要:自动生成文档摘要。
- 内容分类:将文档归入特定类别。
- 对话系统:打造一个内部知识助手。
- 代码生成:如果是代码库,用于代码补全或解释。
目标决定了后续所有处理方式。例如,做摘要需要“文档-摘要”对,做问答需要“问题-答案”对。
2)确定数据范围与来源:
来源: confluence, Notion, SharePoint, Google Docs, 代码库 (Git), CRM,客服工单,内部Wiki,PDF报告等。
范围:不是所有文档都适合。确定哪些部门、哪个时间段、哪些类型的文档需要纳入。避免使用过时的、敏感的或低质量的文档。
3)处理安全和隐私问题:
- 合规审查:务必与法务、安全和合规部门合作。
- 数据脱敏:制定明确的脱敏规则,识别并去除或替换个人身份信息 和其他敏感信息(如电话号码、邮箱、身份证号、银行卡号、客户名称、内部IP/域名等)。
- 权限控制:确保用于训练的数据不包含未经授权访问的内容。
第二阶段:数据收集与整理
1)批量导出数据:
使用各种工具提供的API(如Confluence API, Google Drive API)或以权限方式(如数据库导出、CSV)批量获取原始文档。
保存时最好保留元数据,如创建日期、作者、文档类型、URL等,这些信息后续可能用于筛选或增强数据。
2)统一格式:
将不同格式的文件(.docx, .pdf, .ppt, .html, .txt)转换为纯文本格式。
工具推荐:
- PDF:使用
PyMuPDF,pdfplumber, 或商业工具Adobe Acrobat。 - DOCX:使用
python-docx库。 - PPTX:使用
python-pptx库(注意主要提取文本框内容)。 - HTML:使用
BeautifulSoup库去除标签。
转换后,文本中会包含大量无用元素(页眉、页脚、页码、代码块),这是正常的,下一步清洗会处理。
第三阶段:数据清洗与预处理
这是最耗时但至关重要的一步,直接决定数据集质量。
1)清理噪音:
- 删除无关文本:页眉页脚、页码、法律免责声明、重复内容。
- 清理多余的换行符、空格、乱码(
,UTF-8错误字符)。 - 处理表格和图像:表格可以提取为结构化文本(如Markdown表格)。图像中的文本需要使用OCR提取,但需评估其价值与成本。
2)分段:
- 大语言模型有上下文长度限制。不能将整本书直接扔给模型。
- 将长文本切分成语义连贯的短段落。
- 简单方法:按换行符、句号分段。但效果一般。
- 高级方法:使用文本分割器,如
recursive character text splitter,尽可能在语义完整的边界(如段落结束、标题处)进行切割,并保留部分重叠以避免语义断裂。
3)脱敏:
- 使用正则表达式匹配模式(如邮箱、电话号码)。
- 使用预训练模型(如
spaCy的 NER 模型)来识别实体(人名、地名、组织名)。 - 将识别出的敏感信息替换为无意义的占位符,如
[PHONE],[NAME],[EMAIL]。
4)去重:
- 删除完全相同的重复段落。
- 使用模糊去重(如SimHash)删除高度相似的段落,避免数据冗余。
第四阶段:数据格式化与标注
根据第一阶段的目标,将纯文本结构化为模型可训练的格式。
1)格式选择:
- 预训练:只需清洗后的纯文本,每段文本作为一个样本。格式简单:
{"text": "..."} - 指令微调:需要构造“指令-输入-输出”对。
- 问答对: {“instruction”: “公司年假政策是怎样的?”, “input”: “”, “output”: “根据员工手册,全职员工每年享有15天年假…”}
- 摘要: {“instruction”: “为以下文档写摘要”, “input”: “[长文档内容]”, “output”: “[摘要文本]”}
- 对话微调:需要多轮对话数据。
- {“messages”: [{“role”: “user”, “content”: “…”}, {“role”: “assistant”, “content”: “…”}]}
2)数据构造方法:
- 人工撰写:质量最高,但成本高昂。适用于关键任务。
- 自动生成:
-
问答对:使用一个强大的LLM(如GPT-4)根据文档段落自动生成问题。
-
摘要:使用摘要模型为长文档生成摘要候选,再由人工审核修正。
- 利用现有资源:如果公司有客服日志,可以从中提取真实的“用户问题-客服回答”对。
第五阶段:质量保证与数据集构建
1)抽样与人工评估:
- 从处理后的数据中随机抽取一部分(例如1%)。
- 让领域专家评估质量:内容是否准确、格式是否正确、是否无敏感信息、标注是否合理。
- 根据反馈迭代优化前面的处理流程。
2)构建数据集文件:
- 将最终数据保存为标准的、通用的格式。
- 推荐格式:
JSONL,即每行一个JSON对象。这种格式易于读取、处理,且被绝大多数训练框架支持。 - 其他格式:CSV、Parquet。
3)划分数据集:
将数据随机打乱后,划分为:
- 训练集:用于模型训练的主要部分(~90%)。
- 验证集:训练过程中评估模型性能,调整超参数(~5%)。
- 测试集:最终评估模型的泛化能力,在整个训练过程中不应使用(~5%)。
第六阶段:安全、维护与迭代
1)安全存储:将最终数据集存储在安全的、有访问权限控制的位置。
2)版本控制:对数据集进行版本管理(如使用DVC或git-lfs),记录每次变化的说明。
3)持续迭代:随着公司内部文档的更新,定期重复此流程,扩增和更新数据集,以使模型保持最新。
如何学习大模型 AI ?
我国在AI大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着Al技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国Al产业的创新步伐。加强人才培养,优化教育体系,国际合作并进,是破解困局、推动AI发展的关键。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

2025最新大模型学习路线
明确的学习路线至关重要。它能指引新人起点、规划学习顺序、明确核心知识点。大模型领域涉及的知识点非常广泛,没有明确的学习路线可能会导致新人感到迷茫,不知道应该专注于哪些内容。
对于从来没有接触过AI大模型的同学,我帮大家准备了从零基础到精通学习成长路线图以及学习规划。可以说是最科学最系统的学习路线。

针对以上大模型的学习路线我们也整理了对应的学习视频教程,和配套的学习资料。
大模型经典PDF书籍
新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路!

配套大模型项目实战
所有视频教程所涉及的实战项目和项目源码等

博主介绍+AI项目案例集锦
MoPaaS专注于Al技术能力建设与应用场景开发,与智学优课联合孵化,培养适合未来发展需求的技术性人才和应用型领袖。


这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

为什么要学习大模型?
2025人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

适合人群
- 在校学生:包括专科、本科、硕士和博士研究生。学生应具备扎实的编程基础和一定的数学基础,有志于深入AGI大模型行业,希望开展相关的研究和开发工作。
- IT行业从业人员:包括在职或失业者,涵盖开发、测试、运维、产品经理等职务。拥有一定的IT从业经验,至少1年以上的编程工作经验,对大模型技术感兴趣或有业务需求,希望通过课程提升自身在IT领域的竞争力。
- IT管理及技术研究领域人员:包括技术经理、技术负责人、CTO、架构师、研究员等角色。这些人员需要跟随技术发展趋势,主导技术创新,推动大模型技术在企业业务中的应用与改造。
- 传统AI从业人员:包括算法工程师、机器视觉工程师、深度学习工程师等。这些AI技术人才原先从事机器视觉、自然语言处理、推荐系统等领域工作,现需要快速补充大模型技术能力,获得大模型训练微调的实操技能,以适应新的技术发展趋势。

课程精彩瞬间
大模型核心原理与Prompt:掌握大语言模型的核心知识,了解行业应用与趋势;熟练Python编程,提升提示工程技能,为Al应用开发打下坚实基础。
RAG应用开发工程:掌握RAG应用开发全流程,理解前沿技术,提升商业化分析与优化能力,通过实战项目加深理解与应用。
Agent应用架构进阶实践:掌握大模型Agent技术的核心原理与实践应用,能够独立完成Agent系统的设计与开发,提升多智能体协同与复杂任务处理的能力,为AI产品的创新与优化提供有力支持。
模型微调与私有化大模型:掌握大模型微调与私有化部署技能,提升模型优化与部署能力,为大模型项目落地打下坚实基础。
顶尖师资,深耕AI大模型前沿技术
实战专家亲授,让你少走弯路

一对一学习规划,职业生涯指导
- 真实商业项目实训
- 大厂绿色直通车
人才库优秀学员参与真实商业项目实训
以商业交付标准作为学习标准,具备真实大模型项目实践操作经验可写入简历,支持项目背调
大厂绿色直通车,冲击行业高薪岗位
文中涉及到的完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】







1103

被折叠的 条评论
为什么被折叠?



