代码向:
1. 向量手册数据爬取与清洗:网页爬取数据、对网页数据作清洗
2、事实一致性prompt数据构建:包括query清洗构建、以及prompt生成脚本开发
3、事实一致性训练脏数据的处理:归纳为统一json格式
4、向量化推理服务:协助token处理解析优化
5、plan数据清晰:清晰chatgpt生成的原始数据
大模型数据改写与审核任务:
1、知识场景的RM数据审核-18328条
2、时间推理数据审核
3、诗词数据审核
4、推荐建议数据审核
5、单轮数据撰写以及多轮数据撰写
6、知识检索框架以及大模型微调之后的性能提升数据审核
7、DPO微调方法的性能提升数据审核