本人项目地址大全:Victor94-king/NLP__ManVictor: 优快云 of ManVictor
git地址:https://github.com/opendatalab/MinerU
写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!
写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!
写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!
阿里巴巴发布了Marco-o1!!!
Marco-o1通过集成 思维链(CoT)微调 、 蒙特卡洛树搜索(MCTS )和创新的 推理行动策略 ,增强了推理能力。Marco-o1的MCTS集成允许扩展解空间,并对不同行动粒度(步骤和迷你步骤)的实验显示了更细搜索分辨率在提高准确性方面的潜力。此方法在推理任务中展示了显著改进,并在翻译复杂俚语表达方面取得了成功。
第一步:开发Marco-o1-CoT模型
数据集
Marco-o1-CoT使用了多种数据集进行监督微调(Supervised Fine-Tuning, SFT),包括:
- Open-o1 CoT数据集(过滤后) :从Open-o1项目中获取了CoT数据集,并通过启发式和质量过滤过程对其进行了优化,以确保数据的高质量和结构化推理步骤的有效性。
- Marco-o1 CoT数据集(合成) :使用蒙特卡洛树搜索(MCTS)生成了合成CoT数据集,帮助制定复杂的推理路径,进一步增强了模型的推理能力。
- Marco指令数据集 :在执行复杂任务时,强大的指令跟随能力至关重要,因此整合了一组指令跟随数据,确保模型在广泛任务中保持其通用有效性。
全参数微调
使用上述数据集对基础模型(如Owen2-7B-Instruct)进行了全参数微调。具体步骤如下:
- 数据预处理 :将所有数据集合并,并进行预处理,确保数据格式一致。
- 模型初始化 :使用预训练的基础模型(如Owen2-7B-Instruct)进行初始化。