CElith-CRM&TJUBD-优快云博客

原创大模型工程化内容-提纯大语言模型知识，探索高质量数据集构建-第二阶段

第一阶段，我们认为仅仅将思维链放在提示词工程中，效果不佳，即使是有诸多目前来看较好的大模型+匹配的搜索引擎的支持，依然无法满足高质量数据集构建需要。我们不仅仅希望将思维链放入提示词，还希望大模型本身具有思维链能力，我们也希望按照CoT的思想设计整个架构。架构中的prompt_builder.py，本身是参考长思考的原理进行设计的。架构中的api_client.py引入的是长思考的模型，并且实时联网。*****项目和数据均有保密要求，仅记录思想。主要使用了Kimi和deepseek。

2025-02-03 16:36:20 172

原创大模型工程化内容-提纯大语言模型知识，探索高质量数据集构建-第一阶段

大模型涵盖：kimi、天工、星火、千问、豆包、文心、GPT4o-latest、llama3.1-405b、o1、claud3.5-sonnet、deepseek等。技术路线1：显式的Prompt，引导多大模型构造多种主流思维链的Prompt，利用自动构造的Prompt从主流大模型（自带搜索引擎）中提取；我们在探索构建高质量数据集的一些方法，目标是让遥感大模型和语言大模型（智能体）实现联动，实现特定领域高质量数据集的构建；环节2：稳定的数据筛选；环节3：准确的数据抽取；环节1：充分的数据源；

2025-02-03 11:50:43 240

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 大模型工程化内容-提纯大语言模型知识，探索高质量数据集构建-第二阶段

原创 大模型工程化内容-提纯大语言模型知识，探索高质量数据集构建-第一阶段

空空如也

空空如也

原创大模型工程化内容-提纯大语言模型知识，探索高质量数据集构建-第二阶段

原创大模型工程化内容-提纯大语言模型知识，探索高质量数据集构建-第一阶段