
文章主要内容
- 研究背景:在表格数据的机器学习任务中,特征工程至关重要,但需要大量人力和专业知识。虽然大语言模型在特征工程领域有所应用,但现有方法存在依赖云托管大语言模型(如GPT)、仅适用于分类任务、难以处理大规模数据和安全问题等局限性。
- 相关工作:介绍了其他基于语言模型的特征工程研究(如CAAFE、FeatLLM),对比了它们与FeRG - LLM的能力差异;同时阐述了思维链(Chain - of - Thought,CoT)和直接偏好优化(Direct Preference Optimization,DPO)的相关理论,为FeRG - LLM框架提供理论基础。
- 方法:构建两阶段对话数据集,利用GPT - 4omini API提取信息,通过重新格式化信息激发8B规模语言模型的CoT推理能力,第一阶段生成新特征的关键思路,第二阶段生成Python代码实现特征创建,并利用LoRA进行监督微调;使用DPO对生成特征的合理性进行反馈优化,构建偏好数据集并优化语言模型。
- 实验:使用多个表格数据集评估FeRG - LLM生成特征的质量,以AUC为评估指标,与CAAFE、FeatLLM和Llama 3.1 70B进行对比,结果表明FeRG - LLM在多数数据集上性能优异;通过t - SNE可视化和语言分析研究DPO

订阅专栏 解锁全文
1821

被折叠的 条评论
为什么被折叠?



