论文:https://arxiv.org/pdf/2406.18966v1
Website: https://unigen-framework.github.io/
Toolkit: https://github.com/HowieHwong/UniGen
领域:LLM合成数据框架
机构:华中科技大学、圣母大学、马里兰大学帕克分校、微软研究院等
发表/arxiv:arxiv 2024
UNIGEN 是一个创新的框架,它利用大型语言模型(LLMs)来生成高质量、多样化且高度可控的文本数据集。通过集成属性引导生成、组检查、基于代码的数学评估和检索增强的验证方法,UNIGEN 旨在解决现有数据生成技术在泛化性、可控性、多样性和真实性方面的挑战。论文通过广泛的实验验证了 UNIGEN 生成的数据质量,并展示了其在基准测试和数据增强等实际应用中的有效性,为未来在数据生成和模型评估领域的研究奠定了基础。