计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-12
1. PharmaBench: Enhancing ADMET benchmarks with large language models
Z Niu, X Xiao, W Wu, Q Cai, Y Jiang, W Jin, M Wang… - Scientific Data, 2024
大语言模型在药物发现中的应用:PharmaBench
文章由MindRank AI、伦敦帝国理工学院、华中科技大学和其他机构的研究人员共同撰写。
背景与总结
- ADMET(吸收、分布、代谢、排泄和毒性)特性的优化在药物发现中起着关键作用。
- 计算方法的发展为药物发现提供了快速且成本效益高的手段,减少了实验工作量和时间。
- 现有的基准数据集存在局限性,如覆盖的生物测定数据有限,与工业药物发现流程中的实体差异较大。
方法
- 利用大型语言模型(LLMs)作为核心引擎,从生物医学数据库中的测定描述中提取实验条件。
- 建立了自动化数据处理框架,用于处理数据,以便编制ADMET基准数据集。
- 实施了从ChEMBL数据库处理生物测定数据并提取缺失的实验条件的流程。
- 通过多步骤验证过程确认数据质量、分子特性和PharmaBench的建模能力。
数据处理工作流程
- 数据收集:主要来源是ChEMBL数据库,包括实验值、化学结构、测定描述等。
- 数据挖掘:使用GPT-4模型作为数据挖掘任务的核心,通过少量示例学习来提取实验条件。
- 数据标准化:包括结构格式、实验条件和实验值的标准化。
- 数据过滤:移除异常分子和不规则实验结果,构建最终基准集。
- AI建模数据准备:统一重复结果,划分训练和测试集。
技术验证
- 通过重复测试、属性分布分析和深度学习及机器学习建模来评估数据集。
- 展示了PharmaBench数据集在不同模型上的表现,证明了数据集的质量。
实验相关
- 提供了11个ADMET数据集,包括标准化的SMILES表示、实验值和训练标签。
- 用户可以使用提供的标签进行公平比较。
代码可用性
- 研究中使用的代码已存储在GitHub上,所有计算均在Python 3.12.2虚拟环境下完成。
参考文献
文章列出了57个参考文献,涵盖了药物发现、大语言模型、数据挖掘和机器学习等领域的研究。
2. Consumer segmentation with large language models
Y Li, Y Liu, M Yu - Journal of Retailing and Consumer Services, 2025
大语言模型在消费者细分中的应用
摘要
- 消费者细分对企业定制产品至关重要。 本研究探索了大型语言模型(LLMs)在市场研究消费者细分中的应用。
- 通过LLMs进行基于消费者调查数据的聚类分析,重点关注基于文本的多项选择题和开放式问题。
- 使用LLMs模型进行文本嵌入聚类,提高了聚类准确性。 创建了模拟消费者偏好的聊天机器人,准确率超过89%。 研究结果强调了LLMs框架在市场研究中的潜力。
引言
- 零售文献中包含多种揭示消费者偏好的方法,其中调查问卷起着关键作用。
- 传统的调查方法忽视了问卷中的文本数据,导致研究者和实践者难以理解消费者偏好。
- LLMs在理解和生成自然语言方面具有强大的能力,已被应用于市场感知分析、搜索引擎优化和个性化营销等领域。
消费者细分
- “用户画像”概念涉及从用户的基本、社会、行为和心理属性中提取共同特征。
- 企业通过收集和分析消费者的社会特征、生活习惯和购买行为数据来细分消费者群体。
嵌入模型
- 在自然语言处理(NLP)中,嵌入是将文本数据转换为数值向量的过程。
- 嵌入向量能够表示词、短语或整个文档在连续向量空间中的语义相似性。
数据来源
- 与一家经营1000多家连锁店和5000多家高质量零售店的中国酒类公司合作,获得了500份有效回应。
- 调查问卷旨在探索消费者对酒类的偏好,并构建详细的消费者画像。
聚类结果
- 使用K-means聚类算法构建消费者画像。K-means算法易于实现和理解,计算效率高,适用于中等规模数据集。
关键结论
- 研究调查了LLM技术在协助公司进行消费者细分和构建消费者画像方面的应用。
- LLM方法是一个可靠且高效的工具,能够有效地对调查文本进行聚类,并基于真实消费者体验促进扩展问答环节。