利用机器学习进行不良事件分类与叶绿素含量估计
不良事件的层次分类
如今,机器学习技术广泛应用于各个领域,不良事件分类便是其中之一。常见的方法包括支持向量机、随机森林、最大熵等,神经网络如卷积神经网络(CNN)、基于注意力的深度神经网络以及双向编码器表征变换器(BERT)也被用于不良事件分类。不过,类别不平衡是该领域常见的问题。
社交媒体和电子商务平台在消费者表达意见方面的作用日益重要。这些平台的数据来源虽然包含了丰富的不良事件信息,但也给数据处理带来了挑战,尤其是自然语言处理方面。互联网上的评论和意见往往存在拼写错误和俚语表达。
以往的不良事件分类研究主要集中在二元分类,且多针对药物不良事件,分析的文本也通常为单一语言(多为英语)。语言独立性有助于更广泛地分析不良事件,考虑文化趋势并更快地发现问题。目前,层次分类方法尚未应用于不良事件分类问题。
本研究首次尝试对包含电子商务和社交媒体文本的大型数据集进行层次分类,研究对象包括非处方药、其他健康和卫生产品等。主要贡献如下:
- 使用与语言无关的方法,基于消费者评论对不良事件进行多类别分类。
- 研究层次和非层次两种分类方法。
- 在尽可能接近生产的条件下进行分类。
- 将不良事件分类研究扩展到非药物产品。
数据集
数据集包含超过152,000条文本,来自亚马逊、Lazada等电子商务平台以及Facebook、Twitter等社交媒体平台,包括产品在线评论、使用讨论和品牌消息等。这些文本使用了英语以及西班牙语、俄语、日语和阿拉伯语等其他语言,约70%的初始数据为英语,其余30%为非英语语言并通过机器翻译成英语。数据集反映了实际的数据分布,存在严
超级会员免费看
订阅专栏 解锁全文

31

被折叠的 条评论
为什么被折叠?



