基于 LDA 和 BERTopic 的 COVID-19 论文内容分析
关于 COVID-19 的研究不胜枚举,截至 2022 年初,已发表了超过 800000 800000 800000 篇与 COVID-19 相关的论文。对这些论文进行梳理是一项非常具有挑战性的任务,但这可以帮助我们确定哪些领域可以更多的从研究或研究基金中受益。在本文中,我将评估这些 COVID-19 研究论文的主题,尝试揭示这些统计数据和趋势。
数据集来自 The COVID-19 Open Research Dataset (CORD-19),该数据集包含了与冠状病毒研究或 COVID-19 大流行相关的学术论文语料库。 CORD-19 数据集旨在支持文本挖掘和 NLP 研究,并为评估 COVID-19 大流行的主题提供良好开端。
尽管获取 CORD-19 数据相对不难,但因数据质量问题仍要进行数
本文利用 LDA 和 BERTopic 分析 COVID-19 论文,从社科角度揭示研究主题。通过对 CORD-19 数据集的筛选和主题建模,发现疫苗、预防措施、牙科护理、经济影响、心理健康等热门话题,以及各国研究的差异。
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



