基于机器学习技术的医学期刊摘要分类性能分析
1. 引言
非传染性疾病(NCDs)如今在全球范围内导致大量死亡,癌症预计将成为主要死因,也是提高全球预期寿命的最大障碍。2020 年,全球估计有 1930 万例新癌症病例和 1000 万例癌症死亡。其中,亚洲预计占所有病例的一半和 58.3%的癌症死亡,欧洲占 22.8%的病例和 19.6%的死亡,美洲发病率为 20.9%,死亡率为 14.2%。2021 年,美国预计有 1898160 例新病例和 608570 例癌症死亡,不过由于吸烟率下降、癌症早期检测技术改进和治疗方法的进步,癌症死亡率开始下降。
生活方式的改变对预防女性乳腺癌起着至关重要的作用。体育活动、吸烟、饮酒以及矿物质或维生素的使用等都是导致女性患乳腺癌的风险因素,改变这些因素可以降低患病风险。
医学文档中不仅包含癌症相关信息,还有许多重要的基本生活信息。然而,由于这些文本形式抽象,从中提取见解既困难又耗时。因此,社会需要新的计算工具来更好地组织、浏览和解释大量数据。机器学习算法的文本分类可以自动、轻松且经济高效地管理流程,改善数据驱动的决策。在许多应用中,文本分类是管理非结构化文本内容的重要元素,如互联网搜索、信息检索、情感分析等,引起了研究专家的广泛关注。
传统的文本分析模型多采用词袋模型,忽略了单词之间的关系,导致结果不理想。近年来,主题模型等新的统计模型在文本分析和分类领域变得流行。将文本分类和主题建模结合使用可以提高效率。在本研究中,首先使用主题建模对生物文档进行标记,然后进行文本分类,具体评估和比较了相关算法的效率。
2. 相关工作
- 情感分析相关研究
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



