社交媒体情感分析与临床编码自动化研究洞察
在当今数字化时代,社交媒体数据和医疗临床数据的处理与分析变得愈发重要。本文将聚焦于 Twitter 情感分析中形态特征的影响,以及人工智能在临床编码自动化方面的应用,为大家详细解读相关研究成果。
Twitter 情感分析:形态特征的关键作用
在社交媒体分析领域,直接从社交网络获取的新鲜数据具有极高的实用价值。人们在感兴趣的话题上往往能自由表达观点,然而这些以自然语言呈现的数据需要借助自动计算方法进行处理。
相关研究概述
已有部分关于 Twitter 情感识别的研究,但关注形态特征部分贡献分析的较少。例如,有的研究计算与词性标签相关的先验极性概率,使用多达 100 个额外特征,包括表情符号和正负词词典,准确率可达 60%;还有研究提出利用少量词汇资源,通过引入话语关系来改进经典词袋模型的分类准确率。
实验设计
-
数据集 :实验采用了包含 9584 条训练推文和 1547 条测试推文的数据集。训练语料库和测试语料库的词汇有一定重合度,但也存在许多对分类任务无用的词汇。具体特征如下表所示:
| 特征 | 训练语料库 | 测试语料库 |
| — | — | — |
| 推文数量 | 9584 | 1547 |
| 单词数量 | 110852 | 16997 |
| 词汇量 | 19300 | 4365 |
| 平均长度 | 20.47 | 16.87 |
| 积极推文 | 3015 | 368 |
| 消极推文 | 865 | 214 |
超级会员免费看
订阅专栏 解锁全文
30

被折叠的 条评论
为什么被折叠?



