医疗文本的人工智能分类方法及评估指标
1. 机器学习分类器
1.1 监督学习分类器
- K - 近邻算法(KNN) :基于特征相似性,对数据分布无假设,依据邻居数据点进行预测。“K”是唯一输入参数,训练阶段快,处理无先验知识的数据时尤为重要。
- 决策树(DT) :用树结构将复杂数据分解为更易处理的部分。内部节点对应属性测试,分支代表测试结果,叶节点表示类别标签。分类时从根节点开始,测试节点属性,根据测试结果向下进行。
- 最大熵(ME)分类器 :基于概率分布评估文档中类别标签的条件分布,还利用训练数据评估基于类别的词频期望值。
- 潜在狄利克雷分配(LDA) :属于生成概率模型,常用于主题建模,主要目标是通过文档中的词找出文档所属的主题。
1.2 无监督学习分类器
- K - 均值算法 :使用向量量化将数据分为具有相等方差的组,以最小化惯性或簇内平方和。Kadena的挖掘算法(KDA)以簇值数量作为唯一输入,存储质心来描述簇,根据当前质心和数据点分配确定给定数据的最合适质心。
- 潜在语义分析(LSA) :常用于主题建模,假设含义相近的词出现在文本的相似片段中。利用段落中现有词生成的矩阵对主题进行分类,使用奇异值分解(SVD)减少行数同时保留列间相似结构,采用余弦相似度比较文档,相似文档值接近1,不相似文档接近0。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



