13、医疗文本的人工智能分类方法及评估指标-优快云博客

本文链接：https://blog.youkuaiyun.com/time3/article/details/153146739

                    
                        
                    
                     医疗文本的人工智能分类方法及评估指标  
 1. 机器学习分类器  
 1.1 监督学习分类器  
  K - 近邻算法（KNN）  ：基于特征相似性，对数据分布无假设，依据邻居数据点进行预测。“K”是唯一输入参数，训练阶段快，处理无先验知识的数据时尤为重要。 
  决策树（DT）  ：用树结构将复杂数据分解为更易处理的部分。内部节点对应属性测试，分支代表测试结果，叶节点表示类别标签。分类时从根节点开始，测试节点属性，根据测试结果向下进行。 
  最大熵（ME）分类器  ：基于概率分布评估文档中类别标签的条件分布，还利用训练数据评估基于类别的词频期望值。 
  潜在狄利克雷分配（LDA）  ：属于生成概率模型，常用于主题建模，主要目标是通过文档中的词找出文档所属的主题。 
 
 1.2 无监督学习分类器  
  K - 均值算法  ：使用向量量化将数据分为具有相等方差的组，以最小化惯性或簇内平方和。Kadena的挖掘算法（KDA）以簇值数量作为唯一输入，存储质心来描述簇，根据当前质心和数据点分配确定给定数据的最合适质心。 
  潜在语义分析（LSA）  ：常用于主题建模，假设含义相近的词出现在文本的相似片段中。利用段落中现有词生成的矩阵对主题进行分类，使用奇异值分解（SVD）减少行数同时保留列间相似结构，采用余弦相似度比较文档，相似文档值接近1，不相似文档接近0。