13、医疗文本的人工智能分类方法及评估指标

医疗文本的人工智能分类方法及评估指标

1. 机器学习分类器

1.1 监督学习分类器

  • K - 近邻算法(KNN) :基于特征相似性,对数据分布无假设,依据邻居数据点进行预测。“K”是唯一输入参数,训练阶段快,处理无先验知识的数据时尤为重要。
  • 决策树(DT) :用树结构将复杂数据分解为更易处理的部分。内部节点对应属性测试,分支代表测试结果,叶节点表示类别标签。分类时从根节点开始,测试节点属性,根据测试结果向下进行。
  • 最大熵(ME)分类器 :基于概率分布评估文档中类别标签的条件分布,还利用训练数据评估基于类别的词频期望值。
  • 潜在狄利克雷分配(LDA) :属于生成概率模型,常用于主题建模,主要目标是通过文档中的词找出文档所属的主题。

1.2 无监督学习分类器

  • K - 均值算法 :使用向量量化将数据分为具有相等方差的组,以最小化惯性或簇内平方和。Kadena的挖掘算法(KDA)以簇值数量作为唯一输入,存储质心来描述簇,根据当前质心和数据点分配确定给定数据的最合适质心。
  • 潜在语义分析(LSA) :常用于主题建模,假设含义相近的词出现在文本的相似片段中。利用段落中现有词生成的矩阵对主题进行分类,使用奇异值分解(SVD)减少行数同时保留列间相似结构,采用余弦相似度比较文档,相似文档值接近1,不相似文档接近0。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值