机器学习中的文本分类与投票分类器集合
1. 机器学习在医疗诊断中的应用
在早期,很多医生对机器学习在医疗领域的应用持保留态度,因为他们不希望被告知计算机能轻易取代他们的工作。但实际上,机器学习并非要取代人类专家,它最多只是提供建议,最终的诊断决策仍由治疗患者的医生负责。不过,这些建议的价值不容小觑,例如分类器可以提醒医生当前诊断可能伴随的其他未被察觉的疾病,甚至指出需要进行特定的额外实验室测试。
1.1 医疗诊断中的思考问题
- 为什么不能从相关结果得出诱导分类器优于人类专家的结论?
- 除了分类准确性,医疗诊断还需要什么?
- 讨论基于机器的诊断的局限性,并提出机器学习在医疗领域的合理应用方式。
2. 文本分类
2.1 文本分类的背景
当面对大量文本文档时,手动判断哪些与特定主题相关是不现实的。可以选择一个可管理的子集,阅读并为其分配类别标签(正或负),然后诱导一个分类器来对其余文档进行分类。
2.2 文档描述方式
常见的描述文档的方式是通过其中单词的频率。每个属性代表一个单词,其值表示该单词在文本中出现的频率。例如,在一个 983 个单词的文档中,“classifier”这个词出现了 5 次,那么它的频率就是 5/983 = 0.005。由于词汇表通常包含数万个单词,属性向量会很长,而且大部分属性值为零。为了便于处理,简单应用通常只使用整个词汇表的一个子集,比如 1000 个最常见的单词。
2.3 类别标签的确定
训练示例的类别标签可能难以确定。例如,判断
超级会员免费看
订阅专栏 解锁全文
951

被折叠的 条评论
为什么被折叠?



