文本分类与物联网在医疗信息系统中的应用
1. 文本分类算法概述
文本分类是自然语言处理中的重要任务,旨在将文本划分到不同的类别中。常见的文本分类方法包括监督学习、无监督学习、半监督学习等。
1.1 向量模型算法
向量模型是一个多维空间,文本中的所有单词都以向量形式表示。评估数据集分为编码器和分类两部分。分类算法的基本假设是源语言和目标语言以不同方式传达相同的含义,利用这一信息训练分类器。学习范式依赖两个参数:
- 每种语言/视图中每个分类器的单语误分类成本。
- 约束两种语言决策相似性的不一致成本。
算法输入为两个标记集 $S_1$ 和 $S_2$ 以及折扣因子 $\lambda$,通过迭代优化分类器,直到收敛到局部最小值。
Input: Two labeled sets S1 and S2;
A discount factor λ.
Initialize: t ←1;
h(0) 1 def = argminh C(h,S1);
h(0) 2 def = argminh C(h,S2);
repeat
Learn h(t) 1 = argminh L(h,S1,h(t −1) 2,S2,λ);
Learn h(t) 2 = argminh L(h,S2,h(t) 1,S1,λ);
t ←t + 1;
until Convergence of ▲(h(t) 1,S1,h(t) 2,S2,λ) (eq. 4) to a local minimum;
Output: f1 = sign(h(t) 1) and f2 = sign(h
超级会员免费看
订阅专栏 解锁全文
2297

被折叠的 条评论
为什么被折叠?



