工业文本评分引擎与密集神经网络训练方法评测
工业文本评分引擎
在文本评分过程中,存在一些错误评分的情况。如下表所示为一些错误评分的响应示例,包含真实分数(GT)和预测分数(P):
| 响应 | GT | P |
| — | — | — |
| E1:对审查的财政期间进行年度董事会评估。董事会主席在评估每位董事的绩效过程中,通过公开讨论鼓励所有董事参与,这对组织的运营效率至关重要。董事们根据他们的总体承诺、履行职责的能力以及对决策的贡献进行评估。最后,董事会认为当前的组成是充足且合适的。 | 3 | 4 |
| E2:提名委员会在当前审查的财政年度仅召开了一次会议,委员会执行的所有活动都得到了妥善记录。 | 0 | 2 |
对于E2,它是一个试图利用评分机制的对抗性响应。虽然它使用了如“提名委员会”“财政年度”和“审查”等突出的领域相关关键词,但评分规则要求响应承认进行了审查,而此响应并没有这样的表述。并且,“审查”一词在“当前审查的财政年度”语境中,只是指时间段,并非评估过程本身。这表明模型需要区分内容连贯、上下文有意义的响应和只是使用了正确词汇的响应。
混合模型
由于Longformer在所有运行中表现最稳定且卡帕得分最高,因此在混合框架中选择它作为A模块。基于TF - IDF排名、专家咨询、评分规则分析和特征选择,为两个语料库选择了词汇、命名实体识别(NER)家族和关键短语,实践Y的部分特征如下表所示:
| 类别 | 需查找的分类词汇(B模块) | 数值计数(B模块) | 词级注意力关键短语(C模块) |
| — | — | — | — |
| 内容 | 年度评估、评估表、技能经验、
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



