文本样本大小自适应与特征选择方法研究
文本样本大小自适应
自适应的基础与数据结构
若认知助手应用程序存储了一些统计反馈数据,就可以根据提议的样本大小对文本样本大小进行自适应调整。提议的数据结构为 <source_type, mark, length> ,其中 source_type 表示数据源类型, mark 是用户反馈, length 是收到反馈的文本样本大小。
系统的目标是降低延迟,基于此有如下预设:在相同的文本分析技术条件下,如果用户将某些结果评为“完美”,则可以减小文本样本长度;若评价为“不满意”,则应增加文本样本长度。然而,认知助手的统计数据有以下特点:
- 对于相同的数据源类型和相同的用户反馈,文本样本长度可能不同。
- 相同的长度可能有不同的反馈评价。
传统方法及其局限性
一种看似明显的解决文本样本大小修正问题的方法如下:
1. 从数据存储中选择包含相关数据源类型的记录。
2. 从之前形成的选择中,挑选文本样本长度接近当前文本样本大小的记录。
3. 使用所选评价计算平均用户反馈。
4. 根据平均反馈评分增加或减小文本样本大小。
这种方法在某些情况下很有效,例如平均反馈评分为 4.5 时,显然可以减小文本样本大小。但当平均评分为 3.5 时,解决方案就不明确了,这可能意味着收到了很多好评价,但也有坏评价;或者收到了中等数量的好评价,但有些用户认为结果“不可接受”。此外,考虑大部分评价可能并不合适,因为环境条件可能
文本自适应与特征选择方法研究
超级会员免费看
订阅专栏 解锁全文
11

被折叠的 条评论
为什么被折叠?



