互联网上支持基于不等概要的Top - K聚合查询及日语拟声词在线词典研究
在数据处理和语言学习领域,分别有两个重要的研究方向值得关注。一是在互联网数据处理中,如何高效支持基于不等概要的Top - K聚合查询;二是在日语学习方面,怎样构建一个有效的拟声词在线词典。
互联网数据处理:支持基于不等概要的Top - K聚合查询
在互联网数据处理中,概要数据结构分为相等概要和不等概要。相等概要实现简单,但在解决流上的多聚合查询时,很难共享重叠窗口,因为会产生更多切片;而不等概要能很好地解决这个问题。
以成对窗口概要为例,它将一个窗口分割成两个不等的切片。比如有字符a、b、c代表三种数据包流,20、10和5代表频率计数。在这个例子中,该概要包含7个子窗口,应用Top - 3作为部分聚合。在部分聚合步骤中,输出每个子窗口中的Top - 3类型;在最终聚合步骤中,如果要输出整个第一个窗口中最频繁的项,类型c会是结果,尽管类型a在整个第一个窗口中的最终频率计数最高,但它在第二个子窗口S2中被丢弃。
为了解决这些问题,提出了DSW(动态子窗口)方法。该方法不受概要形式的限制,重置每个窗口的工作量,以确保很少出现假阴性。
DSW方法的三个阶段
- 重新定义阶段 :使用包含7个子窗口S1 - S7的不等概要,设计动态子窗口,将长的子窗口(如S2)重新定义为一些新的小子窗口,使所有子窗口大小相似,以减少大小差异,提高Top - k结果的准确性。
- 初始化阶段 :动态子窗口的大小由滑动窗口查询的属性自动维护。滑动窗口有基于时间和基于元组的
超级会员免费看
订阅专栏 解锁全文
54

被折叠的 条评论
为什么被折叠?



