73、互联网上支持基于不等概要的Top - K聚合查询及日语拟声词在线词典研究

互联网上支持基于不等概要的Top - K聚合查询及日语拟声词在线词典研究

在数据处理和语言学习领域,分别有两个重要的研究方向值得关注。一是在互联网数据处理中,如何高效支持基于不等概要的Top - K聚合查询;二是在日语学习方面,怎样构建一个有效的拟声词在线词典。

互联网数据处理:支持基于不等概要的Top - K聚合查询

在互联网数据处理中,概要数据结构分为相等概要和不等概要。相等概要实现简单,但在解决流上的多聚合查询时,很难共享重叠窗口,因为会产生更多切片;而不等概要能很好地解决这个问题。

以成对窗口概要为例,它将一个窗口分割成两个不等的切片。比如有字符a、b、c代表三种数据包流,20、10和5代表频率计数。在这个例子中,该概要包含7个子窗口,应用Top - 3作为部分聚合。在部分聚合步骤中,输出每个子窗口中的Top - 3类型;在最终聚合步骤中,如果要输出整个第一个窗口中最频繁的项,类型c会是结果,尽管类型a在整个第一个窗口中的最终频率计数最高,但它在第二个子窗口S2中被丢弃。

为了解决这些问题,提出了DSW(动态子窗口)方法。该方法不受概要形式的限制,重置每个窗口的工作量,以确保很少出现假阴性。

DSW方法的三个阶段
  • 重新定义阶段 :使用包含7个子窗口S1 - S7的不等概要,设计动态子窗口,将长的子窗口(如S2)重新定义为一些新的小子窗口,使所有子窗口大小相似,以减少大小差异,提高Top - k结果的准确性。
  • 初始化阶段 :动态子窗口的大小由滑动窗口查询的属性自动维护。滑动窗口有基于时间和基于元组的
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值