73、互联网上支持基于不等概要的Top - K聚合查询及日语拟声词在线词典研究

最新推荐文章于 2025-10-06 13:02:47 发布

beta5

最新推荐文章于 2025-10-06 13:02:47 发布

阅读量44

点赞数

CC 4.0 BY-SA版权

分类专栏： APWeb2008研究精要文章标签： Top-K聚合查询不等概要 DSW方法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/beta5/article/details/150987413

APWeb2008研究精要专栏收录该内容

84 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

互联网上支持基于不等概要的Top - K聚合查询及日语拟声词在线词典研究

在数据处理和语言学习领域，分别有两个重要的研究方向值得关注。一是在互联网数据处理中，如何高效支持基于不等概要的Top - K聚合查询；二是在日语学习方面，怎样构建一个有效的拟声词在线词典。

互联网数据处理：支持基于不等概要的Top - K聚合查询

在互联网数据处理中，概要数据结构分为相等概要和不等概要。相等概要实现简单，但在解决流上的多聚合查询时，很难共享重叠窗口，因为会产生更多切片；而不等概要能很好地解决这个问题。

以成对窗口概要为例，它将一个窗口分割成两个不等的切片。比如有字符a、b、c代表三种数据包流，20、10和5代表频率计数。在这个例子中，该概要包含7个子窗口，应用Top - 3作为部分聚合。在部分聚合步骤中，输出每个子窗口中的Top - 3类型；在最终聚合步骤中，如果要输出整个第一个窗口中最频繁的项，类型c会是结果，尽管类型a在整个第一个窗口中的最终频率计数最高，但它在第二个子窗口S2中被丢弃。

为了解决这些问题，提出了DSW（动态子窗口）方法。该方法不受概要形式的限制，重置每个窗口的工作量，以确保很少出现假阴性。

DSW方法的三个阶段

重新定义阶段 ：使用包含7个子窗口S1 - S7的不等概要，设计动态子窗口，将长的子窗口（如S2）重新定义为一些新的小子窗口，使所有子窗口大小相似，以减少大小差异，提高Top - k结果的准确性。
初始化阶段 ：动态子窗口的大小由滑动窗口查询的属性自动维护。滑动窗口有基于时间和基于元组的

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。