数据仓库压缩与文档表示有效性研究
在数据处理和文档分类领域,数据压缩技术以及文档表示的有效性评估是至关重要的研究方向。数据压缩能够显著节省存储空间并提升查询性能,而准确评估文档表示的有效性则有助于提高文档分类的准确性。
数据仓库文本属性的高效压缩
在使用特定压缩方法时,查询必须通过中间件执行,该中间件会在必要时进行查询重写和数据解压缩。为优化查询重写和解压缩任务,中间件会将代码元数据表加载到内存中,其作用类似于一个小型字典,能实现未压缩值与压缩值之间的转换。
查询执行
当编码属性在 WHERE 子句中用于过滤时,就需要进行查询重写。此时,用于过滤结果的值必须替换为相应的编码值。以下是一些查询重写的示例:
- 示例 1 :将值 ‘LONDON’ 替换为从代码表中获取的对应代码。
-- 原始查询
SELECT CUST_NAME
FROM CUSTOMERS
WHERE CUST_CITY = ‘LONDON’
-- 修改后的查询
SELECT CUST_NAME
FROM CUSTOMERS
WHERE CUST_CITY = 00001011
这里的代码以二进制(1 字节)表示。
- 示例 2 :将值 ‘L%’ 替换为代码表中满足条件的代码集合。
-- 原始查询
SELECT
超级会员免费看
订阅专栏 解锁全文
4908

被折叠的 条评论
为什么被折叠?



