16、探索CKAN与Hadoop集成：数据过滤、处理与智能城市应用

寂静夜空35

于 2025-09-20 15:27:58 发布

阅读量23

点赞数

CC 4.0 BY-SA版权

分类专栏：云与服务科学前沿探析文章标签： CKAN Hadoop 数据过滤

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/vulkan6gpu/article/details/153102091

云与服务科学前沿探析专栏收录该内容

38 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

探索CKAN与Hadoop集成：数据过滤、处理与智能城市应用

1. 收获过滤器插件的实现

为了过滤数据集，对CKAN收获扩展的一个可用收获插件进行了扩展。为满足特定需求，实现了为特定收获源定义过滤器集，并在收获过程中实际应用这些过滤器的功能。

1.1 过滤器初始化

要收获特定数据源，具有相应权限的用户需在CKAN后端定义收获作业。该定义包含以下内容：
- 收获源的可访问URL
- 要使用的收获器插件（取决于数据源类型）
- 收获迭代的周期
- 一个可选的字典，包含进一步的配置设置

可以在字典中传递所需的过滤器设置，这些设置在创建收获作业时会进行验证，若提供了错误或冲突的参数，会抛出错误。

主要有两种类型的过滤器：
- 包含过滤器 ：定义项目必须满足的某些标准，才能成功通过选择过程。
- 排除过滤器 ：通过所有不满足过滤标准的项目。

过滤类型可通过收获作业配置字典的过滤器属性设置。可能的过滤标准包括文件格式、文件大小限制或文件名中的字符串匹配。例如，要仅收获文件大小超过3 MB的图像，可使用以下配置：

{
    "filter": "inclusion",
    "size": "> 3mb",
    "file_type": "jpg,png,gif"
}

对于包含过滤的多个属性的析取，可以通过创建多个在管道中工作的收获作业来实现，每个作业配置一个析取包

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。