16、探索CKAN与Hadoop集成:数据过滤、处理与智能城市应用

探索CKAN与Hadoop集成:数据过滤、处理与智能城市应用

1. 收获过滤器插件的实现

为了过滤数据集,对CKAN收获扩展的一个可用收获插件进行了扩展。为满足特定需求,实现了为特定收获源定义过滤器集,并在收获过程中实际应用这些过滤器的功能。

1.1 过滤器初始化

要收获特定数据源,具有相应权限的用户需在CKAN后端定义收获作业。该定义包含以下内容:
- 收获源的可访问URL
- 要使用的收获器插件(取决于数据源类型)
- 收获迭代的周期
- 一个可选的字典,包含进一步的配置设置

可以在字典中传递所需的过滤器设置,这些设置在创建收获作业时会进行验证,若提供了错误或冲突的参数,会抛出错误。

主要有两种类型的过滤器:
- 包含过滤器 :定义项目必须满足的某些标准,才能成功通过选择过程。
- 排除过滤器 :通过所有不满足过滤标准的项目。

过滤类型可通过收获作业配置字典的过滤器属性设置。可能的过滤标准包括文件格式、文件大小限制或文件名中的字符串匹配。例如,要仅收获文件大小超过3 MB的图像,可使用以下配置:

{
    "filter": "inclusion",
    "size": "> 3mb",
    "file_type": "jpg,png,gif"
}

对于包含过滤的多个属性的析取,可以通过创建多个在管道中工作的收获作业来实现,每个作业配置一个析取包

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值