探索CKAN与Hadoop集成:数据过滤、处理与智能城市应用
1. 收获过滤器插件的实现
为了过滤数据集,对CKAN收获扩展的一个可用收获插件进行了扩展。为满足特定需求,实现了为特定收获源定义过滤器集,并在收获过程中实际应用这些过滤器的功能。
1.1 过滤器初始化
要收获特定数据源,具有相应权限的用户需在CKAN后端定义收获作业。该定义包含以下内容:
- 收获源的可访问URL
- 要使用的收获器插件(取决于数据源类型)
- 收获迭代的周期
- 一个可选的字典,包含进一步的配置设置
可以在字典中传递所需的过滤器设置,这些设置在创建收获作业时会进行验证,若提供了错误或冲突的参数,会抛出错误。
主要有两种类型的过滤器:
- 包含过滤器 :定义项目必须满足的某些标准,才能成功通过选择过程。
- 排除过滤器 :通过所有不满足过滤标准的项目。
过滤类型可通过收获作业配置字典的过滤器属性设置。可能的过滤标准包括文件格式、文件大小限制或文件名中的字符串匹配。例如,要仅收获文件大小超过3 MB的图像,可使用以下配置:
{
"filter": "inclusion",
"size": "> 3mb",
"file_type": "jpg,png,gif"
}
对于包含过滤的多个属性的析取,可以通过创建多个在管道中工作的收获作业来实现,每个作业配置一个析取包
超级会员免费看
订阅专栏 解锁全文
18

被折叠的 条评论
为什么被折叠?



