CRAWLER - LD与智能环境框架的技术剖析
CRAWLER - LD与Swget的对比
选择将CRAWLER - LD与Swget进行直接对比,主要有以下三个原因:
- 目前没有可用的基准来测试像CRAWLER - LD这样的链接数据爬虫,而且手动创建一个这样广泛的基准几乎是不可能的。
- Swget是目前在线可用的最新爬虫。
- 为Swget设置一个类似于音乐领域的实验相当简单。
Swget实验的执行步骤如下:
1. 根据Swget网站上的示例,创建用于运行查询的模板: t’ -p < q’ > < 2 - 2> ,此查询表示“给定一个术语t’,使用谓词q’查找与其相关的所有资源,并递归扩展两层”。
2. 从音乐领域的相同初始术语开始,收集Swget找到的所有术语,并指定Swget应遵循的爬取属性。
通过对Swget和CRAWLER - LD的实验,得到以下结果:
| 爬虫 | 精确率 | 召回率 | F1值 |
| — | — | — | — |
| Swget | 29.17% | 100% | 45.16% |
| CRAWLER - LD | 100% | 78.57% | 88.00% |
结果分析如下:
- 精确率 :Swget的精确率较低,因为它同时查找更通用和更具体的术语,而CRAWLER - LD只搜索更具体的术语。例如,使用 rdfs:subClassOf 作为谓词和 dbpedia:MusicalW
超级会员免费看
订阅专栏 解锁全文
652

被折叠的 条评论
为什么被折叠?



