词预测与优化技术的前沿探索
1. 词预测的现状
词预测如今已成为一个相对独立于目标识别的既定问题。开展相关研究较为便捷,因为有优质的标准数据集可供使用,而且方法的定量比较也较为容易,在合适的评估方法上至少有大致的共识。不过,仍存在诸多值得深入研究的开放性问题,搜索应用的强大吸引力使得这些问题的研究颇具价值。
1.1 资源
- 代码资源 :多数用于相关系统的代码属于特征代码或分类器代码。Marius Muja 发布了用于近似最近邻的代码,该代码可判断 k - d 树或局部敏感哈希在特定数据集上的效果,并能对所选方法进行调优,代码链接为 http://www.cs.ubc.ca/~mariusm/index.php/FLANN/FLANN 。
- 数据集资源 :
- Corel5K 数据集 :包含 5000 张从大量库存照片中收集的图像,分为 4500 个训练样本和 500 个测试样本。每张图像平均有 3.5 个关键词,来自一个包含 260 个词的字典,这些词同时出现在训练集和测试集中。该数据集由 Duygulu 等人在 2002 年推广,截至撰写时,其特征和标签存档可在 http://lear.inrialpes.fr/people/guillaumin/data.php 找到。
- IAPRTC - 12 数据集 :包含 20000 张图像,配有自由文本说明。通过各种解析方法从文本中提取标签。截至撰写时,可从 http://imageclef.o
超级会员免费看
订阅专栏 解锁全文
1040

被折叠的 条评论
为什么被折叠?



