LHS重要学习资料

自1998年提出LSH,距今已经10多年了,中间有不少对该算法的改进、挑战、应用、介绍等等。这里根据自己的学习过 程,列一个LSH参考文献和相关资源列表:一则是小结学习LSH可以参考的资料,二则是为了避免本人的LSH小结系列文章对大家产生误导。欢迎对该列表进 行指正和补充。

LSH原理相关重要论文

  • 1. P. Indyk and R. Motwani. Approximate nearest neighbors: towards removing the curse of dimensionality[A]. In STOC ’98: Proceedings of the thirtieth annual ACM symposium on Theory of computing, New York, USA: ACM Press, 1998:604–613.
    • 作者在这篇论文中第一次提出了LSH。
  • 2. Aristides Gionis, Piotr Indyk, and Rajeev Motwani. Similarity search in high dimensions via hashing[A]. In VLDB ’99: Proceedings of the 25th International Conference on Very Large Data Bases[C], San Francisco, CA, USA: Morgan Kaufmann Publishers Inc.1999:518–529,
    • 作者在本论文中第一次详细说明了LSH的实现。
  • 3. M. Datar, N. Immorlica, P. Indyk, and V. S. Mirrokni. Locality-sensitive hashing scheme based on p-stable distributions[A]. In SCG ’04: Proceedings of the twentieth annual symposium on Computational geometry[C], New York, USA: ACM Press, 2004:253-262.
    • 第一次引入p-stable的概念,首次将近似推广到第0,1,2范式——在这之前的近似都1范式的亦即汉明距离等,此后欧几里得距离等都可以使用了。
  • 4. Wei Dong, Zhe Wang, William Josephson, Moses Charikar, Kai Li. Modeling LSH for Performance Tuning[A]. Proceedings of the 17th Conference on Information and Knowledge Management[C]. Napa Valley, CA, USA: Information Retrieval Facility, 2008:669-678.
    • lshkit库作者的论文,该论文是关于LSH性能优化的。
  • 5. Alexandr Andoni and Piotr Indyk. Near-optimal hashing algorithms for approximate nearest neighbor in high dimensions[J]. Commun. ACM, 2008, 51(1):117–122.
    • LSH提出者发表在CACM上的综述,对于LSH从最初提出起经过十年发展的成果进行了总结。
  • 6. Alexandr Andoni. Nearest Neighbor Search: the Old, the New, and the Impossible(2009)
    • E2LSH库作者的博士毕业论文,差不多是对NNS问题特别是用LSH求解该问题的一个综述。
  • Yufei Tao, Ke Yi, Cheng Sheng, Panos Kalnis. Efficient and Accurate Nearest Neighbor and Closest Pair Search in High Dimensional Space. In ACM Transactions of Database Systems
    • LSB Tree,代码:http://www.cse.cuhk.edu.hk/~taoyf/paper/codes/lsb.zip(由网友williamty提供)

 

相关书籍(章节)

  • Mining of Massive Datasets》 Anand Rajaraman and Jeff Ullman http://infolab.stanford.edu/~ullman/mmds.html
    • Chapter 3 Finding Similar Items
    • 该书尚未出版,但是已经挂出全文在网上了,整本书都非常赞。第3章关于LSH的讲解得非常好,强烈推荐先看这本书有关内容入门。
  • 计算机系统研究基础》 施巍松 主编 http://book.douban.com/subject/5341447/
    • 第5章 locality sensitive hashing
    • 实际是Wei Jiang师兄为某课程所写的报告(主编前言有说明),考虑到Wei Jiang师兄第一语言为中文,易读性相比上一本书要差不少,不过思路上可能更符合中国人理解,相对不是特别推荐。
  • Nearest Neighbor Methods in Learning and Vision: Theory and Practice, by T. Darrell and P. Indyk and G. Shakhnarovich (eds.), MIT Press, 2006.
    • 关于机器学习和计算机视觉领域中的最近邻方法的专著,里面有关于LSH的内容(Indyk是作者之一)。这本书我没看过,不过应该不会差。

 

LSH的应用

(我比较少涉及该部分,暂时随便选取2篇论文,欢迎推荐较好文章):

  • Q. Lv, W. Josephson, Z. Wang, M. Charikar, and K. Li. Ferret: a toolkit for content-based similarity search of feature-rich data[A]. EuroSys ’06: Proceedings of the ACM SIGOPS/EuroSys European Conference on Computer Systems[C], New York, USA: ACM Press, 2006:317–330.
    • 来自Standford大学李凯教授组,实际应用背景为多媒体内容检索(视频、声音、图像)中相似数据查询。(我本科毕业设计内容跟这个重了)
  • Koga, H., Ishibashi, T. and Watanabe, T. (2007). Fast agglomerative hierarchical clustering algorithm using locality-sensitive hashing, Knowledge and Information Systems 12(1): 25-53.
    • 是一篇将利用LSH做层次聚类的论文,非常简单易懂(《机器学习》课程作业参考论文)。
本文档旨在打造一份教师备课级别的Java学习笔记。由于笔者要给学生上Java课,同时要参与开发项目,所以此笔记会比一般的学习笔记要详细得多。本文档参考了《CoreJava笔记》、《韩顺平java从入门到精通视频教程(全94讲)学习笔记整理(齐全)》、《Java学习笔记(必看经典)》等笔记(学习笔记一定是一大抄,为了学好这门课,多参考一些笔记是应该的。这些笔记下载的分值高得吓人啊,花了我一大笔钱)。本笔记一开始是配套Java视频课程的学习,主要是《尚学堂_高淇_java基础300集史上最全最深最细视频教程》(6.88G)、《马士兵java完整视频教程》(5.63G)、《[学习资料] 传智播客韩顺平Java视频教程完整版 [30.16G]》(又是一笔更大的下载支出)。目前网上前两者的配套Java学习笔记好象还没有,本笔记完全可以做上述视频课程的配套学习之用。按笔者的学习计划,还将参与价值8K元的专业Java培训,届时会把培训笔记内容也加入文档。由于本人Java课程还在学习之中,所以笔记会不断完善,后续的版本都会标明日期,应该说越是后面的文档就越全面,一般情况下都会包含前面版本的内容,除非内容有修改。本文档下载后可以自行修改,但请注明出处。让我们共同进步吧。谢谢关注,敬请指正,联系方式:LJsJava@163.com。目前整理完第4章。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值