自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 资源 (8)
  • 收藏
  • 关注

原创 基于最小哈希(MinHash)和局部敏感哈希(Locality Sensitive Hashing,LSH)的短文本相似去重算法实现和测试

本文介绍一种针对海量短文本的相似去重算法实现,涉及的技术包括最小哈希(MinHash)和局部敏感哈希(Locality Sensitive Hashing,LSH),利用了开源python包datasketch。

2025-07-25 23:46:41 808

原创 《算法(第四版)》练习1.3.49

只要Tail不为空,则将Tail栈中的元素转移到Hbuf,其中有一个常数次(SPEED)的for循环,该循环是为了加速Tail栈中的元素向Hbuf的转移,因为Hbuf是Head的缓冲,所以终是为了加速Tail到Head的转移,将元素从Tail往Head转移是该算法的一个重要的设计原则,能够有效保证出队时通过简单的弹出Head顶层元素即可完成,虽然此处有一个for循环,但次数是有限的且固定的,因此保证入队时栈操作仍然是常数次。:用于出队,Head栈的栈顶是下一个出队的元素。:同Head栈中的元素顺序相反。

2025-07-01 00:45:50 1025 1

2018_knowledge_guided_nlp_en.pdf

刘知远老师知识指导的自然语言处理演讲PPT,利用自然语言知识库提升自然语言处理任务效果。 Knowledge-Guided Natural Language Processing

2020-02-08

2018_deep_learning_and_computational_social_sciences.pdf

清华大学刘知远老师关于深度学习和计算社交科学的演讲PPT。 deep learning and computational social sciences

2020-02-08

Link Mining- Models, Algorithms, and Applications

由数据挖掘领域三大牛人Jiawei Han, Philip S. Yu, Christos Faloutsos主编的链接挖掘书籍

2011-08-26

Social Network Data Analysis

社会网络分析书籍,综述了社会网络分析的最新进展

2011-03-30

Large Text File Viewer LTFViewr

LTFViewr( Large Text File Viewer ) 是专为打开巨大的文本文档而设计的,打开1GB的文档,也不用等待,也不会拖慢系统。

2012-07-26

Mahout in Action

Mahout 入门资料,CF, clustering, classification

2012-09-09

An Introduction to Information Retrieval

经典的信息检索书籍,信息检索导论,原版(英文版)

2011-07-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除