- 博客(5)
- 收藏
- 关注
原创 Java实现文本查重
对于前面合并后得到的文本的权重向量,大于0的位置1,小于等于0的位置0,就可以得到该文本的SimHash值,以上面提到的[3,4,1,5,-5,1]为例,我们得到[1,1,1,1,0,1]这个bit串,也就是论文中提及的该文本的指纹。对于一个文本,我们计算出了文本分词之后每一个特征词的权重向量,在合并这个阶段,我们把文本所有词向量的权重向量相累加,得到一个新的权重向量,形如[3,4,1,5,-5,1]举个例子,[1,1,1,0,0,0]和[1,1,1,1,1,1]的海明距离就是3。我们要用到海明距离。
2023-09-17 14:35:40
1956
1
原创 Java学习:从入门到精通week3
一.Object类、常用API概述java.lang.Object类是Java语言中的根类,即所有类的父类。它中描述的所有方法子类都可以使用。在对象实例化的时候,最终找的父类就是Object。如果一个类没有特别指定父类, 那么默认则继承自Object类。1.object类1.1toString方法1.2equals方法object中的equals方法(容忍null)2.date类2.1几个常用方法public class Da...
2021-08-03 23:57:24
2085
原创 Java学习:从入门到精通week2
一.类与对象、封装、构造方法1.1.类与对象面向对象思想概述概述Java语言是一种面向对象的程序设计语言,而面向对象思想是一种程序设计思想,我们在面向对象思想的指引下,使用Java语言去设计、开发计算机程序。这里的对象泛指现实中一切事物,每种事物都具备自己的属性和行为。面向对象思想就是在计算机程序设计过程中,参照现实中事物,将事物的属性特征、行为特征抽象出来,描述成计算机事件的设计思想。它区别于面向过程思想,强调的是通过调用对象的行为来实现功能,而不是自己一步一步的去操作实现。1.2特点面向
2021-07-28 23:09:27
1499
原创 Java学习:从入门到精通week1
一.前言、入门程序、常量、变量1.java语言概述1.历史 Java是使用C++开发出来的。1995年,SUN正式推出了Java编程语言。 Java最初的开发模式分为三类:Java SE(2005之前称为J2SE):进行单机版程序的开发,往往是作为基础平台。Java ME(2005之前称为J2ME):进行移动开发的。后来这项开发已经被Android所取代了。Java EE(2005之前称为J2EE):是Java开发的企业版。2.Java主要特征①解释型语言 使用专门..
2021-07-18 17:21:19
748
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人