帮同学做的一个小project

本文介绍了一种基于文本相似度计算的方法,并提供了具体的Java实现。该方法通过去除文本中的特殊字符并比较不同行间的相似度,实现了对文本中重复或相近内容的有效识别。文章还探讨了如何设置阈值来过滤相似度较低的比较结果。
前几天帮同学作了个很小的project,
[quote]Example1. Assume the content of the file is:
abc,def
abc def! ghi jkl?
xyz abc ppp
xyz xyz def
It contains fouro bjects.The first object consists of twotokens abc and def.The last object consists of three tokens xyz, xyz,def.
The similarity between the first object and the second object is 2.If the similarity threshold is 2,the
output of the join should be
01
Note that the following output is wrong.
10
If the threshold is 1,the output should be
01
02
12
03
13
23[/quote]
大体意思就是给定一个文件,里面有上面所说的那种类型的输入,然后你要把.,?!\t"; 这些字符去掉,然后比较每一行的相似度,程序会有一个参数,这个参数就是最小相似度,小于这个相似度的值都不会被打印。

[code]import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.io.*;


public class Data {

/**
* @param args
*/
private int threshold=0;
private final String regex="[\\.,? \\t!]++";
private String file;
private String mode;
private List <String> l=new ArrayList<String>();
private Map<String,List<Integer>> m=new HashMap<String,List<Integer>>();
public int sim(String[] s1,String[] s2){
int frag=0;
for(int i=0;i<s1.length;i++){
for(int j=0;j<s2.length;j++){
if(s1[i].equals(s2[j])){
frag++;
break;
}
}
}
return frag;
}
public void nSSJoin(List<String> l,int threshold){
for(int j=0;j<l.size();j++){
for(int i=j+1;i<l.size();i++){
int s=sim(l.get(j).split(regex),l.get(i).split(regex));
if(s>=threshold){
System.out.println(j+" "+i);
}
}
}
}
public void SSJoin(List<String> l,int threshold){
index(l);
for(int j=0;j<l.size();j++){
for(int i=j+1;i<l.size();i++){
int s=Ssim(l.get(j).split(regex),l.get(i).split(regex),i,j);
if(s>=threshold){
System.out.println(j+" "+i);
}
}
}
}
private int Ssim(String[] strings, String[] strings2,int i,int j) {
// TODO Auto-generated method stub
int tmp=0;
for(int k=0;k<strings.length;k++){
if(m.get(strings[k]).contains(i)){
tmp++;
}
}
return tmp;
}
public void index(List<String> l){
String[] temp1;
for(int i=0;i<l.size();i++){
temp1=l.get(i).split(regex);
for(int j=0;j<temp1.length;j++){
if(m.containsKey(temp1[j])){
m.get(temp1[j]).add(i);
}else{
List <Integer> l1=new ArrayList<Integer>();
l1.add(i);
m.put(temp1[j],l1);
}
}
}
}
public static void main(String[] args) throws IOException {
String inputLine;
Data d= new Data();
// TODO Auto-generated method stub
d.mode=args[0];
d.file=args[1];
d.threshold=Integer.valueOf(args[2]);
BufferedReader br= new BufferedReader(new FileReader(d.file));
while((inputLine=br.readLine())!=null){
d.l.add(inputLine);
}
//d.SSJoin(d.l, d.threshold);
//Map<String, int[]> k=d.index(d.l);
if(d.mode.equals("nSSJoin")){
d.nSSJoin(d.l,d.threshold);
}else if(d.mode.equals("SSJoin")){
d.SSJoin(d.l, d.threshold);
}else{
System.err.println("Mode is error");
}
}

}
[/code]
内容概要:本文介绍了ENVI Deep Learning V1.0的操作教程,重点讲解了如何利用ENVI软件进行深度学习模型的训练与应用,以实现遥感图像中特定目标(如集装箱)的自动提取。教程涵盖了从数据准备、标签图像创建、模型初始化与训练,到执行分类及结果优化的完整流程,并介绍了精度评价与通过ENVI Modeler实现一键化建模的方法。系统基于TensorFlow框架,采用ENVINet5(U-Net变体)架构,支持通过点、线、面ROI或分类图生成标签数据,适用于多/高光谱影像的单一类别特征提取。; 适合人群:具备遥感图像处理基础,熟悉ENVI软件操作,从事地理信息、测绘、环境监测等相关领域的技术人员或研究人员,尤其是希望将深度学习技术应用于遥感目标识别的初学者与实践者。; 使用场景及目标:①在遥感影像中自动识别和提取特定地物目标(如车辆、建筑、道路、集装箱等);②掌握ENVI环境下深度学习模型的训练流程与关键参数设置(如Patch Size、Epochs、Class Weight等);③通过模型调优与结果反馈提升分类精度,实现高效自动化信息提取。; 阅读建议:建议结合实际遥感项目边学边练,重点关注标签数据制作、模型参数配置与结果后处理环节,充分利用ENVI Modeler进行自动化建模与参数优化,同时注意软硬件环境(特别是NVIDIA GPU)的配置要求以保障训练效率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值