通过HashCode()方法,去除重复的数据

本文介绍了一种基于HashCode()的文本去重算法,该算法通过比较文件中每行文本的HashCode值来识别并去除重复数据。文章详细展示了算法的实现过程,包括读取文件、存储数据到列表、比较并去除重复项,最后将处理后的数据写入新文件。

package com.page.util;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.util.ArrayList;
import java.util.List;

/**
 * @description 通过HashCode()去除文本文件中的重复数据,使用
 * @author BrinPage
 * @Date 2012.07.14
 * @time 18:35:00
 */
public class UDB {
    private static BufferedReader reader = null;
    private static FileWriter writer = null;
    private static File file = null;
    private static List<String> list = null;
    
    /**
     * @description 通过HashCode()的比较,去除重复数据方法
     * @param filePath1
     * @param filePath2
     */
    public void retrievalRepeat(String filePath1, String filePath2){
        file = new File(filePath1);
        list = new ArrayList<String>();
        try {
            InputStream in = new FileInputStream(file);
            reader = new BufferedReader(new InputStreamReader(in));
            writer = new FileWriter(filePath2, true);
            String s = null;
            s = reader.readLine();
            while(s != null){
                list.add(s);
                s = reader.readLine();
            }
            
            /*
             * 统计原始数据量
             */
            System.out.println(list.size());
            
            for(int i = 0; i < list.size(); i ++){
                for(int j = i + 1; j < list.size(); j ++){
                    if(list.get(i).hashCode() == list.get(j).hashCode()){
                        list.remove(j);
                    }
                }
            }
            
            /*
             * 统计去除重复后的数据量(及不重复的数据量)
             */
            System.out.println(list.size());
            
            for(int i = 0; i < list.size(); i ++){
                writer.write(list.get(i));
                writer.write("\r\n");
            }
            writer.flush();
            writer.close();
        } catch (FileNotFoundException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
    
    public static void main(String args[]){
        CurrentTime time = new CurrentTime();
        System.out.println("写入文件数据开始时间:" + time.getCurrentTime());
        UDB udb = new UDB();
        udb.retrievalRepeat("E:\\novel author list.txt", "E:\\novel author.txt");
        System.out.println("写入文件数据结束时间:" + time.getCurrentTime());
    }
}

注:如果变量的HashCode相等,再变量时行equals()方法的比较,从而去除重复的数据

转载于:https://www.cnblogs.com/Jiphen/archive/2012/07/16/2593822.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值