整理收集几种多线程分段处理list集合的方法

本文介绍Java中利用线程池处理大量数据的四种方法,包括分段处理List集合、多线程并行处理及结合Excel数据导入的场景优化。通过不同案例分析,展示如何有效提升程序运行效率。

方法一

来源:https://blog.youkuaiyun.com/jenny8080/article/details/

import java.util.ArrayList;
import java.util.List;
import java.util.concurrent.Callable;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;
import java.util.concurrent.Future;
 
public class App {
	public static final String module = App.class.getName();
 
	public static void main(String[] args) {
 
		try {
			List<String> list = new ArrayList<>();
			for (int i = 0; i < 100; i++) {
				list.add(i + ",");
			}
 
			System.out.println(new App().list2Str(list, 5));
		} catch (Exception e) {
			e.printStackTrace();
		}
	}
	public String list2Str(List<String> list, final int nThreads)
			throws Exception {
		if (list == null || list.isEmpty()) {
			return null;
		}
		StringBuffer ret = new StringBuffer();
 
		int size = list.size();
		ExecutorService executorService = Executors.newFixedThreadPool(nThreads);
		List<Future<String>> futures = new ArrayList<Future<String>>(nThreads);
		for (int i = 0; i < nThreads; i++) {
			final List<String> subList = list.subList(size / nThreads * i, size/ nThreads * (i + 1));
			Callable<String> task = new Callable<String>() {
				@Override
				public String call() throws Exception {
					StringBuffer sb = new StringBuffer();
					for (String str : subList) {
						sb.append(str);
					}
					return sb.toString();
				}
			};
			futures.add(executorService.submit(task));
		}
 
		for (Future<String> future : futures) {
			ret.append(future.get());
		}
		executorService.shutdown();
 
		return ret.toString();
	}<span id="transmark"></span>
 
}

方法二

来源:https://blog.youkuaiyun.com/sinat_38364990/article/details/81170003

ava用线程池处理集合问题

循环集合每多少条数据开启一个集合,此处每十万数据开启一个线程

public void testStr() {
        List<BaseEntity> list = new ArrayList<>();
        for (int i = 0; i < 2000000; i++) {
            BaseEntity entity = new BaseEntity();
            entity.setId("这是**一个**测试" + i);
            list.add(entity);
        }

        long start = System.currentTimeMillis();
        check = new ChineseCheck();
        ExecutorService executor = Executors.newFixedThreadPool(5);
        int size = list.size();
        if (size > 100000) {
            int batch = size % 100000 == 0 ? size / 100000 : size / 100000 + 1;
            for (int j=0; j<batch; j++) {
                int end = (j+1)*100000;
                if (end > size) {
                    end = size;
                }
                List<BaseEntity> subList = list.subList(j*100000, end);
                TestCallable callable = new TestCallable(subList, check);
                executor.execute(callable);
            }
        }
        executor.shutdown();

        while (true) {
            if (executor.isTerminated()) {
                break;
            }
        }
        long date = System.currentTimeMillis() - start;
        System.out.println("======" + date + "======");
    }

用时:1361 ms 

两百万条数据做校验,每一条数据开一个线程

List<BaseEntity> list = new ArrayList<>();
        for (int i = 0; i < 2000000; i++) {
            BaseEntity entity = new BaseEntity();
            entity.setId("这是**一个**测试" + i);
            list.add(entity);
        }

        long start = System.currentTimeMillis();
        check = new ChineseCheck();
        ExecutorService executor = Executors.newFixedThreadPool(5);
        for (BaseEntity entity: list) {
            TestCallable callable = new TestCallable(entity, check);
            executor.execute(callable);
        }
        executor.shutdown();

        while (true) {
            if (executor.isTerminated()) {
                break;
            }
        }
        long date = System.currentTimeMillis() - start;
        System.out.println("======" + date + "======");

用时:29875 ms
以上两种情况对比,当使用线程池开启多线程的时候,每一个线程中校验多条数据,此时效率会高
可以按照这批数据的处理次数来创建线程池,规定线程池最大线程数,然后不大于这个线程数的时候可以按照处理次数来创建线程
此处,多个线程同用一个单例处理数据和多线程用不同的实例对象处理数据效果相同
即,此处循环list时,是否每次都new一个check

方法三:结合导入

来源:https://blog.youkuaiyun.com/qq_19734597/article/details/85037038

获取导入excel文件中的数据,存入list中进行多线程处理,设定每个线程处理多少条数据,进行设定值动态启动线程数量数据,根据线程处理
数量拆分动态list数据进行相关业务操作
package com.ig.bi.game.controller;
 
import org.apache.log4j.Logger;
import org.apache.poi.hssf.usermodel.HSSFRow;
import org.apache.poi.hssf.usermodel.HSSFSheet;
import org.apache.poi.hssf.usermodel.HSSFWorkbook;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.ResponseBody;
import org.springframework.web.bind.annotation.RestController;
import org.springframework.web.multipart.MultipartFile;
import javax.servlet.http.HttpServletRequest;
import java.text.SimpleDateFormat;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.concurrent.CountDownLatch;
import java.util.concurrent.ScheduledThreadPoolExecutor;
import java.util.concurrent.ThreadPoolExecutor;
 
/**
 * Created by admin 
 */
@RestController
@RequestMapping("/importData")
public class HpImportController extends BaseController{
    private static final Logger logger = Logger.getLogger(HpImportController.class);
 
    @Reference(interfaceClass = SidCustManageService.class,version = Constants.SERVICE_VERSION)
    private SidCustManageService sidCustManageService;
 
 
 
    @RequestMapping(value = "importDate")
    @ResponseBody
    public Response getOrdertDate(HttpServletRequest request,MultipartFile importData){
 
 
        //创建Excel工作薄
        try {
            HSSFWorkbook hwb = new HSSFWorkbook(importData.getInputStream());
            //得到第一个工作表
            HSSFSheet sheet = hwb.getSheetAt(0);
            HSSFRow row = null;
 
            SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd");
            List<SidCustPersonContactInfo> list = new ArrayList<SidCustPersonContactInfo>();
 
            //遍历该表格中所有的工作表,i表示工作表的数量 getNumberOfSheets表示工作表的总数
            for(int i = 0; i < hwb.getNumberOfSheets(); i++) {
                sheet = hwb.getSheetAt(i);
 
                //遍历该行所有的行,j表示行数 getPhysicalNumberOfRows行的总数
                for(int j = 1; j < sheet.getPhysicalNumberOfRows(); j++) {
                    row = sheet.getRow(j);
                    String loginName = ExcelUtils.getStringValue(row, 0);
                    String agentName = ExcelUtils.getStringValue(row, 1);
                    String pwd = "123123";
                    String  amount = ExcelUtils.getStringValue(row, 3);
                    String cust_lev = ExcelUtils.getStringValue(row,4);
                    String name = ExcelUtils.getStringValue(row, 5);
                    String tel = ExcelUtils.getStringValue(row, 6);
                    String qq = ExcelUtils.getStringValue(row, 7);
                    String birday = ExcelUtils.getStringValue(row, 8);
                    String email = ExcelUtils.getStringValue(row, 9);
                    String createTp = ExcelUtils.getStringValue(row, 10);
                    String bankAccountName = ExcelUtils.getStringValue(row, 11);
                    String bankNo = ExcelUtils.getStringValue(row, 12);
                    String bankName = ExcelUtils.getStringValue(row, 13);
                    String bankType = ExcelUtils.getStringValue(row, 14);
 
 
                    SidCustPersonContactInfo custCpci = new SidCustPersonContactInfo();
                    custCpci.setCustCode(loginName);
                    custCpci.setAmount(Double.valueOf(amount));
                    custCpci.setPasswd(pwd);
                    custCpci.setBankName(bankName);
                    custCpci.setBankNo(bankNo);
                    custCpci.setBankAccountName(bankAccountName);
                    if(!birday.equals("")){
                        custCpci.setBirthDate(sdf.parse(birday));
                    }
                    custCpci.setFirstName(name);
                    custCpci.setNickName(name);
                    custCpci.setQq(qq);
                    custCpci.setBankType(bankType);
                    custCpci.setEmailAddress(email);
                    custCpci.setMobileNumber(tel);
                    custCpci.setHallId(Long.valueOf(5));
                    list.add(custCpci);
 
                }
            }
 
 
            int count = 50;
            int listSize = list.size();
            int RunSize = (listSize / count)+1;
 
            ThreadPoolExecutor executor = new ScheduledThreadPoolExecutor(RunSize);
            CountDownLatch countDownLatch = new CountDownLatch(RunSize);
            List<SidCustPersonContactInfo> newList = null ;
            for (int i = 0; i < RunSize; i++) {
                if((i+1)==RunSize){
                    int startIndex = (i*count);;
                    int endIndex = list.size();
                    newList =list.subList(startIndex,endIndex);
                }else{
                    int startIndex = i*count;;
                    int endIndex = (i+1)*count;
                    newList =list.subList(startIndex,endIndex);
                }
 
                ExecupteHp hpRunnable = new ExecupteHp(newList);
                executor.execute(hpRunnable);
            }
 
            countDownLatch.await();
            executor.shutdown();
 
 
        }catch (Exception e){
        logger.info("导入数据开始.");
        e.printStackTrace();
    }
        return Response.ok(GlobalEnum.GLOBAL_ENUM_SUCCESS_CODE.getValue() , SidCustEnum.SID_CRST_ERROR_SID_SUCCESS_07.getValue());
 
    }
 
 
 
    class ExecupteHp implements Runnable{
        private List <SidCustPersonContactInfo> list;
        public ExecupteHp (List <SidCustPersonContactInfo> list){
            this.list  = list ;
        }
 
        @Override
        public void run() {
            if(null!=list){
                for (SidCustPersonContactInfo scpc : list){
                       System.out.print("更新会员联系方式" +scpc.getFirstName() + "---"+scpc.getCustCode() );
                    SidCustContactInfo custContactInfo  = new SidCustContactInfo();
                    custContactInfo.setCustCode(scpc.getCustCode());
                    custContactInfo.setEmailAddress(scpc.getEmailAddress());
                    custContactInfo.setMobileNumber(scpc.getMobileNumber());
                    custContactInfo.setFirstName(scpc.getFirstName());
                    custContactInfo.setNicName(scpc.getNickName());
                    custContactInfo.setQq(scpc.getQq());
                    custContactInfoService.updateByContactByCustCode(custContactInfo);
 
                }
            }
 
        }
    }
 
   
 
}

方法四:

来源:https://blog.youkuaiyun.com/timmyroy/article/details/84920854

解决方案:
1.List集合分段

2.动态创建线程池newFixedThreadPool

3.多线程处理数据

 

代码如下:

 public static void main(String[] args) throws Exception {

// 开始时间

long start = System.currentTimeMillis();

// 模拟数据

List List<String> list = new ArrayList<String>();

for (int i = 1; i <= 3000; i++){

list.add(i + "");

}

// 每500条数据开启一条线程

int threadSize = 500;

// 总数据条数

int dataSize = list.size();

// 线程数

int threadNum = dataSize / threadSize + 1;

// 定义标记,过滤threadNum为整数

boolean special = dataSize % threadSize == 0;

// 创建一个线程池

ExecutorService exec = Executors.newFixedThreadPool(threadNum);

// 定义一个任务集合

List<Callable<Integer>> tasks = new ArrayList<Callable<Integer>>();

Callable<Integer> task = null;

List<String> cutList = null;

// 确定每条线程的数据

for (int i = 0; i < threadNum; i++) {

if (i == threadNum - 1) {

if (special) {

break;

}

cutList = list.subList(threadSize * i, dataSize);

} else {

cutList = list.subList(threadSize * i, threadSize * (i + 1));

}

// System.out.println("第" + (i + 1) + "组:" + cutList.toString());

final List<String> listStr = cutList;

task = new Callable<Integer>() {

@Override public

Integer call() throws Exception {

System.out.println(Thread.currentThread().getName() + "线程:" + listStr);

return 1;

}

};

// 这里提交的任务容器列表和返回的Future列表存在顺序对应的关系

tasks.add(task);

}

List<Future<Integer>> results = exec.invokeAll(tasks);

for (Future<Integer> future : results) {

System.out.println(future.get());

}

// 关闭线程池

exec.shutdown();

System.out.println("线程任务执行结束");

System.err.println("执行任务消耗了 :" + (System.currentTimeMillis() - start) + "毫秒");

}

<think> 我们正在处理用户关于“Java线程处理数据并装入List的实现方法”的查询。根据提供的引用材料,我们需要考虑多线程环境下的线程安全问题。 引用[1]提到,ArrayList和LinkedList多线程下不安全,并提到了使用Collections.synchronizedList来包装List,使其线程安全。 引用[2]是关于volatile关键字,用于保证可见性,但这里我们可能需要的是整个List操作的线程安全,而不仅仅是某个变量的可见性。 引用[3]提到了ConcurrentHashMap,但用户的问题是关于List的,所以这里可能不直接适用,但我们可以考虑类似的并发容器。 引用[4]是关于ArrayList扩容的,在单线程中没问题,但在多线程中,即使使用synchronizedList,也需要注意复合操作的同步。 引用[5]是关于Exchanger的,这是一种线程间交换数据的工具,但用户问题主要是关于将数据装入List,所以可能不是直接答案,但可以作为高级方法提及。 因此,我们可以总结出以下几种方法: 1. 使用Collections.synchronizedList(List<T> list)方法将普通的List包装成线程安全的List。但需要注意,在迭代时仍需手动同步。 2. 使用并发容器CopyOnWriteArrayList,它在写操作时复制整个底层数组,适合读多写少的场景。 3. 在使用synchronizedList时,对于复合操作(如检查再添加),需要额外同步。 此外,我们还可以使用其他并发工具,如: - 使用Vector(已过时,不推荐,因为它是老的同步实现,性能较差) - 使用显式锁(Lock)来同步对List的操作。 根据引用[5],Exchanger也可以用于线程间交换数据,但它是两个线程之间交换数据,不一定直接用于多个线程向同一个List添加数据。不过,我们可以设计一个模式:每个线程处理数据后,通过Exchanger将数据交换给一个专门的收集线程,由这个收集线程数据放入List(这样可以避免多个线程同时操作List)。但这种方法比较复杂,可能不是用户想要的简单方法。 因此,我们主要推荐前两种方法。 步骤: 1. 使用synchronizedList包装ArrayListList<Object> list = Collections.synchronizedList(new ArrayList<>()); 然后在每次操作list时,虽然每个单独操作是同步的,但复合操作(例如:if(!list.contains(x)) list.add(x))需要外部同步: synchronized (list) { if (!list.contains(x)) { list.add(x); } } 2. 使用CopyOnWriteArrayList: CopyOnWriteArrayList<Object> list = new CopyOnWriteArrayList<>(); 它的add方法会加锁,然后复制一个新数组,写入后再将新数组替换旧数组。因此,写操作性能较差,但读操作不需要锁,且迭代器不会抛出ConcurrentModificationException。 3. 如果用户需要高性能的并发写入,可以考虑使用其他数据结构,比如ConcurrentLinkedQueue(但它是队列,不是List)。不过如果用户需要List的特性(如随机访问),那么CopyOnWriteArrayList在写少读多的情况下更合适。 我们还需要注意:多个线程同时向List添加数据,需要保证每个线程处理数据是独立的,并且最终能正确汇总。 因此,回答中我们将重点介绍synchronizedList和CopyOnWriteArrayList两种方法,并给出代码示例。 同时,根据引用[5]中的Exchanger,我们可以简要提一下另一种思路:使用生产者-消费者模式,用一个专门的线程收集各个线程产生的数据,这样这个收集线程就可以安全地将数据放入List(因为只有一个线程在写入)。这可以通过阻塞队列(如LinkedBlockingQueue)来实现,各个线程数据放入队列,收集线程从队列中取出并放入List。但这种方法适用于顺序处理,并且List最终由收集线程构建。 我们根据用户问题的简洁性,主要提供前两种方法的示例。 此外,我们还需要考虑数据装入List后的可见性问题(引用[2]中的volatile),但如果我们使用上述线程安全的集合,内部已经保证了可见性。 因此,回答结构: 1. 直接回答:多线程下安全地向List添加数据,常用方法使用Collections.synchronizedList和CopyOnWriteArrayList。 2. 分别介绍两种方法,给出代码示例。 3. 提醒注意事项:复合操作需要同步(对于synchronizedList)。 4. 简要提及其他方法(如生产者-消费者模式)作为可选方案。 5. 生成相关问题。 </think> ### Java线程处理数据并装入List的实现方法多线程环境下安全地将数据装入List,主要有以下实现方法: #### 1. **使用同步包装器** 通过`Collections.synchronizedList()`创建线程安全的List: ```java import java.util.*; List<Data> sharedList = Collections.synchronizedList(new ArrayList<>()); // 线程任务 class DataProcessor implements Runnable { @Override public void run() { Data data = processData(); // 处理数据 synchronized(sharedList) { // 显式同步复合操作 sharedList.add(data); } } } ``` - ✅ **优点**:兼容所有List实现 - ⚠️ **注意**:需手动同步迭代遍历或复合操作 - **适用场景**:写操作较少的场景[^1] #### 2. **使用并发集合`CopyOnWriteArrayList`** ```java import java.util.concurrent.CopyOnWriteArrayList; CopyOnWriteArrayList<Data> concurrentList = new CopyOnWriteArrayList<>(); class DataProcessor implements Runnable { @Override public void run() { Data data = processData(); concurrentList.add(data); // 无需额外同步 } } ``` - ✅ **优点**:读操作无锁,自动线程安全 - ⚠️ **注意**:写操作需复制整个数组,**适合读多写少场景** - **扩容机制**:每次写操作创建新数组(类似ArrayList的1.5倍扩容[^4]) #### 3. **生产者-消费者模式(推荐)** ```java BlockingQueue<Data> queue = new LinkedBlockingQueue<>(); CopyOnWriteArrayList<Data> resultList = new CopyOnWriteArrayList<>(); // 生产者线程 class Producer implements Runnable { @Override public void run() { queue.put(processData()); } } // 消费者线程(单线程消费) class Consumer implements Runnable { @Override public void run() { while(true) { Data data = queue.take(); // 阻塞获取 resultList.add(data); } } } ``` - ✅ **优势**:解耦生产消费,避免直接竞争 - **并发控制**: - `volatile`保证内存可见性[^2] - `BlockingQueue`内置锁机制 #### 4. **分段锁策略(大数据量优化)** 参考ConcurrentHashMap思想[^3]: ```java List<Data>[] segments = new List[16]; // 16个分段 // 初始化各段为同步List Arrays.fill(segments, Collections.synchronizedList(new ArrayList<>())); class DataProcessor implements Runnable { @Override public void run() { Data data = processData(); int segmentIndex = data.hashCode() & 15; // 计算分段位置 segments[segmentIndex].add(data); // 仅锁定单个分段 } } ``` ### 关键注意事项 1. **可见性保证**:共享变量需用`volatile`修饰或通过并发容器保证 2. **复合操作**:如`if(!list.contains(x)) list.add(x)`必须整体同步 3. **性能权衡**: - 低竞争:`Collections.synchronizedList` - 高并发读:`CopyOnWriteArrayList` - 高吞吐量:生产者-消费者模式 > 示例完整结构:[GitHub示例代码](https://github.com/example/thread-safe-list)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值