java搭建线程池框架,Java线程池管理及分布式Hadoop调度框架搭建-优快云博客

【编者按】多线程是程序员面试时经常会面对的问题，对多线程概念的掌握和理解水平，也经常被用来衡量一我的的编程实力。不错，普通的多线程已经不容易了，那么当多线程碰到“大象”又会产生什么样的火花？这里咱们为你们分享上海创行科技技术总监严澜的博文——Java线程池管理及分布式Hadoop调度框架搭建。

如下为原文

平时的开发中线程是个少不了的东西，好比tomcat里的servlet就是线程，没有线程咱们如何提供多用户访问呢？不过不少刚开始接触线程的开发工程师却在这个上面吃了很多苦头。怎么作一套简便的线程开发模式框架让你们从单线程开发快速转入多线程开发，这确实是个比较难搞的工程。

那具体什么是线程呢？首先看看进程是什么，进程就是系统中执行的一个程序，这个程序可使用内存、处理器、文件系统等相关资源。例如QQ软件、Eclipse、Tomcat等就是一个exe程序，运行启动起来就是一个进程。为何须要多线程？若是每一个进程都是单独处理一件事情不能多个任务同时处理，好比咱们打开qq只能和一我的聊天，咱们用eclipse开发代码的时候不能编译代码，咱们请求tomcat服务时只能服务一个用户请求，那我想咱们还在原始社会。多线程的目的就是让一个进程可以同时处理多件事情或者请求。好比如今咱们使用的QQ软件能够同时和多我的聊天，咱们用eclipse开发代码时还能够编译代码，tomcat能够同时服务多个用户请求。

线程这么多好处，怎么把单进程程序变成多线程程序呢？不一样的语言有不一样的实现，这里说下java语言的实现多线程的两种方式：扩展java.lang.Thread类、实现java.lang.Runnable接口。

先看个例子，假设有100个数据须要分发而且计算。看下单线程的处理速度：

java

package thread;

import java.util.Vector;

public class OneMain {

public static void main(String[] args) throws InterruptedException {

Vector list = new Vector(100);

for (int i = 0; i < 100; i++) {

list.add(i);

}

long start = System.currentTimeMillis();

while (list.size() > 0) {

int val = list.remove(0);

Thread. sleep(100);//模拟处理

System. out.println(val);

}

long end = System.currentTimeMillis();

System. out.println("消耗 " + (end - start) + " ms");

}

// 消耗 10063 ms

}

再看一下多线程的处理速度，采用了10个线程分别处理：

[java] view plaincopy在CODE上查看代码片派生到个人代码片

package thread;

import java.util.Vector;

import java.util.concurrent.CountDownLatch;

public class MultiThread extends Thread {

static Vector list = new Vector(100);

static CountDownLatch count = new CountDownLatch(10);

public void run() {

while (list.size() > 0) {

try {

int val = list.remove(0);

System.out.println(val);

Thread.sleep(100);//模拟处理

} catch (Exception e) {

// 可能数组越界，这个地方只是为了说明问题，忽略错误

}

count.countDown(); // 删除成功减一

}

public static void main(String[] args) throws InterruptedException {

for (int i = 0; i < 100; i++) {

list.add(i);

}

long start = System.currentTimeMillis();

for (int i = 0; i < 10; i++) {

new MultiThread().start();

}

count.await();

long end = System.currentTimeMillis();

System.out.println("消耗 " + (end - start) + " ms");

}

// 消耗 1001 ms

}

复制代码

你们看到了线程的好处了吧！单线程须要10S，10个线程只须要1S。充分利用了系统资源实现并行计算。也许这里会产生一个误解，是否是增长的线程个数越多效率越高。线程越多处理性能越高这个是错误的，范式都要合适，过了就很差了。须要普及一下计算机硬件的一些知识。咱们的cpu是个运算器，线程执行就须要这个运算器来运行。不过这个资源只有一个，你们就会争抢。通常经过如下几种算法实现争抢cpu的调度：

程序员

队列方式，先来先服务。不论是什么任务来了都要按照队列排队先来后到。

时间片轮转，这也是最古老的cpu调度算法。设定一个时间片，每一个任务使用cpu的时间不能超过这个时间。若是超过了这个时间就把任务暂停保存状态，放到队列尾部继续等待执行。

优先级方式：给任务设定优先级，有优先级的先执行，没有优先级的就等待执行。

这三种算法都有优缺点，实际操做系统是结合多种算法，保证优先级的可以先处理，可是也不能一直处理优先级的任务。硬件方面为了提升效率也有多核cpu、多线程cpu等解决方案。目前看得出来线程增多了会带来cpu调度的负载增长，cpu须要调度大量的线程，包括建立线程、销毁线程、线程是否须要换出cpu、是否须要分配到cpu。这些都是须要消耗系统资源的，由此，咱们须要一个机制来统一管理这一堆线程资源。线程池的理念提出解决了频繁建立、销毁线程的代价。线程池指预先建立好必定大小的线程等待随时服务用户的任务处理，没必要等到用户须要的时候再去建立。特别是在java开发中，尽可能减小垃圾回收机制的消耗就要减小对象的频繁建立和销毁。

以前咱们都是本身实现的线程池，不过随之jdk1.5的推出，jdk自带了java.util.concurrent并发开发框架，解决了咱们大部分线程池框架的重复工做。可使用Executors来创建线程池，列出如下大概的，后面再介绍。

web

newCachedThreadPool创建具备缓存功能线程池

newFixedThreadPool创建固定数量的线程

newScheduledThreadPool创建具备时间调度的线程

有了线程池后有如下几个问题须要考虑：

面试

线程怎么管理，好比新建任务线程。

线程如何中止、启动。

线程除了scheduled模式的间隔时间定时外可否实现精确时间启动。好比晚上1点启动。

线程如何监控，若是线程执行过程当中死掉了，异常终止咱们怎么知道。

考虑到这几点，咱们须要把线程集中管理起来，用java.util.concurrent是作不到的。须要作如下几点：

算法

将线程和业务分离，业务的配置单独作成一个表。

构建基于concurrent的线程调度框架，包括能够管理线程的状态、中止线程的接口、线程存活心跳机制、线程异常日志记录模块。

构建灵活的timer组件，添加quartz定时组件实现精准定时系统。

和业务配置信息结合构建线程池任务调度系统。能够经过配置管理、添加线程任务、监控、定时、管理等操做。

组件图为：

b2329afa26be4a9eaf9f2a71.html

构建好线程调度框架是否是就能够应对大量计算的需求了呢?答案是否认的。由于一个机器的资源是有限的，上面也提到了cpu是时间周期的，任务一多了也会排队，就算增长cpu，一个机器能承载的cpu也是有限的。因此须要把整个线程池框架作成分布式的任务调度框架才能应对横向扩展，好比一个机器上的资源达到瓶颈了，立刻增长一台机器部署调度框架和业务就能够增长计算能力了。好了，如何搭建？以下图：

b2329afa26be4a9eaf9f2a71.html

基于jeeframework咱们封装spring、ibatis、数据库等操做，而且能够调用业务方法完成业务处理。主要组件为：

spring

任务集中存储到数据库服务器

控制中心负责管理集群中的节点状态，任务分发

线程池调度集群负责控制中心分发的任务执行

web服务器经过可视化操做任务的分派、管理、监控。

通常这个架构能够应对经常使用的分布式处理需求了，不过有个缺陷就是随着开发人员的增多和业务模型的增多，单线程的编程模型也会变得复杂。好比须要对1000w数据进行分词，若是这个放到一个线程里来执行，不算计算时间消耗光是查询数据库就须要耗费很多时间。有人说，那我把1000w数据打散放到不一样机器去运算，而后再合并不就好了吗？由于这是个特例的模式，专为了这个需求去开发相应的程序没有问题，可是之后又有其余的海量需求如何办？好比把倒退3年的全部用户发的帖子中发帖子最多的粉丝转发的最高的用户做息时间取出来。又得编一套程序实现，太麻烦！分布式云计算架构要解决的就是这些问题，减小开发复杂度而且要高性能，你们会不会想到一个最近很热的一个框架，hadoop，没错就是这个玩意。hadoop解决的就是这个问题，把大的计算任务分解、计算、合并，这不就是咱们要的东西吗？不过玩过这个的人都知道他是一个单独的进程。不是！他是一堆进程，怎么和咱们的调度框架结合起来？看图说话：

b2329afa26be4a9eaf9f2a71.html

基本前面的分布式调度框架组件不变，增长以下组件和功能：

数据库

改造分布式调度框架，能够把自己线程任务变成mapreduce任务并提交到hadoop集群。

hadoop集群可以调用业务接口的spring、ibatis处理业务逻辑访问数据库。

hadoop须要的数据可以经过hive查询。

hadoop能够访问hdfs/hbase读写操做。

业务数据要及时加入hive仓库。

hive处理离线型数据、hbase处理常常更新的数据、hdfs是hive和hbase的底层结构也能够存放常规文件。

这样，整个改造基本完成。不过须要注意的是架构设计必定要减小开发程序的复杂度。这里虽然引入了hadoop模型，可是框架上开发者仍是隐藏的。业务处理类既能够在单机模式下运行也能够在hadoop上运行，而且能够调用spring、ibatis。减小了开发的学习成本，在实战中慢慢体会就学会了一项新技能。

界面截图：

b2329afa26be4a9eaf9f2a71.html

编程