用java流方式判断文件类型

本文介绍了一个用于识别文件类型的Java程序,通过读取文件头部信息并将其转换为十六进制字符串来匹配预定义的文件类型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

原文:[url]http://rainsilence.iteye.com/blog/842338[/url]


package org.filetype;

/**
* 文件类型枚取
*/
public enum FileType {

/**
* JEPG.
*/
JPEG("FFD8FF"),

/**
* PNG.
*/
PNG("89504E47"),

/**
* GIF.
*/
GIF("47494638"),

/**
* TIFF.
*/
TIFF("49492A00"),

/**
* Windows Bitmap.
*/
BMP("424D"),

/**
* CAD.
*/
DWG("41433130"),

/**
* Adobe Photoshop.
*/
PSD("38425053"),

/**
* Rich Text Format.
*/
RTF("7B5C727466"),

/**
* XML.
*/
XML("3C3F786D6C"),

/**
* HTML.
*/
HTML("68746D6C3E"),

/**
* Email [thorough only].
*/
EML("44656C69766572792D646174653A"),

/**
* Outlook Express.
*/
DBX("CFAD12FEC5FD746F"),

/**
* Outlook (pst).
*/
PST("2142444E"),

/**
* MS Word/Excel.
*/
XLS_DOC("D0CF11E0"),

/**
* MS Access.
*/
MDB("5374616E64617264204A"),

/**
* WordPerfect.
*/
WPD("FF575043"),

/**
* Postscript.
*/
EPS("252150532D41646F6265"),

/**
* Adobe Acrobat.
*/
PDF("255044462D312E"),

/**
* Quicken.
*/
QDF("AC9EBD8F"),

/**
* Windows Password.
*/
PWL("E3828596"),

/**
* ZIP Archive.
*/
ZIP("504B0304"),

/**
* RAR Archive.
*/
RAR("52617221"),

/**
* Wave.
*/
WAV("57415645"),

/**
* AVI.
*/
AVI("41564920"),

/**
* Real Audio.
*/
RAM("2E7261FD"),

/**
* Real Media.
*/
RM("2E524D46"),

/**
* MPEG (mpg).
*/
MPG("000001BA"),

/**
* Quicktime.
*/
MOV("6D6F6F76"),

/**
* Windows Media.
*/
ASF("3026B2758E66CF11"),

/**
* MIDI.
*/
MID("4D546864");

private String value = "";

/**
* Constructor.
*
* @param type
*/
private FileType(String value) {
this.value = value;
}

public String getValue() {
return value;
}

public void setValue(String value) {
this.value = value;
}
}



类型判断核心类


package org.filetype;

import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;

/**
* 文件类型判断类
*/
public final class FileTypeJudge {

/**
* Constructor
*/
private FileTypeJudge() {}

/**
* 将文件头转换成16进制字符串
*
* @param 原生byte
* @return 16进制字符串
*/
private static String bytesToHexString(byte[] src){

StringBuilder stringBuilder = new StringBuilder();
if (src == null || src.length <= 0) {
return null;
}
for (int i = 0; i < src.length; i++) {
int v = src[i] & 0xFF; //java中byte转换int时与0xff进行与运算 ?
String hv = Integer.toHexString(v);
if (hv.length() < 2) {
stringBuilder.append(0);
}
stringBuilder.append(hv);
}
return stringBuilder.toString();
}

/**
* 得到文件头
*
* @param filePath 文件路径
* @return 文件头
* @throws IOException
*/
private static String getFileContent(String filePath) throws IOException {

byte[] b = new byte[28];

InputStream inputStream = null;

try {
inputStream = new FileInputStream(filePath);
inputStream.read(b, 0, 28);
} catch (IOException e) {
e.printStackTrace();
throw e;
} finally {
if (inputStream != null) {
try {
inputStream.close();
} catch (IOException e) {
e.printStackTrace();
throw e;
}
}
}
return bytesToHexString(b);
}

/**
* 判断文件类型
*
* @param filePath 文件路径
* @return 文件类型
*/
public static FileType getType(String filePath) throws IOException {

String fileHead = getFileContent(filePath);

if (fileHead == null || fileHead.length() == 0) {
return null;
}

fileHead = fileHead.toUpperCase();

FileType[] fileTypes = FileType.values();

for (FileType type : fileTypes) {
if (fileHead.startsWith(type.getValue())) {
return type;
}
}

return null;
}
}



测试类


package org.filetype;

public class Test {

/**
* @param args
*/
public static void main(String args[]) throws Exception {
System.out.println(FileTypeJudge.getType("C:\\eclipse-jee-helios-win32.zip"));
}

}


执行测试类,console上显示zip。。


[b]java中byte转换int时为何与0xff进行与运算[/b]

在剖析该问题前请看如下代码
public static String bytes2HexString(byte[] b) {
String ret = "";
for (int i = 0; i < b.length; i++) {
String hex = Integer.toHexString(b[ i ] & 0xFF);
if (hex.length() == 1) {
hex = '0' + hex;
}
ret += hex.toUpperCase();
}
return ret;
}

上面是将byte[]转化十六进制的字符串,注意这里b[ i ] & 0xFF将一个byte和 0xFF进行了与运算,然后使用Integer.toHexString取得了十六进制字符串,可以看出
b[ i ] & 0xFF运算后得出的仍然是个int,那么为何要和 0xFF进行与运算呢?直接 Integer.toHexString(b[ i ]);,将byte强转为int不行吗?答案是不行的.

其原因在于:
1.byte的大小为8bits而int的大小为32bits
2.java的二进制采用的是补码形式

在这里先温习下计算机基础理论

byte是一个字节保存的,有8个位,即8个0、1。
8位的第一个位是符号位,
也就是说0000 0001代表的是数字1
1000 0000代表的就是-1
所以正数最大位0111 1111,也就是数字127
负数最大为1111 1111,也就是数字-128

上面说的是二进制原码,但是在java中采用的是补码的形式,下面介绍下什么是补码

1、反码:
一个数如果是正,则它的反码与原码相同;
一个数如果是负,则符号位为1,其余各位是对原码取反;

2、补码:利用溢出,我们可以将减法变成加法
对于十进制数,从9得到5可用减法:
9-4=5 因为4+6=10,我们可以将6作为4的补数
改写为加法:
9+6=15(去掉高位1,也就是减10)得到5.

对于十六进制数,从c到5可用减法:
c-7=5 因为7+9=16 将9作为7的补数
改写为加法:
c+9=15(去掉高位1,也就是减16)得到5.

在计算机中,如果我们用1个字节表示一个数,一个字节有8位,超过8位就进1,在内存中情况为(100000000),进位1被丢弃。

⑴一个数为正,则它的原码、反码、补码相同
⑵一个数为负,刚符号位为1,其余各位是对原码取反,然后整个数加1

- 1的原码为 10000001
- 1的反码为 11111110
+ 1
- 1的补码为 11111111

0的原码为 00000000
0的反码为 11111111(正零和负零的反码相同)
+1
0的补码为 100000000(舍掉打头的1,正零和负零的补码相同)

Integer.toHexString的参数是int,如果不进行&0xff,那么当一个byte会转换成int时,由于int是32位,而byte只有8位这时会进行补位,
例如补码11111111的十进制数为-1转换为int时变为11111111111111111111111111111111好多1啊,呵呵!即0xffffffff但是这个数是不对的,这种补位就会造成误差。
和0xff相与后,高24比特就会被清0了,结果就对了。

----
Java中的一个byte,其范围是-128~127的,而Integer.toHexString的参数本来是int,如果不进行&0xff,那么当一个byte会转换成int时,对于负数,会做位扩展,举例来说,一个byte的-1(即0xff),会被转换成int的-1(即0xffffffff),那么转化出的结果就不是我们想要的了。

而0xff默认是整形,所以,一个byte跟0xff相与会先将那个byte转化成整形运算,这样,结果中的高的24个比特就总会被清0,于是结果总是我们想要的。
### 如何用 Java 判断文件流的类型 在 Java 中,可以通过多种方式判断文件流的具体 MIME 类型。以下是几种常见的实现方法: #### 方法一:使用 `MimetypesFileTypeMap` 来检测 MIME 类型 Java 提供了一个名为 `javax.activation.MimetypesFileTypeMap` 的工具类,可以用来解析文件名并尝试推断其 MIME 类型。然而,在 Android 平台上可能会遇到一些局限性,比如它可能总是返回 `application/octet-stream`[^1]。 ```java import javax.activation.MimetypesFileTypeMap; public class FileTypeDetector { public static String getMimeType(String fileName) { MimetypesFileTypeMap mimeTypesMap = new MimetypesFileTypeMap(); return mimeTypesMap.getContentType(fileName); } } ``` 如果上述方法无法满足需求,则需要考虑其他更可靠的解决方案。 --- #### 方法二:通过 Tika 库分析文件内容 Apache Tika 是一个强大的库,专门用于识别和提取各种文档中的元数据以及结构化文本。它可以基于文件的实际内容而非仅依赖扩展名来确定 MIME 类型。 引入 Maven 依赖项: ```xml <dependency> <groupId>org.apache.tika</groupId> <artifactId>tika-core</artifactId> <version>2.8.0</version> </dependency> ``` 代码示例: ```java import org.apache.tika.Tika; import java.io.InputStream; public class FileTypeDetectorTika { public static String detectMimeType(InputStream inputStream) throws Exception { Tika tika = new Tika(); return tika.detect(inputStream); // 返回 MIME 类型字符串 } } ``` 此方法的优点在于即使文件没有标准扩展名或者被重命名,仍然能够较为准确地判定其真实类型。 --- #### 方法三:利用 Spring Framework 自带功能 Spring 框架内部也封装了一些实用的方法可以帮助我们完成这项工作。例如,`MediaTypeFactory` 可以根据字节自动推测媒体类型。 添加必要的依赖关系(如果是 Spring Boot 项目则通常已包含): ```xml <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-web</artifactId> </dependency> ``` 实际应用如下所示: ```java import org.springframework.http.MediaType; import org.springframework.util.FileCopyUtils; import org.springframework.web.multipart.MultipartFile; import java.io.IOException; public class MediaTypeExample { public MediaType getMediaType(MultipartFile multipartFile) throws IOException { byte[] bytes = FileCopyUtils.copyToByteArray(multipartFile.getInputStream()); return MediaTypeFactory.getMediaType(multipartFile.getName()).orElse(MediaType.APPLICATION_OCTET_STREAM); } } ``` 需要注意的是,当某些特殊情况下未能成功匹配到确切类型的资源时,默认会退回到通用表示形式即 `application/octet-stream`[^3]。 --- #### 常见问题排查 对于 Hibernate 或者 Elasticsearch 集成场景下发生的异常情况,可能是由于配置不当引起的数据映射失败所致。具体表现为数据库列定义与实体属性之间存在不一致之处,进而触发类似于 “unable to detect content type” 这样的报错提示信息^。 另外还有关于集合字段未正确定义关联关系而导致序列化过程出现问题的情形描述[^2]^。因此建议仔细核查相关部分设置是否合理合法,并确保所使用的第三方组件版本兼容良好无冲突现象发生。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值