判断文件的编码方式

文件编码检测方法

最新推荐文章于 2025-02-18 00:15:00 发布

原创最新推荐文章于 2025-02-18 00:15:00 发布 · 868 阅读

2 ·

CC 4.0 BY-SA版权

本文介绍了一种通过读取文件前几个字节来判断文件编码格式的方法。主要编码格式包括 ANSI、Unicode、Unicode bigendian 和 UTF-8。通过具体示例代码展示了如何使用 C 语言实现这一功能。

 
         /*
        
         功能：实现文件编码格式的判断
        
         通过一个文件的最前面三个字节，可以判断出该的编码类型：
        
         ANSI：　　　　　　　　无格式定义；(第一个字节开始就是文件内容)
        
         Unicode： 　　　　　　前两个字节为FFFE；
        
         Unicode big endian：　前两字节为FEFF；　 
        
         UTF-8：　 　　　　　　前两字节为EFBB，第三字节为BF
        
         */
        
         #include <stdio.h>
        
         #include <stdlib.h>
        
         #include <string.h>
        
         // 读取一个文件的最前面n个字节，并以十六进制形式输出每个字节的值
        
         void 
         readNBytes(
         char 
         *fileName, 
         int 
         n)
        
         {
        
         FILE 
         *fp = 
         fopen
         (fileName, 
         "r"
         );
        
         unsigned 
         char 
         *buf = (unsigned 
         char
         *)
         malloc
         (
         sizeof
         (unsigned 
         char
         )*n);
        
         int 
         i;
        
         if
         (fp == NULL)
        
         {
        
         printf
         (
         "open file [%s] failed.\n"
         , fileName);
        
         return
         ;
        
         }
        
         fread
         (buf, 
         sizeof
         (unsigned 
         char
         ), n, fp);
        
         fclose
         (fp);
        
         printf
         (
         "%s:\t"
         , fileName);
        
         for
         (i = 0; i < n; i++)
        
         {
        
         printf
         (
         "%x\t"
         , buf[i]);
        
         }
        
         printf
         (
         "\n"
         );
        
         free
         (buf);
        
         }
        
         void 
         main()
        
         {
        
         char 
         fileName[][50] = {
         "ansi.txt"
         , 
         "unicode.txt"
         , 
         "ubigendian.txt"
         , 
         "utf8.txt"
         };
        
         int 
         i;
        
         for
         (i = 0; i < 4; i++)
        
         {
        
         // 每个文件中的内容都是：你what123456
        
         readNBytes(fileName[i], 3);
        
         }
        
         }