[整理]Symbian OS平台简体汉字编程编码处理

本文详细介绍了在SymbianOS平台上处理简体中文显示时遇到的编码问题及其解决方案,包括如何处理UTF-8和非UTF-8(通常指GBK)编码的字符串。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Symbian OS 平台简体汉字编程编码处理

 

相信大家都在处理 symbian 中文显示的时候遇到了编码的问题,我现在就给总结一下这种问题的解决方法:

字符串编码中文表示常用的有: GB2312,GBK,Unicode,UTF-8

其中 GBK GB2312 的超集,也就是涵盖了 GB2312 编码的所有内容;

UTF-8 Unicode 的在网络传输中的一种编码格式。

如果我们使用 vc 做为开发工具,在 win 下面进行开发,那么 win 的默认字符集是 GBK 的;由于中文资源文件采用 UTF-8 存储,所以也有种情况是将代码文件也采用用 UTF-8 编码(目前我们在 Carbide 上就是这样做的)。然而 symbian 系统默认的编码方式却是 Unicode ,所以说直接写在程序里面的汉字在手机上显示的时候 , 就会变成乱码。

以下对 S60 应用处理简体汉字编码情况分为两大类即 UTF-8 和非 UTF-8 (通称 GBK ):

UTF-8 编码字串
1. 资源文件中的 UTF-8 编码字串

理论上 , 从资源文件中获取的字串可以直接用于显示(直接写屏、应用标题、按钮、菜单及各种 UI 控件)和写文件等操作。但关键是:由于 Symbian OS 默认编码与 Windows 等操作系统默认编码不同,所以在 Windows 等环境中编辑资源源文件( .rss .rls .loc )时必须将文件的头部加入 CHARACTER_SET UTF8 设置,并以 UTF-8 编码保存,如此编译后的资源文件字串才能得到正常处理。特别是对于汉字这种非 ASCII 标准字符(这里的 ASCII 标准字符是指单字节编码字符,汉字是扩展的多字节编码字符,一般为 GBK/GB2312 编码)。

能将文件以 UTF-8 编码保存的编辑器有许多(例如 Windows 的记事本),但最好是用一些 16 位的编辑器将以 UTF-8 编码保存的文件开头的 3 个字节长的字节序标记( Byte Order Mark )删除以便编译系统识别(例如 Windows 中命令行的 Edit ),这一点对于 S60 3.0 平台更是如此。(在这里做下延伸,本人在编程中就遇到过类似问题,代码原先用 Utf8 的,后来用记事本打开修改了下,之后存储就多了 3 个字节序的标记,编译时就问题多多了)

2. 程序文件中的 UTF-8 编码字串

同样,程序源文件( .cpp )中的字串默认情况下也不是 UTF-8 编码,如要直接使用也必须以 UTF-8 编码保存程序源文件。例如某程序源文件中:

LIT( KUTF8String, " 简体汉字串 ");

CAknInformationNote* InfoNote;

InfoNote = new ( ELeave ) CAknInformationNote;

InfoNote->ExecuteLD( KUTF8String);

用记事本将此源文件保存为 UTF-8 编码,这样编译后可正常显示,无需编码转换,不过由于编译环境的识别问题需要注意的是:

1). 模拟器平台应用( WINS WINSCW 等)不可将文件开头的字节序标记( Byte Order Mark )删除;

2). 真机平台应用( THUMB ARMI GCCE 等)必须将文件开头的字节序标记( Byte Order Mark )删除。

顺便提一下 Carbide 中简体汉字的处理,重点是修改工程或文件的文本编码方式。对于通过 .inf .mmp 导入的工程(这种方法比较好),只要导入前源文件符合前面以 UTF-8 编码保存的那些要求,就不必修改文本编码方式。而对于新工程,资源源文件中除了加入 CHARACTER_SET UTF8 设置,最好将源文件的文本编码方式改为 UTF-8 ,否则 Carbide 将不按 UTF-8 编码处理文本,显示将不正常。具体方法如下:

1). 右键点击工程文件夹的某个资源源文件 ->properties->Info ,将 Text file ecoding 改为 others 中的 UTF-8

2). 右键点击工程文件夹 ->properties->Info ,将 Text file encoding 改为 others 中的 UTF-8

两者取一即可,只是后一种将使工程所有源文件的文本编码方式变为 UTF-8 。另外需要注意, Carbide 中一旦有文本编码方式的修改,特别是资源源文件,最好重新写入字串,清除( clean )之后再建立应用或运行( build run , 否则上一次的结果仍可能会存在而影响这一次的建立。

. UTF-8 编码字串

如前所述,如果不以 UTF-8 编码保存程序源文件,则程序源文件( .cpp )中的字串即为非 UTF-8 编码字串。要想正常操作,则必须进行编码转换,但不是转换为 UTF-8 编码,而是必须转换成 Unicode (标准的 Unicode 也称 UTF-16 )编码。例如:

_LIT8( KNonUnicodeString, " 简体汉字串 ");

TPtrC8 point8( KNonUnicodeString );

CCnvCharacterSetConverter* converter = CCnvCharacterSetConverter::NewLC();

 

// 一般简体中文 Windows 使用的简体汉字编码是 Gb2312 Gbk ASCII 字符集的扩展 ,

// 也称 ASCI 字符集),所以如果既不是这两者则直接报异常 KErrNotSupported

if(converter ->PrepareToConvertToOrFromL(KCharacterSetIdentifierGbk,

    iEikonEnv->FsSession()) == CCnvCharacterSetConverter::EAvailable )

   {

   }

else if(converter->PrepareToConvertToOrFromL(KCharacterSetIdentifierGb2312,

   iEikonEnv->FsSession()) != CCnvCharacterSetConverter::EAvailable)

  {

   CleanupStack::PopAndDestroy();

   User::Leave( KErrNotSupported ); 

  }

 

// 进行 GBK Unicode 的转换

TInt state=CCnvCharacterSetConverter::KStateDefault;

HBufC* UnicodeString = HBufC::NewL( point8 );

TPtr16 point16 = UnicodeString->Des();

if(CCnvCharacterSetConverter::EErrorIllFormedInput ==

    converter->ConvertToUnicode(point16, point8, state ) )

   {

    CleanupStack::PopAndDestroy();

    User::Leave(KErrArgument); 

    }

CleanupStack::PopAndDestroy(2); // converter UnicodeString

 

UnicodeString 即为 Unicode 编码的字串,可以直接用于显示及写文件等操作。简体汉字串的显示除了编码问题,还要注意字体的选择,特别是对 UI 控件,最好是用 LatinBold12() 2 版), AknLayoutUtils::FontFromId( ELatinBold12 ) 3 版)。简体汉字串显示的相关文档,例程很多,在这里就不多说了。至于文件中读写简体汉字串则要提几点注意:

1. 自己写自己读

借助 Symbian 的文件服务将字串写入文件,一般都是带格式的 , 文件的首字符用来表示紧跟字串的长度和编码,所以不是什么文件都可以读的 , 例如用记事本编辑的文件一般就无法正确读出,除非写对了格式,而这种格式手工写是很烦琐的。所以对于程序内部文件读写,最好是:拿什么写就用什么读,要拿什么读就用什么写。

2.UTF-8 编码简体汉字串读写文件

无论是从资源文件中读取的,还是 .cpp 中定义的 UTF-8 编码字串,都可以直接写直接读,无需编码转换。例如:

// 写文件

_LIT( KFileName, "//private//xxxxxxxx//aTextFile.txt" );

_LIT( KUTF8String, " 简体汉字串 ");

// 或者 HBufC* UTF8String=StringLoader::LoadLC(R_UTF8_RESOURCE_STRING );

 

RFs  FileServerSession;

User::LeaveIfError(FileServerSession.Connect());

RFile file;

if ( file.Replace(FileServerSession, KFileName, EFileWrite ) != KErrNone )

    {

    return;

    }

CleanupClosePushL( file );

 

RFileWriteStream StreamWriteToFile(file);

CleanupClosePushL( StreamWriteToFile );

StreamWriteToFile << KUTF8String;// 或者 StreamWriteToFile << *UTF8String

CleanupStack::PopAndDestroy(2); //file StreamWriteToFile

 

// 读文件

RFs FileServerSession;

RFile file;

User::LeaveIfError(FileServerSession.Connect());

CleanupClosePushL(FileServerSession);

User::LeaveIfError(file.Open(FileServerSession,KHelloFileName, EFileStreamText));

CleanupClosePushL(file);

RFileReadStream StreamReadFromFile(file);

CleanupClosePushL(StreamReadFromFile);

HBufC* StreamData= HBufC::NewLC(StreamReadFromFile, 32);

CleanupStack::PopAndDestroy(3); //file StreamReadFromFile StreamData

FileServerSession.Close();

 

以上得到的 StreamData 可以通过:

CAknInformationNote* InfoNote;

InfoNote = new ( ELeave ) CAknInformationNote;

InfoNote->ExecuteLD( *StreamData )

加以显示验证。

3. UTF-8 编码简体汉字串读写文件

如前所述,非 UTF8 编码简体汉字串必须进行编码转换,主要有两种方法:

1). 将字串转换为 Unicode 编码写入文件后直接读取

// 转换后写文件 前面部分代码跟之前 GBK Unicode 的转换是一样的

_LIT( KFileName, "//private//xxxxxxxx//aTextFile.txt" );

RFs FileServerSession;

User::LeaveIfError(FileServerSession.Connect());

RFile file;

if ( file.Replace(FileServerSession, KFileName, EFileWrite ) != KErrNone )

   {

   return;

   }

CleanupClosePushL( file );

 

_LIT8( KNonUnicodeString, " 简体汉字串 ");

TPtrC8 point8( KNonUnicodeString );

CCnvCharacterSetConverter* converter=CCnvCharacterSetConverter::NewLC();

if( converter->PrepareToConvertToOrFromL(KCharacterSetIdentifierGbk,

   iEikonEnv->FsSession()) == CCnvCharacterSetConverter::EAvailable )

   {

   }

elseif ( converter->PrepareToConvertToOrFromL(KCharacterSetIdentifierGb2312,

   iEikonEnv->FsSession())!= CCnvCharacterSetConverter::EAvailable  )

  {

   CleanupStack::PopAndDestroy();

   User::Leave( KErrNotSupported ); 

  }

 

TInt state=CCnvCharacterSetConverter::KStateDefault;

HBufC* UnicodeString = HBufC::NewL( point8 );

TPtr16 point16 = UnicodeString->Des();

if( CCnvCharacterSetConverter::EErrorIllFormedInput ==

  converter->ConvertToUnicode(point16, point8, state ) )

  {

   CleanupStack::PopAndDestroy();

   User::Leave(KErrArgument); 

  }

 

RFileWriteStream StreamWriteToFile( file );

CleanupClosePushL( StreamWriteToFile );

StreamWriteToFile << *UnicodeString;

CleanupStack::PopAndDestroy(4);//file StreamWriteToFile converter UnicodeString

FileServerSession.Close();

直接读取的方法与 UTF-8 编码简体汉字串读写文件的读文件操作相同。

2). 将字串直接写入文件后再读取转换

直接写文件的方法与 UTF-8 编码简体汉字串读写文件的写文件操作相同。

// 读取后转换 先写文件, GBK 也是 8 位的编码

RFs FileServerSession;

RFile file;

User::LeaveIfError(FileServerSession.Connect());

CleanupClosePushL(FileServerSession);

User::LeaveIfError(file.Open(FileServerSession,KHelloFileName, EFileStreamText));

CleanupClosePushL(file);

RFileReadStream StreamReadFromFile(file);

CleanupClosePushL(StreamReadFromFile);

HBufC* StreamData = HBufC::NewLC(StreamReadFromFile, 32);

HBufC8* StreamData8 = HBufC8::NewLC( StreamData->Length() );

StreamData8->Des().Copy(*StreamData);

 

// 转换 GBK Unicode ,代码跟之前的一样

TPtrC8 point8( *StreamData8 );

CCnvCharacterSetConverter* converter=CCnvCharacterSetConverter::NewLC();

if(converter->PrepareToConvertToOrFromL(KCharacterSetIdentifierGbk,

   iEikonEnv->FsSession()) == CCnvCharacterSetConverter::EAvailable )

  {

  }

else   if ( converter->PrepareToConvertToOrFromL(KCharacterSetIdentifierGb2312,

  iEikonEnv->FsSession())!= CCnvCharacterSetConverter::EAvailable  )

  {

   CleanupStack::PopAndDestroy();

   User::Leave( KErrNotSupported ); 

  }

TInt state=CCnvCharacterSetConverter::KStateDefault;

HBufC* UnicodeString = HBufC::NewL( point8 );

TPtr16 point16 = UnicodeString->Des();

if( CCnvCharacterSetConverter::EErrorIllFormedInput ==

    converter->ConvertToUnicode(point16, point8, state ) )

  {

   CleanupStack::PopAndDestroy();

   User::Leave(KErrArgument); 

  }

 

CleanupStack::PopAndDestroy(6); //file StreamReadFromFile StreamData StreamData8 converter UnicodeString

FileServerSession.Close();

得到的 UnicodeString 也可以通过:

CAknInformationNote* InfoNote;

InfoNote = new ( ELeave ) CAknInformationNote;

InfoNote->ExecuteLD( *UnicodeString );

加以显示验证。()

 

以上代码的集成开发环境为:

Active Perl 5.6.1 build 631

Java Runtime Enviroment v1.5.0_07

CodeWarrior Personal Edition 3.1

S60 3RD EDITION SDK FOR SYMBIAN OS, FOR C++

在以命令行建立的应用中验证正常( WINSCW GCCE )。如果是其它的建立应用方式或 IDE 可能需要做相应的变化,或根本不可行,在这里只是给大家提供一种思路和方法。

总之,简体汉字的处理,最重要的在于对字符编码的掌握,说到底就是要依据不同的编码情况进行相应的编码转换操作。最为理想和不受开发环境影响的方法个人认为是:资源文件法,也就是将字符串以 UTF-8 编码保存在资源源文件中,并设置以 UTF-8 编码去处理。它最为简便,也最为有效,且便于本地化的移植。其它方法只是提供一种参考,一个可行的方案。

其实,本文所讨论的方法不仅仅对简体汉字有效,理论上对所有非 ANSII 标准字符都适用。

补记一:字节序标记( Byte Order Mark

BOM(Byte Order Mark) ,是在 Unicode 标准( UTF-16 )引入后,对于 Unicode 纯文本文件判断其比特顺序的标记,在 UTF-16 Little Endian 字节序下为( 0xFF 0xFE ),在 UTF-16 Big Endian 下为( 0xFE 0xFF );如果进行相应的 UTF-16 UTF-8 转换,该处两个字节会被处理成为三个字节的 UTF-8 编码字节序标记。(在 Windows 系统中是小端字节序的,所以保存为 UTF16 BOM 的前面字节序为 0xFF 0xFE ;同理 UTF-8 Windows 小端字节序下为 0xEF 0xBB 0xBF )。

 

补记二:网上流传的 GBK Unicode 互转函数

代码中添加头文件

#include <charconv.h>        //  for char set convert GBK - Unicode

mmp 里面添加

LIBRARY         charconv.lib    // for GBK to Unicode converter

这两步完成后,将下面的这两个函数就可以正常编译和使用了。

//GBK Unicode

void ConvGbk2Uni(TDesC8& original, TDes& res)

       {

       RFs fileServerSession;

       aFileServerSession.Connect();

       CCnvCharacterSetConverter* converter=CCnvCharacterSetConverter::NewLC();

      

       if(converter->PrepareToConvertToOrFromL(KCharacterSetIdentifierGbk, aFileServerSession) != CCnvCharacterSetConverter::EAvailable)

              {

              User::Leave(KErrNotSupported);

              }

      

       TInt state=CCnvCharacterSetConverter::KStateDefault;

       TPtrC8 str(original);

       HBufC* iInfoText = HBufC::NewL(str.Length());

       TPtr16 ptr = iInfoText->Des();

       if(CCnvCharacterSetConverter::EErrorIllFormedInput == converter->ConvertToUnicode(ptr, str, state))

              {

              User::Leave(KErrArgument);

              }

      

       res.Zero();

       res.Copy(ptr);

       fileServerSession.Close();

       CleanupStack::PopAndDestroy();

       delete iInfoText;

       }

 

//Unicode GBK ,也许有些人觉得没必要转 GBK 但是数据库中文排序之类的就需要

void ConvUni2Gbk(TDesC& original, TDes8& res)

       {

       TInt state=CCnvCharacterSetConverter::KStateDefault ;

       CCnvCharacterSetConverter* iConv ;

       iConv = CCnvCharacterSetConverter::NewLC();

       if(iConv->PrepareToConvertToOrFromL(KCharacterSetIdentifierGbk,

                     iEikonEnv->FsSession())!=CCnvCharacterSetConverter::EAvailable)

              {

              User::Leave(KErrNotSupported);

              }

       iConv->ConvertFromUnicode(res, original, state) ;

       CleanupStack::PopAndDestroy();

       }

 

具体的使用方法:

TBuf8<20> title8 ;

TBuf<20>  title16 ;

TBuf8<20>  msg8 ;

TBuf<20>   msg16 ;

title8.Format(_L8(" 友情提示 ")) ;

ConvGbk2Uni(title8, title16) ;

msg8.Format(_L8(" 谢谢您的使用 ")) ;

ConvGbk2Uni(msg8, msg16) ;

现在 title16 msg16 里面都存放的是 16 位的 unicode 中文字符串了,

 

本文是对网上两篇文档的合并,具体见下面链接

http://my.sdlgame.com/programming/116-symbian/3175-s60

http://soft6.com/tech/6/60568.html

 

posted on 2008-09-10 20:11 frank.sunny 阅读(1920) 评论(1)   编辑   收藏 引用 所属分类: symbian 开发


FeedBack:

#   re: [整理]Symbian OS平台简体汉字编程编码处理

2008-09-17 17:08 | frank.sunny
自己再来添点东西
中秋上来两天因为这个转换的事情郁闷到了现在,由于开发时用到了2nd版本,而且是C/S架构的,Server在3rd跑得好好的,到了2nd上 运行到PrepareToConvertToOrFromL老是崩溃,后来将mmp中的EPOCSTACKSIZE设成为0x5000程序就ok了,与真 正的CCnvCharacterSetConverter没有关系  回复   更多评论

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值