char类型与Unicode

最新推荐文章于 2023-05-17 08:30:00 发布

原创最新推荐文章于 2023-05-17 08:30:00 发布 · 196 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#Java

Java 专栏收录该内容

23 篇文章

订阅专栏

本文通过Java代码演示了Unicode编码在Java中的使用方式。通过几个简单的示例，文章展示了如何将字符转换为Unicode编码，并解释了Unicode编码对于非空字符串的特殊处理方式。


			char tempchar = '我';
			System.out.println(Integer.toHexString((int)tempchar));
			tempchar = 'i';
			System.out.println(Integer.toHexString((int)tempchar));
			String temp = "我i";
			byte[] bb = temp.getBytes("unicode");
			for(byte b:bb){
				System.out.println(Integer.toHexString(b));
			}
			int i = (bb[3]&((1<<8)-1))+((bb[2]&((1<<8)-1))<<8);
			System.out.println(Integer.toHexString(i));
			System.out.println((char)i);

输出


6211
69
fffffffe
ffffffff
62
11
0
69
6211
我

从上面可以看出：
1 Java的char使用unicode编码；
2 Unicode编码解析非空字符串的话，前两位byte总是-2，-1

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

iteye_14679

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

字符类型与Unicode 编码

seaboat——a free boat on the sea.（公众号：远洋号）

04-19

472

本专栏由十年Java开发经验专家编写，本专栏定位于Java基础知识，既适合新手入门又适合老鸟巩固基础知识。一共99节课，每节课只需几毛钱。作者简介：笔名seaboat，擅长工程算法、人工智能算法、自然语言处理、计算机视觉、架构、分布式、高并发、大数据和搜索引擎等方面的技术，大多数编程语言都会使用，但更擅长Java、Python和C++。平时喜欢看书写作、运动、画画。崇尚技术自由，崇尚思想自由。出版书籍：《Tomcat内核设计剖析》、《图解Java并发》、《图解数据结构与算法》、《人工智能原理科普》。 .

编写一个程序，给出汉字“你” “我” “他” 在Unicode表中的位置

qq_53963348的博客

05-11

929

代码如下： public class Main { public static void main(String[] args) { char x = '你', y = '我', z = '他'; System.out.printf("“你”在Unicode中的位置是：%d\n“我”在Unicode中的位置是：%d\n“他”在Unicode中的位置是：%d", (int)x, (int)y, (int)z); } } ...

参与评论您还未登录，请先登录后发表或查看评论

char类型和Unicode编码

PacosonSWJTU的博客

04-10

6994

【0】README 0.1）本文对 char类型和Unicode编码的总结并不完整，仅供参考；【1】char 类型 1）char类型：它用于表示单个字符，通常用来表示字符常量； 2）Unicode编码单元：它可以表示为16进制值，其范围从 \u0000 ~ \uffff；如\u03C0 表示希腊字母 π； 3）转移序列： 3.1）除了可以采用转义序列符 \u 表

java char unicode编码_char类型与Unicode的编码

weixin_42520277的博客

02-27

706

Java的char型是非常独特的，占用两个字节，因为Java中char型采用了Unicode编码。要理解这个问题，我们必须要理解什么是Unicode。世界上存在着多种编码方式，同一个二进制数字可以被解释成不同的符号。因此，要想打开一个文本文件，就必须知道它的编码方式，否则用错误的编码方式解读，就会出现乱码。为什么电子邮件常常出现乱码？就是因为发信人和收信人使用的编码方式不一样。可以想象，如果有一种...

Java中的char类型和Unicode编码方式

m0_37732829的博客

06-02

8861

char类型用于表示单个字符，通常用来表示字符常量。'A'是编码为65所代表的字符常量，而"A"是一个包含字符A的字符串。Unicode编码可以表示为十六进制，范围从\u0000到\uffff。例如：\u005B表示“[”，而\u005D表示“]”。除了使用转义序列符\u表示Unicode代码单元的编码外，还有一些用于表示特殊字符的转义序列符，比如我们常见的"\b、\n、\t、\r"等。所有这些转...

Java第三天——核心技术第三章（1）

weixin_43137176的博客

09-15

153

今天是第三章的学习啦，，，，O _ O 主要讲Java简单程序以及一些基础知识点。一、简单Java应用程序有一阶段没有编写Java的程序了，感觉生疏了很多呢，先来一个简单的程序联系一下吧。 public class FirstExample{ public static void main(String[] args){ ...

Java中char类型与Unicode编码

seabiscuityj的博客

03-08

4159

char是字符型，在Java中规定为2个字节。同样地，目前全球通用的字符集编码Unicode码，最常见的也是用2个字节表示字符。其实，Java中可以通过字符型和整型的相互强制类型转换，实现由字符得出其Unicode码，也可由Unicode码得到对应的字符。示例代码如下： import java.util.Scanner; public class Demo { /** *...

char类型与Unicode编码

12-27

2560

念[/url] Java的char型是非常独特的，占用两个字节，因为Java中char型采用了Unicode编码。要理解这个问题，我们必须要理解什么是Unicode。世界上存在着多种编码方式，同一个二进制数字可以被解释成不同的符号。因此，要想打开一个文本文件，就必须知道它的编码方式，否则用错误的编码方式解读，就会出现乱码。为什么电子邮件常常出现乱码？就是因为发信人和收信人使用的编码方式不一样。可以想象，如果有一种编码，将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码，那

（UNICODE 与非UNICODE导致的问题）CString，TCHAR和CHAR类型的互转.docx

05-23

在C++编程中，特别是在MFC（Microsoft Foundation Classes）库中，`CString`、`TCHAR`和`CHAR`类型扮演着关键的角色，它们之间的转换是解决UNICODE和非UNICODE兼容问题的关键。 `CString`是MFC库提供的一种字符串类...

Java char类型介绍

gao_zhennan的博客

04-14

1万+

char类型表示一个Unicode字符吗？不，严格来说，现在char类型表示一个代码单元。有些Unicode字符需要一个代码单元表示，有些需要两个代码单元表示。

char-info：Unicode字符信息库

02-04

这也反映在库的类型定义文件中。您可以使用以下内容：找出字符所用的语言，例如希腊语（α），拉丁语（a），希伯来语（א）等。无论是标点符号，数字，字母，表情符号，空格标记还是其他它驻留在哪个Unicode...

【004】C++数据类型之字符类型（char）详解

热门推荐

Lion_Long的博客

05-17

1万+

char类型表示单个字符，占用一个字节（8位），范围为-128~ 127或0~255（取决于是否使用有符号类型）。可以使用单引号将字符括起来，例如：‘a’、‘B’、'1’等。还可以使用转义字符表示一些特殊的字符，例如：‘\n’表示换行符、’\t’表示制表符等。char类型变量可以被赋值为字符常量、字符变量和字符表达式等。字符串是由多个字符组成的序列，可以用char数组或string类型表示。char类型也可以用于输入输出操作，例如：cin和cout等。

学习Unicode与char类型串的转换

流风的专栏

10-31

1260

一。Unicode字符串转换char类型串一般有以下几种方法1.调用 WideCharToMultiByte() API； int WideCharToMultiByte ( UINT CodePage, DWORD dwFlags, LPCWSTR lpWideCharStr, int cchWideChar, LPSTR lpM

MouseInfo

学海无涯--Java学习笔记

03-30

504

java.awt 类 MouseInfo java.lang.Object 继承者 java.awt.MouseInfo public class MouseInfo extends Object MouseInfo 提供获取有关鼠标信息的方法，如鼠标指针位置和鼠标按钮数。从以下版本开始： 1.5 方法摘要 static int getNum...

HSSF读取Excel是公式单元格处理

学海无涯--Java学习笔记

01-07

476

HSSF读取Excel [code="java"] case HSSFCell.CELL_TYPE_FORMULA://公式型 //读公式计算值 value = String.valueOf(cell.getNumericCellValue()); if(value.equals("NaN")){//如果获取的数据值为非法值,则转换为获取字符串 value = cell.get...

获取本地 ip (多网卡的情况下)

学海无涯--Java学习笔记

02-16

426

public String getLocalHostName() { String hostName; try { InetAddress addr = InetAddress.getLocalHost(); hostName = addr.getHostAddress(); } catch...

PNG转GIF

学海无涯--Java学习笔记

08-20

396

PNG转GIF，并保留透明部分 [code="java"] public static void convertPNG(File file, File outfile){ List images = new ArrayList(); try{ Iterator imageReaders = ImageIO.getImageReadersByFormatNam...

数字转化为汉字 1243568962=>壹亿肆仟叁佰伍拾陆万捌仟玖佰陆拾贰

学海无涯--Java学习笔记

05-20

385

[code="java"]private String numFormat(int flag, String s) { int sLength = s.length(); // 货币大写形式 String bigLetter[] = { "零", "壹", "贰", "叁", "肆", "伍", "陆", "柒"

Java8 sample code 阅读

学海无涯--Java学习笔记

07-08

323

阅读了jdk1.8.0_05/sample/lambda/BulkDataOperations/src/CSVProcessor.java [code="java"]try (BufferedReader br = new BufferedReader( Files.newBufferedReader(Paths.get(args[args.length - 1...

const char* 转Unicode编码

最新发布

06-28

在 C++ 中将 `const char*` 类型的字符串转换为 Unicode 编码（宽字符，通常是 UTF-16 或 UCS-2），可以通过 Windows API 或标准库函数来实现。以下是几种常见方式： ### 使用 Windows API 实现 ANSI 到 Unicode 的转换在 Windows 平台下，可以使用 `MultiByteToWideChar` 函数进行编码转换。假设输入的 `const char*` 字符串是 ANSI 编码，可将其转换为宽字符字符串。 ```cpp #include <windows.h> #include <string> std::wstring ANSIToUnicode(const std::string& str) { int wstr_size = MultiByteToWideChar(CP_ACP, 0, str.c_str(), -1, NULL, 0); std::wstring wstr(wstr_size, 0); MultiByteToWideChar(CP_ACP, 0, str.c_str(), -1, &wstr[0], wstr_size); return wstr; } ``` 此方法适用于 Windows 平台下的 ANSI 字符串到 Unicode 的转换 [^3]。 --- ### 使用标准 C 库函数 `mbstowcs` 转换如果希望使用更通用的方法而不依赖平台特定的 API，可以使用 `<cstdlib>` 中的 `mbstowcs` 函数进行多字节字符串到宽字符字符串的转换。 ```cpp #include <cstdlib> #include <string> std::wstring ANSIToUnicodeStd(const std::string& str) { size_t len = mbstowcs(nullptr, str.c_str(), 0); std::wstring wstr(len, L'\0'); mbstowcs(&wstr[0], str.c_str(), len + 1); return wstr; } ``` 该方法不依赖于 Windows API，适用于跨平台项目中对 ANSI 字符串的处理 [^2]。 --- ### 使用 ICU 库进行 UTF-8 到 Unicode 的转换若 `const char*` 是 UTF-8 编码的字符串，推荐使用 ICU（International Components for Unicode）库进行转换。ICU 提供了强大的 Unicode 支持，适合处理复杂的国际化需求。 ```cpp #include <unicode/unistr.h> #include <string> std::wstring UTF8ToUnicodeICU(const std::string& str) { icu::UnicodeString ustr = icu::UnicodeString::fromUTF8(str); std::wstring wstr(ustr.length(), L'\0'); ustr.extract(0, ustr.length(), wstr.data()); return wstr; } ``` 此方法适用于需要处理 UTF-8 字符串并转换为 Unicode 的场景 [^1]。 --- ### 在 MFC 中自动转换 CString 和 const char* MFC 中的 `CString` 类已经内置了编码转换机制，例如通过重载赋值运算符支持从 `LPCSTR` 到 Unicode 的自动转换。如果需要手动实现类似的转换逻辑，可以结合上述方法处理。 ```cpp CString strA("你好"); std::wstring wstr = ANSIToUnicodeStd(std::string(CT2A(strA))); // 需要包含 <atlconv.h> ``` 此类操作可用于在非 Unicode 工程中将 `CString` 内部存储的 ANSI 字符串转换为 Unicode 格式。 ---