
16. 字符集与语言标记
文章平均质量分 68
gzf6
这个作者很懒,什么都没留下…
展开
-
16.1 字符集与 HTTP
每天有上亿的人用数百种语言写着各种文档。为了真正实现万维网的目标,HTTP 要能够传输和处理用多种语言和字母表编写的国际性文档。 本章涵盖网站国际化方面的两个主要问题:字符集编码(character set encoding)和语言标记(language tag)。 HTTP 应用程序使用字符集编码请求和显示不同字母表中的文本,它们使用语言标记根据用户所理解的语言来说明并限制内容。 HTTP 报文中原创 2017-10-31 15:00:37 · 397 阅读 · 0 评论 -
16.2 多语言字符编码入门
本节是对字符系统及其标准的概览。如果读者对字符编码很熟悉,或者对这部分细节不感兴趣,可以直接跳过。 1. 字符集术语 字符:字符是指字母、数字、标点、表意文字(比如汉语)、符号,或其他文本形式的书写“原子”。由统一字符集(Universal Character Set,UCS, 它的非正式的名字是 Unicode3)首创,为多种语言中的很多字符开发了一系列标准化的文本名称,它们常用来便捷地命名字符,原创 2017-10-31 15:03:42 · 820 阅读 · 0 评论 -
16.3 语言标记与 HTTP
语言标记是命名口语的标准化字符串短语。英语的标记是 en,德语的标记是 de,韩语的标记是 ko,等等。语言标记能够描述语 言的地区变种和方言,比如巴西葡萄牙语的标记是pt-BR、美式英语的标记是 en-US,汉语中的湖南话的标记是 zh-xiang。 1. Content-Language 首部 实体的 Content-Language 首部字段描述实体的目标受众语言。如果内容主要是给法语受众的,原创 2017-10-31 15:04:51 · 364 阅读 · 0 评论 -
16.4 国际化的 URI
直到今天,URI 还没有为国际化提供足够的支持。除了少数(定义得很糟的)例外,URI 如今还是由 US-ASCII 字符的一个子集组成的。人们正在努力使主机名和 URL 的路径中能包含更丰富的集合中的字符,但直到现在,这些标准还没有被广泛接受和部署。现在让我们来回顾一下当前的一些尝试。 1. 全球性的可转抄能力与有意义的字符的较量 URI 的设计者们希望世界上每个人都能通过电子邮件、电话、公告板,甚原创 2017-10-31 15:05:54 · 252 阅读 · 0 评论 -
16.5 注意的问题
1. 首部和不合规范的数据 HTTP 首部必须由 US-ASCII 字符集中的字符构成。不过,并不是所有的客户端和服务器都正确地实现了这一点,你可能会时不时收到一些代码值大于 127 的非法字符。 很多 HTTP 应用程序使用操作系统和库例程来处理字符(比如 Unix 中的字符分类库 ctype),但不是所有这些库都支持 ASCII 范围(0 ~ 127)之外的字符代码。 在某些情况下(一般来说,是原创 2017-10-31 15:06:19 · 245 阅读 · 0 评论