请输入您要查询的百科知识:

 

词条 通用字元集
释义

定义

 通用字元集(Universal Character Set,UCS)

是由ISO制定的ISO10646(或称ISO/IEC 10646)标准所定义的字元编码方式,采用4字节编码。

又称Universal Multiple-Octet Coded Character Set,大陆译为通用多八位编码字符集,台湾译为广用多八位元编码字元集。

基本概况

通用字元集是所有包括了其他字元集。它保证了与其他字元集的双向相容,即,如果你将任何文本字元串翻译到UCS格式,然後再翻译回原编码,你不会丢失任何信息。

UCS包含了已知语言的所有字元。除了拉丁语、希腊语、斯拉夫语、希伯来语、阿拉伯语、亚美尼亚语、格鲁吉亚语,还包括中文、日文、韩文这样的象形文字,UCS还包括大量的图形、印刷、数学、科学符号。

ISO 10646定义了一个31位的字元集。

ISO 10646-1标准第一次发表于1993年,现在的公开版本是ISO/IEC 10646-1:2000。ISO 10646-2在2001年发表。

UCS不仅给每个字元分配一个代码,而且赋予了一个正式的名字。表示一个UCS或Unicode值的十六进位数通常在前面加上「U+」,例如「U+0041」代表字元「A」。

并不是所有的系统都需要支持像组合字元这样的的先进机制。因此ISO 10646指定瞭如下三种实现级别:

级别1:不支持组合字元和韩语Hangul Jamo字元

级别2:类似于级别1,但在某些文字中,允许一列固定的组合字元,因为如果没有最起码的几个组合字元,UCS就不能完整地表达这些语言。

级别3:支持所有的UCS字元,如,可以在任意一个字元上加上一个箭头或一个tilde

Unicode协会公布的Unicode标准包含了ISO 10646-1实现级别3的基本多文种平面。在两个标准里,所有的字元都在相同的位置并且有相同的名字。

ISO 10646标准,就像ISO 8859标准一样,只不过是一个简单的字元集表。它定义了一些编码的别名,指定了一些与标准有关的术语,并包括了规范说明,指定了怎样使用UCS连接其他ISO标准的实现,比如ISO 6429和ISO 2022。还有一些与ISO紧密相关的,比如ISO 14651是关于UCS字元串排序的。

Unicode标准,额外定义了许多与字元有关的语义符号学。Unicode详细说明了绘制某些语言(如阿拉伯语)表达形式的演算

由于Unicode这一名字比较好记,因而它使用更为广泛。不过一般认为,用于打印ISO 10646-1标准的字体在某些方面的质量,要高于Unicode2.0。

区别

两者部分样例字形有显著的区别。ISO 10646-1标准同样使用四种不同的风格变体来显示表意文字如中文、日文、韩文(即CJK),但Unicode2.0的表里只有中文的变体。甚至存在「Unicode对日本用户来说不可接受」的传说,尽管这是错误的。

随便看

 

百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。

 

Copyright © 2004-2023 Cnenc.net All Rights Reserved
更新时间:2025/2/12 13:43:04