词条 | 通用字元集 |
释义 | 定义通用字元集(Universal Character Set,UCS) 是由ISO制定的ISO10646(或称ISO/IEC 10646)标准所定义的字元编码方式,采用4字节编码。 又称Universal Multiple-Octet Coded Character Set,大陆译为通用多八位编码字符集,台湾译为广用多八位元编码字元集。 基本概况通用字元集是所有包括了其他字元集。它保证了与其他字元集的双向相容,即,如果你将任何文本字元串翻译到UCS格式,然後再翻译回原编码,你不会丢失任何信息。 UCS包含了已知语言的所有字元。除了拉丁语、希腊语、斯拉夫语、希伯来语、阿拉伯语、亚美尼亚语、格鲁吉亚语,还包括中文、日文、韩文这样的象形文字,UCS还包括大量的图形、印刷、数学、科学符号。 ISO 10646定义了一个31位的字元集。 ISO 10646-1标准第一次发表于1993年,现在的公开版本是ISO/IEC 10646-1:2000。ISO 10646-2在2001年发表。 UCS不仅给每个字元分配一个代码,而且赋予了一个正式的名字。表示一个UCS或Unicode值的十六进位数通常在前面加上「U+」,例如「U+0041」代表字元「A」。 并不是所有的系统都需要支持像组合字元这样的的先进机制。因此ISO 10646指定瞭如下三种实现级别: 级别1:不支持组合字元和韩语Hangul Jamo字元 级别2:类似于级别1,但在某些文字中,允许一列固定的组合字元,因为如果没有最起码的几个组合字元,UCS就不能完整地表达这些语言。 级别3:支持所有的UCS字元,如,可以在任意一个字元上加上一个箭头或一个tilde Unicode协会公布的Unicode标准包含了ISO 10646-1实现级别3的基本多文种平面。在两个标准里,所有的字元都在相同的位置并且有相同的名字。 ISO 10646标准,就像ISO 8859标准一样,只不过是一个简单的字元集表。它定义了一些编码的别名,指定了一些与标准有关的术语,并包括了规范说明,指定了怎样使用UCS连接其他ISO标准的实现,比如ISO 6429和ISO 2022。还有一些与ISO紧密相关的,比如ISO 14651是关于UCS字元串排序的。 Unicode标准,额外定义了许多与字元有关的语义符号学。Unicode详细说明了绘制某些语言(如阿拉伯语)表达形式的演算 由于Unicode这一名字比较好记,因而它使用更为广泛。不过一般认为,用于打印ISO 10646-1标准的字体在某些方面的质量,要高于Unicode2.0。 区别两者部分样例字形有显著的区别。ISO 10646-1标准同样使用四种不同的风格变体来显示表意文字如中文、日文、韩文(即CJK),但Unicode2.0的表里只有中文的变体。甚至存在「Unicode对日本用户来说不可接受」的传说,尽管这是错误的。 |
随便看 |
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。