“大五码”的意思、由来-中文百科全书

简介

大五码（Big5），又称为五大码，是使用繁体中文社群中最常用的电脑汉字字符集标准，共收录13,060个中文字，其中有二字为重覆编码，Big5属中文内码（中文码分为中文内码及中文交换码两类）。Big5虽普及于中国的台湾、香港与澳门等繁体中文通行区，但长期以来并非当地的国家标准，而只是业界标准（de facto standard）。倚天中文系统、Windows等主要系统的字符集都是以Big5为基准，但厂商又各自增删，衍生成多种不同版本。

2003年，Big5被收录到台湾官方标准的附录当中，取得了较正式的地位。这个最新版本被称为Big5-2003。

历史

背景

Big5产生前，研发中文电脑的朱邦复认为这套内码收字过少，在资策会内码会议提出采用他的五万多字的字库。工程师已肯定其技术可行，但在1983年朱邦复被人诬陷，资策会因此放弃其研究成果。在Big5码诞生后，大部分台湾的电脑软件都使用了Big5码，加上后来倚天中文系统的高度普及，使后来的微软 Windows 3.x等亦予以采用。虽然后来台湾还有各种想要取代Big5码，像是倚天中文系统所推行的倚天码、台湾地区中文电脑公会所推动的公会码等，但是由于Big5字码已沿用多年，因此在习惯不易改变的情况下，始终无法成为主流字码。而台湾以后发展的“国家标准中文交换码”（CNS 11643）由于先天所限，必须使用3字节来表示一个汉字，与现行英语软件欠缺相容，所以普及率远远不及Big5码。

初创

“五大码”（Big5)是在1984年由台湾13家厂商与台湾地区财团法人信息工业策进会为五大中文套装软件（宏碁、神通、佳佳、零壹、大众）所设计的中文内码，所以就称为Big5中文内码，虽然五大套装软件并没有成功，但Big5码却深远地影响中文电脑内码，直至今日。“五大码”的英文名称“Big5”后来被人按英文字序译回中文，以致现在有“五大码”和“大五码”两个中文名称。

Big5码的产生，是因为当时台湾不同厂商各自推出不同的编码，如IBM 5550、王安码等，彼此不能兼容；另一方面，台湾当时尚未推出官方的汉字编码，而中国内地所推行的GB 2312编码，亦未有收录繁体字。在这样的时空背景下，为了使台湾早日进入信息时代，所采行的一个计划；同时，这个计划对于以台湾为核心的亚洲汉字圈也产生了久远的影响。

应用

在20世纪90年代初期，当中国内地的电子邮件和转码软件还未普遍之时，在深圳的港商和台商公司亦曾经使用Big5系统，以方便与总部的文件交流、以及避免为内地的办公室再写一套不同内码的系统。现在，除了台湾外，其他使用繁体汉字的地区，如香港、澳门，及使用繁体汉字的海外华人，都普遍使用Big5码。这已经成为繁体中文显示的标准格式。

发展

由于各厂商及政府推出的Big5延伸，彼此互不兼容，造成乱码问题。鉴于Unicode能正确地处理七万多个汉字，近年的操作系统和应用程式（如苹果电脑 Mac OS X 和以 Cocoa API 撰写之程式、Microsoft Windows 2000及之后版本、Microsoft Office 2000及之后版本、Mozilla浏览器、Internet Explorer浏览器、Java 语言等等)，已改用Unicode编码。可惜现时仍有一些旧的软件（如Visual Basic 6、部分Telnet或BBS软件），未能支援Unicode编码，故相信Big5缺字的问题仍会困扰用户一段时间，直至所有程式都能改用Unicode为止。

注释：大五码普遍被认为包含13,053字，但在计算0xA259-0xA261的度量衡单位用字 (兙兛兞兝兡兣嗧瓩糎），再减去重收了两次的“兀”（0xC94A)和“嗀”（0xDDFC)后，应为13,060字。

结构

基本结构

Big5码是一套双字节字符集，使用了双八码储存方法，以两个字节来安放一个字。第一个字节称为“高位字节”，第二个字节称为“低位字节”。“高位字节”使用了0x81-0xFE，“低位字节”使用了0x40-0x7E，及0xA1-0xFE。在Big5的分区中：

0x8140-0xA0FE 保留给使用者自定义字符（造字区）

0xA140-0xA3BF 标点符号、希腊字母及特殊符号，包括在0xA259-0xA261，安放了双音节度量衡单位用字：兙兛兞兝兡兣嗧瓩糎。

0xA3C0-0xA3FE 保留。此区没有开放作造字区用。

0xA440-0xC67E 常用汉字，先按笔划再按部首排序。

0xC6A1-0xC8FE 保留给使用者自定义字符（造字区）

0xC940-0xF9D5 次常用汉字，亦是先按笔划再按部首排序。

0xF9D6-0xFEFE 保留给使用者自定义字符（造字区）

值得留意的是，Big5重复地收录了两个相同的字：“兀、兀”（0xA461及0xC94A)、“嗀、嗀”(0xDCD1及0xDDFC)。

冲码问题

因为低位元字符中包含了编程语言、shell、script 中，字串或命令常会用到的特殊字符，例如0x5C “\\”、0x7C “|”等。“\\” 在许多用途的字串中是当作转义符号又称为跳脱字符，例如 \（换行）、\\r（归位）、\\t（tab）、\\\\（\\本身符号）、\\"（引号）等等。而 “|” 在UNIX操作系统中大多当作命令管线的使用，如 "ls -la | more" 等等。如果在字串中有这些特殊的转义字符，会被程式或直译器解释为特殊用途。但是因为是中文的原因，故无法正确解释为上面所述的行为，因此程式可能会忽略此转义符号或是中断执行。若此，就违反了使用者本来要当成中文字符一部份使用的本意。

在常用字如“功”（0xA55C)、“许”（0xB35C)、“盖”（0xBB5C)、“育”（0xA87C)中时常出现，造成了许多软件无法正确处理以Big5编码的字串或文件。这个问题被戏谑性地人名化，称为“许功盖”或“许盖功”（这三个字都有这种问题）。一般的解决方法，是额外增加“\\”的字符，因为“\\\\”会被解释为“\\”，所以“成功\\因素”这个字串就能无误地被程式当作“成功因素”的字串来处理。但是额外的困扰是，有些输出功能并不会把“\\”当作特殊字符看待，所以有些程式或网页就会错误地常常出现在“许功盖”这些字后面多了“\\”。

私人造字区

在倚天中文系统，以及后来的Windows 3.1、95及98中，定义了四个私人造字区范围：0xFA40-0xFEFE、0x8E40-0xA0FE、0x8140-0x8DFE、0xC6A1-0xC8FE。私人造字区的原意，是供使用者加入本来在编码表中缺少的字符，但当每个使用者都在不同的地方加上不同的字符后，当交换资料时，对方便难以知道某一个编码究竟想表达什么字。

影响

Big5码由于很多日常用字被视为异体字而未收录。很多人，甚至电视台的字幕、报纸的用字习惯都被改变。例如台湾当局“教育部”视“着”为“著”的异体字，故没有收录“着”字。字典中的一些部首用字（如“亠”、“疒”、“辵”、“癶”等）、常见的人名用字（如“堃”（台湾当局“总统府”秘书长游锡堃）、“煊”（台湾当局“财政部长”王建煊）、“栢”（歌手张柏芝）、“喆”（歌手陶喆）等），虽被社会广泛采用，也没有收录到Big5之中。

在中国港澳台地区的因特网上，不难看到人们把游锡堃、王建煊、陶喆等名字，写成为“游锡方方土”、“王建火宣”和“陶吉吉”等写法。电视上有些外国动画的繁体中文字幕中也会看到像“木坚木”（樫木）这样的字。

而“邨”与“着”在香港极为常用。

Big5延伸

非官方Big5延伸

由于Big5码内的万多个字，只是根据台湾地区“教育部”颁布的《常用国字标准字体表》、《次常用国字标准字体表》等用字汇编而成，并没有考虑社会上流通的人名、地名用字、方言用字、化学及生物专业等用字，亦没有放入日语平假名及片假名字母。所以在市面上支援Big5码的软件，有不少都自行在原本的编码外，添加一些符号及用字。

倚天Big5延伸

在倚天中文系统中，为与IBM5550码相容，他们在Big5码添加了以下的字符：

在0xA3C0-0xA3E0，添加了33个控制字符的图象。

罕用符号区。在0xC6A1-0xC875，添加了圆形1-10、括号1-10、小罗马字i-ix等章节符号、一些部首及笔划结构，日语平假名、片假名及俄语使用的西里尔字母。

在0xF9D6-0xF9FE，添加了7个倚天扩充字：碁、銹、恒、裏、墻、粧、嫺和34个表格符号。

这个延伸有时被称为Big5-Eten。由于倚天中文系统是Windows 95推出之前市场占有率最高的中文系统，此延伸是各种非官方延伸当中最重要的一个。

在后期版本的倚天中文系统中，更加入了一些图案和简体中文字，但未被广泛接受。

Code Page 950Windows使用的 Code Page 950 (系引用IBM Big 5码的编码页号Code Page 950，简称 CP950) 之中，只添加了上述0xF9D6-0xF9FE的倚天扩充字及表格符号，并没有加入日文假名字母等其他延伸。

在Windows ME之中，微软首度在0xA3E1加入了欧元(?符号，之后所有 Windows 版本的 Code Page 950 也都有这个符号。

中国海字集“中国海字集”是中国海公司所出品的繁体汉字造字档。它本身虽然是一套商品，但中国海公司很少将之单独贩售，往往是与其他软件一同销售。例如：中国海字集就曾经与《汉书》、《轻松输入法》等一同发售。由于它包括了不少社会上常见的用字、日文假名、和字等，加上曾与Office 97中文版一并发售，所以比起其他官方Big5延伸，更被台湾民众所接受。香港部份BBS网络在香港增补字符集未出现之前，一度以中国海字集为标准。

日和字集“日和字集”乃一香港个人开发的造字档，以兼容香港增补字符集为卖点，为字集中仍没函盖的日本汉字和日该国字作增补，并附有仓颉、速成等输入法作辅助。

Unicode补完计划“Unicode补完计划”前称“BIG5 Extension”，通过修改Microsoft Windows及Mozilla的编码表，从而用户能在网上传递及交换文字。有鉴于“中国海字集”的成功，“Unicode补完计划”第二版采用了“中国海字集”原有的造字，再加上“中国海字集”所欠的部分简体中文字及香港粤语用字，建成一个能在Big5及Unicode之间转换的编码表；该计划目前已推出了64位测试版。

官方Big5延伸

台湾“教育部”造字档

台湾当局“教育部”有它本身的一套造字档，主要给部门内使用，亦有于“教育部”的网上字典使用。

台湾“农委会”常用中文外字集

台湾当局“农业委员会”制定了一套有133个汉字的造字档，其中有84个是鱼字部汉字、7个是鸟字部汉字。

Big5+

中文数位化技术推广委员会(中推会）在1997年推出Big5+，使用了两万多码位，纳入了Unicode 1.1下所有汉字。由于编码使用到的范围超过原先Big5定义（Big5+使用了高字节0x81-0xFE，低字节0x40-0x7E、0x80-0xFE)，无法安装在Microsoft Windows上，现几乎无人使用。

Big-5E

为了使Microsoft Windows使用者可以使用造字档，“行政院”委托中推会再次推出一个补充字集Big-5E(与Big5+并不兼容），共收3954字。它把Big5+不少汉字都去掉，更甚者放弃了倚天延伸字集的假名部分。于是，除了部分被强制使用的当局行政单位外，没有多少人愿意使用Big5E。

Big5-2003

鉴于Big5不是一个官方标准，中推会决定编制一个Big5的定义，并把它放到官方编码CNS 11643的附录里，正式成为官方标准的一部分。在Big5-2003之中，收录了所有在1984年Big5编码的所有字符，另外再加入微软CP950的欧元符号、倚天延伸字集的0xA3C0-0xA3E0、0xC6A1-0xC7F2、0xF9D6-0xF9FE的用字。Big5-2003没有收录行列输入法特殊符号及0xC7F3-0xC875的俄语西里尔字母，理由是以CNS 11643没有这些字符。除此之外，所有倚天延伸全部收录。相对于Big5-2003，最早没有加上任何延伸的Big5则被称为Big5-1984。

香港增补字符集

香港增补字符集：是香港政府基于繁体中文电脑操作环境中最流行的大五码（Big-5）之上扩展的字符集标准，是现时香港的中文资讯交换内码标准。香港增补字符集以前称为《政府通用字库》（GovernmentCommonCharacterSet,简称GCCS），本来只是香港政府内部统一使用的造字档，有三千多字。但由于香港电脑业界不断要求政府迎合本地需要，提出官方的字符集方案，以便与政府进行文件来往，于是香港政府便在1995年把这个内部使用的标准公开。到了1999年，此字集增加到四千多字，并改为现名。字符集所收罗的字，主要包括香港的地名、人名用汉字、粤语汉字及异体字，也有小部份简体字。除此之外，此字符集亦把倚天中文系统收录的日语平假名、片假名及俄语字母包括在内。此字符集由中文界面咨询委员会管理，仍在不断扩编之中。最新版本为2005年5月推出的HKSCS-2004，收录4,941个字符。

字符分类：在HKSCS-2004版本，汉字字符共4500个，其中3353字可在大型的字典（如《汉语大字典》）中查到，包括简化字、异体字、日语汉字等。其余在各大中文字典中查不到的字中，有粤语方言字（有些可在方言字典及学术著作中查到）、人名、公司名、地方名、变形部首、附形、讹字。有些字来自入境事务处、公司注册处、税务局、地政总署。

早期的倚天中文系统、国乔中文系统等对造字缺乏管理，而又没有文字专家的审定，因此当时造字很是混乱，有些甚至可能只是临时使用的“错字”（寻遍各大字典、专书也查不到的字，也作幽灵汉字）；制作这些中文系统的厂商又对字形、字体缺乏认识，有些字会因为字体不同而字形稍有差别，分别编进了两个码位中。又有同一字有系统区及造字区两个码位，有些联绵词只收其一不收其二；这个问题带到了政府通用字库和香港增补字符集中，字集因要反向兼容而跳过了一些码位。

各类符号共441个，有汉字笔形、汉语拼音字母、国际音标符号、汉字符件、画表符号、日本平假名、片假名等。

香港增补字符集在2005年才有画数、部首、粤音等资料给用户参考，还说明方便检索，而非作为规范标准。（汉字的部首在不同的字典中，归部也不尽相同）

编码和Big-5的关系：香港增补字符集当初因为是补充Big-5的收字不足，使用其外字区而发展的，所以受制于Big-5的编码架构，外字的总数最多只能到6217个（每区块157字，有39区块半）。除去已用码位，剩下千余个码位，其中有部分会保留给用户造字。早期的倚天中文系统、国乔中文系统等对造字缺乏管理，而又没有文字专家的审定，因此当时造字很是混乱，有些甚至可能只是临时使用的“错字”（寻遍各大字典、专书也查不到的字，也作幽灵汉字）；制作这些中文系统的厂商又对字形、字体缺乏认识，有些字会因为字体不同而字形稍有差别，分别编进了两个码位中。又有同一字有系统区及造字区两个码位，有些联绵词只收其一不收其二；这个问题带到了政府通用字库和香港增补字符集中，字集因要反向兼容而跳过了一些码位。

Big-5原来的编码，只有汉字、标点、注音符号等字符及少数图形，后来经过台湾厂商的增收，多了7个“倚天字”（即碁、銹、裏、墻、恒、粧、嫺）及日文的假名，最后这批字符又被香港增补字符集收入。

香港增补字符集所使用的Big-5的外字区分几个区段：

“造字区一”（FA40—FEFE)：早期的GCCS字符集已经填满这一段。

“造字区二”（C6A1—C8FE)：倚天用了这段来放日文假名等符号。这些符号在HKSCS1999年的版本被收纳。

“造字区三”（8140—A0FE)：香港增补字符集把这段开头的（8140—84FE)保留给用户，新增的字符只用其余的码位。“厂商造字区”（F9D6—F9FE)：这段开始的七个码位用来存放裏、恒等“倚天字”，之后的码位被微软的繁体中文Windows用来存放制表符号。后来HKSCS1999年版本将之全部收纳。

可是一般提及HKSCS的文件，包括来自香港政府的，都没有注明HKSCS以外的一般繁体字编码（即是Big-5本身）使用哪个版本。Big-5在2003年前就只有一个版本，不会造成混淆，但HKSCS-2004的文件仍没有指定Big-5部份是2003年之后还是之前的版本，虽然到目前为止并没有任何系统使用Big5-2003。

发展

由于各厂商及政府推出的Big5延伸，彼此互不兼容，造成乱码问题。鉴于Unicode能正确地处理七万多个汉字，近年的操作系统和应用程序（如苹果电脑Mac OS X和以CocoaAPI撰写之程序、MicrosoftWindows 2000及之后版本、Microsoft Office2000及之后版本、Mozilla浏览器、Internet Explorer浏览器、Java语言等等），已改用Unicode编码。可惜现时仍有一些旧的软件（如Visual Basic6、部分Telnet或BBS软件），未能支持Unicode编码，故相信Big5缺字的问题仍会困扰用户一段时间，直至所有程序都能改用Unicode为止。

输入

VimIM在Vim环境中，可以直接键入十进制或十六进制Big5码。既不需要启动输入法，也不需要码表。

词条	大五码
释义	BIG-5码是通行于台湾、香港地区的一个繁体字编码方案，俗称“大五码”。地区标准号为：CNS11643，这就是人们讲的BIG-5码。简介历史(背景初创应用发展) 结构(基本结构冲码问题私人造字区) 影响 Big5延伸(非官方Big5延伸官方Big5延伸) 发展输入简介大五码（Big5），又称为五大码，是使用繁体中文社群中最常用的电脑汉字字符集标准，共收录13,060个中文字，其中有二字为重覆编码，Big5属中文内码（中文码分为中文内码及中文交换码两类）。Big5虽普及于中国的台湾、香港与澳门等繁体中文通行区，但长期以来并非当地的国家标准，而只是业界标准（de facto standard）。倚天中文系统、Windows等主要系统的字符集都是以Big5为基准，但厂商又各自增删，衍生成多种不同版本。 2003年，Big5被收录到台湾官方标准的附录当中，取得了较正式的地位。这个最新版本被称为Big5-2003。历史背景 Big5产生前，研发中文电脑的朱邦复认为这套内码收字过少，在资策会内码会议提出采用他的五万多字的字库。工程师已肯定其技术可行，但在1983年朱邦复被人诬陷，资策会因此放弃其研究成果。在Big5码诞生后，大部分台湾的电脑软件都使用了Big5码，加上后来倚天中文系统的高度普及，使后来的微软 Windows 3.x等亦予以采用。虽然后来台湾还有各种想要取代Big5码，像是倚天中文系统所推行的倚天码、台湾地区中文电脑公会所推动的公会码等，但是由于Big5字码已沿用多年，因此在习惯不易改变的情况下，始终无法成为主流字码。而台湾以后发展的“国家标准中文交换码”（CNS 11643）由于先天所限，必须使用3字节来表示一个汉字，与现行英语软件欠缺相容，所以普及率远远不及Big5码。初创 “五大码”（Big5)是在1984年由台湾13家厂商与台湾地区财团法人信息工业策进会为五大中文套装软件（宏碁、神通、佳佳、零壹、大众）所设计的中文内码，所以就称为Big5中文内码，虽然五大套装软件并没有成功，但Big5码却深远地影响中文电脑内码，直至今日。“五大码”的英文名称“Big5”后来被人按英文字序译回中文，以致现在有“五大码”和“大五码”两个中文名称。 Big5码的产生，是因为当时台湾不同厂商各自推出不同的编码，如IBM 5550、王安码等，彼此不能兼容；另一方面，台湾当时尚未推出官方的汉字编码，而中国内地所推行的GB 2312编码，亦未有收录繁体字。在这样的时空背景下，为了使台湾早日进入信息时代，所采行的一个计划；同时，这个计划对于以台湾为核心的亚洲汉字圈也产生了久远的影响。应用在20世纪90年代初期，当中国内地的电子邮件和转码软件还未普遍之时，在深圳的港商和台商公司亦曾经使用Big5系统，以方便与总部的文件交流、以及避免为内地的办公室再写一套不同内码的系统。现在，除了台湾外，其他使用繁体汉字的地区，如香港、澳门，及使用繁体汉字的海外华人，都普遍使用Big5码。这已经成为繁体中文显示的标准格式。发展由于各厂商及政府推出的Big5延伸，彼此互不兼容，造成乱码问题。鉴于Unicode能正确地处理七万多个汉字，近年的操作系统和应用程式（如苹果电脑 Mac OS X 和以 Cocoa API 撰写之程式、Microsoft Windows 2000及之后版本、Microsoft Office 2000及之后版本、Mozilla浏览器、Internet Explorer浏览器、Java 语言等等)，已改用Unicode编码。可惜现时仍有一些旧的软件（如Visual Basic 6、部分Telnet或BBS软件），未能支援Unicode编码，故相信Big5缺字的问题仍会困扰用户一段时间，直至所有程式都能改用Unicode为止。注释：大五码普遍被认为包含13,053字，但在计算0xA259-0xA261的度量衡单位用字 (兙兛兞兝兡兣嗧瓩糎），再减去重收了两次的“兀”（0xC94A)和“嗀”（0xDDFC)后，应为13,060字。结构基本结构 Big5码是一套双字节字符集，使用了双八码储存方法，以两个字节来安放一个字。第一个字节称为“高位字节”，第二个字节称为“低位字节”。“高位字节”使用了0x81-0xFE，“低位字节”使用了0x40-0x7E，及0xA1-0xFE。在Big5的分区中： 0x8140-0xA0FE 保留给使用者自定义字符（造字区） 0xA140-0xA3BF 标点符号、希腊字母及特殊符号，包括在0xA259-0xA261，安放了双音节度量衡单位用字：兙兛兞兝兡兣嗧瓩糎。 0xA3C0-0xA3FE 保留。此区没有开放作造字区用。 0xA440-0xC67E 常用汉字，先按笔划再按部首排序。 0xC6A1-0xC8FE 保留给使用者自定义字符（造字区） 0xC940-0xF9D5 次常用汉字，亦是先按笔划再按部首排序。 0xF9D6-0xFEFE 保留给使用者自定义字符（造字区）值得留意的是，Big5重复地收录了两个相同的字：“兀、兀”（0xA461及0xC94A)、“嗀、嗀”(0xDCD1及0xDDFC)。冲码问题因为低位元字符中包含了编程语言、shell、script 中，字串或命令常会用到的特殊字符，例如0x5C “\\”、0x7C “\|”等。“\\” 在许多用途的字串中是当作转义符号又称为跳脱字符，例如 \（换行）、\\r（归位）、\\t（tab）、\\\\（\\本身符号）、\\"（引号）等等。而 “\|” 在UNIX操作系统中大多当作命令管线的使用，如 "ls -la \| more" 等等。如果在字串中有这些特殊的转义字符，会被程式或直译器解释为特殊用途。但是因为是中文的原因，故无法正确解释为上面所述的行为，因此程式可能会忽略此转义符号或是中断执行。若此，就违反了使用者本来要当成中文字符一部份使用的本意。在常用字如“功”（0xA55C)、“许”（0xB35C)、“盖”（0xBB5C)、“育”（0xA87C)中时常出现，造成了许多软件无法正确处理以Big5编码的字串或文件。这个问题被戏谑性地人名化，称为“许功盖”或“许盖功”（这三个字都有这种问题）。一般的解决方法，是额外增加“\\”的字符，因为“\\\\”会被解释为“\\”，所以“成功\\因素”这个字串就能无误地被程式当作“成功因素”的字串来处理。但是额外的困扰是，有些输出功能并不会把“\\”当作特殊字符看待，所以有些程式或网页就会错误地常常出现在“许功盖”这些字后面多了“\\”。私人造字区在倚天中文系统，以及后来的Windows 3.1、95及98中，定义了四个私人造字区范围：0xFA40-0xFEFE、0x8E40-0xA0FE、0x8140-0x8DFE、0xC6A1-0xC8FE。私人造字区的原意，是供使用者加入本来在编码表中缺少的字符，但当每个使用者都在不同的地方加上不同的字符后，当交换资料时，对方便难以知道某一个编码究竟想表达什么字。影响 Big5码由于很多日常用字被视为异体字而未收录。很多人，甚至电视台的字幕、报纸的用字习惯都被改变。例如台湾当局“教育部”视“着”为“著”的异体字，故没有收录“着”字。字典中的一些部首用字（如“亠”、“疒”、“辵”、“癶”等）、常见的人名用字（如“堃”（台湾当局“总统府”秘书长游锡堃）、“煊”（台湾当局“财政部长”王建煊）、“栢”（歌手张柏芝）、“喆”（歌手陶喆）等），虽被社会广泛采用，也没有收录到Big5之中。在中国港澳台地区的因特网上，不难看到人们把游锡堃、王建煊、陶喆等名字，写成为“游锡方方土”、“王建火宣”和“陶吉吉”等写法。电视上有些外国动画的繁体中文字幕中也会看到像“木坚木”（樫木）这样的字。而“邨”与“着”在香港极为常用。 Big5延伸非官方Big5延伸由于Big5码内的万多个字，只是根据台湾地区“教育部”颁布的《常用国字标准字体表》、《次常用国字标准字体表》等用字汇编而成，并没有考虑社会上流通的人名、地名用字、方言用字、化学及生物专业等用字，亦没有放入日语平假名及片假名字母。所以在市面上支援Big5码的软件，有不少都自行在原本的编码外，添加一些符号及用字。倚天Big5延伸在倚天中文系统中，为与IBM5550码相容，他们在Big5码添加了以下的字符：在0xA3C0-0xA3E0，添加了33个控制字符的图象。罕用符号区。在0xC6A1-0xC875，添加了圆形1-10、括号1-10、小罗马字i-ix等章节符号、一些部首及笔划结构，日语平假名、片假名及俄语使用的西里尔字母。在0xF9D6-0xF9FE，添加了7个倚天扩充字：碁、銹、恒、裏、墻、粧、嫺和34个表格符号。这个延伸有时被称为Big5-Eten。由于倚天中文系统是Windows 95推出之前市场占有率最高的中文系统，此延伸是各种非官方延伸当中最重要的一个。在后期版本的倚天中文系统中，更加入了一些图案和简体中文字，但未被广泛接受。 Code Page 950Windows使用的 Code Page 950 (系引用IBM Big 5码的编码页号Code Page 950，简称 CP950) 之中，只添加了上述0xF9D6-0xF9FE的倚天扩充字及表格符号，并没有加入日文假名字母等其他延伸。在Windows ME之中，微软首度在0xA3E1加入了欧元(?符号，之后所有 Windows 版本的 Code Page 950 也都有这个符号。中国海字集“中国海字集”是中国海公司所出品的繁体汉字造字档。它本身虽然是一套商品，但中国海公司很少将之单独贩售，往往是与其他软件一同销售。例如：中国海字集就曾经与《汉书》、《轻松输入法》等一同发售。由于它包括了不少社会上常见的用字、日文假名、和字等，加上曾与Office 97中文版一并发售，所以比起其他官方Big5延伸，更被台湾民众所接受。香港部份BBS网络在香港增补字符集未出现之前，一度以中国海字集为标准。日和字集“日和字集”乃一香港个人开发的造字档，以兼容香港增补字符集为卖点，为字集中仍没函盖的日本汉字和日该国字作增补，并附有仓颉、速成等输入法作辅助。 Unicode补完计划“Unicode补完计划”前称“BIG5 Extension”，通过修改Microsoft Windows及Mozilla的编码表，从而用户能在网上传递及交换文字。有鉴于“中国海字集”的成功，“Unicode补完计划”第二版采用了“中国海字集”原有的造字，再加上“中国海字集”所欠的部分简体中文字及香港粤语用字，建成一个能在Big5及Unicode之间转换的编码表；该计划目前已推出了64位测试版。官方Big5延伸台湾“教育部”造字档台湾当局“教育部”有它本身的一套造字档，主要给部门内使用，亦有于“教育部”的网上字典使用。台湾“农委会”常用中文外字集台湾当局“农业委员会”制定了一套有133个汉字的造字档，其中有84个是鱼字部汉字、7个是鸟字部汉字。 Big5+ 中文数位化技术推广委员会(中推会）在1997年推出Big5+，使用了两万多码位，纳入了Unicode 1.1下所有汉字。由于编码使用到的范围超过原先Big5定义（Big5+使用了高字节0x81-0xFE，低字节0x40-0x7E、0x80-0xFE)，无法安装在Microsoft Windows上，现几乎无人使用。 Big-5E 为了使Microsoft Windows使用者可以使用造字档，“行政院”委托中推会再次推出一个补充字集Big-5E(与Big5+并不兼容），共收3954字。它把Big5+不少汉字都去掉，更甚者放弃了倚天延伸字集的假名部分。于是，除了部分被强制使用的当局行政单位外，没有多少人愿意使用Big5E。 Big5-2003 鉴于Big5不是一个官方标准，中推会决定编制一个Big5的定义，并把它放到官方编码CNS 11643的附录里，正式成为官方标准的一部分。在Big5-2003之中，收录了所有在1984年Big5编码的所有字符，另外再加入微软CP950的欧元符号、倚天延伸字集的0xA3C0-0xA3E0、0xC6A1-0xC7F2、0xF9D6-0xF9FE的用字。Big5-2003没有收录行列输入法特殊符号及0xC7F3-0xC875的俄语西里尔字母，理由是以CNS 11643没有这些字符。除此之外，所有倚天延伸全部收录。相对于Big5-2003，最早没有加上任何延伸的Big5则被称为Big5-1984。香港增补字符集香港增补字符集：是香港政府基于繁体中文电脑操作环境中最流行的大五码（Big-5）之上扩展的字符集标准，是现时香港的中文资讯交换内码标准。香港增补字符集以前称为《政府通用字库》（GovernmentCommonCharacterSet,简称GCCS），本来只是香港政府内部统一使用的造字档，有三千多字。但由于香港电脑业界不断要求政府迎合本地需要，提出官方的字符集方案，以便与政府进行文件来往，于是香港政府便在1995年把这个内部使用的标准公开。到了1999年，此字集增加到四千多字，并改为现名。字符集所收罗的字，主要包括香港的地名、人名用汉字、粤语汉字及异体字，也有小部份简体字。除此之外，此字符集亦把倚天中文系统收录的日语平假名、片假名及俄语字母包括在内。此字符集由中文界面咨询委员会管理，仍在不断扩编之中。最新版本为2005年5月推出的HKSCS-2004，收录4,941个字符。字符分类：在HKSCS-2004版本，汉字字符共4500个，其中3353字可在大型的字典（如《汉语大字典》）中查到，包括简化字、异体字、日语汉字等。其余在各大中文字典中查不到的字中，有粤语方言字（有些可在方言字典及学术著作中查到）、人名、公司名、地方名、变形部首、附形、讹字。有些字来自入境事务处、公司注册处、税务局、地政总署。早期的倚天中文系统、国乔中文系统等对造字缺乏管理，而又没有文字专家的审定，因此当时造字很是混乱，有些甚至可能只是临时使用的“错字”（寻遍各大字典、专书也查不到的字，也作幽灵汉字）；制作这些中文系统的厂商又对字形、字体缺乏认识，有些字会因为字体不同而字形稍有差别，分别编进了两个码位中。又有同一字有系统区及造字区两个码位，有些联绵词只收其一不收其二；这个问题带到了政府通用字库和香港增补字符集中，字集因要反向兼容而跳过了一些码位。各类符号共441个，有汉字笔形、汉语拼音字母、国际音标符号、汉字符件、画表符号、日本平假名、片假名等。香港增补字符集在2005年才有画数、部首、粤音等资料给用户参考，还说明方便检索，而非作为规范标准。（汉字的部首在不同的字典中，归部也不尽相同）编码和Big-5的关系：香港增补字符集当初因为是补充Big-5的收字不足，使用其外字区而发展的，所以受制于Big-5的编码架构，外字的总数最多只能到6217个（每区块157字，有39区块半）。除去已用码位，剩下千余个码位，其中有部分会保留给用户造字。早期的倚天中文系统、国乔中文系统等对造字缺乏管理，而又没有文字专家的审定，因此当时造字很是混乱，有些甚至可能只是临时使用的“错字”（寻遍各大字典、专书也查不到的字，也作幽灵汉字）；制作这些中文系统的厂商又对字形、字体缺乏认识，有些字会因为字体不同而字形稍有差别，分别编进了两个码位中。又有同一字有系统区及造字区两个码位，有些联绵词只收其一不收其二；这个问题带到了政府通用字库和香港增补字符集中，字集因要反向兼容而跳过了一些码位。 Big-5原来的编码，只有汉字、标点、注音符号等字符及少数图形，后来经过台湾厂商的增收，多了7个“倚天字”（即碁、銹、裏、墻、恒、粧、嫺）及日文的假名，最后这批字符又被香港增补字符集收入。香港增补字符集所使用的Big-5的外字区分几个区段： “造字区一”（FA40—FEFE)：早期的GCCS字符集已经填满这一段。 “造字区二”（C6A1—C8FE)：倚天用了这段来放日文假名等符号。这些符号在HKSCS1999年的版本被收纳。 “造字区三”（8140—A0FE)：香港增补字符集把这段开头的（8140—84FE)保留给用户，新增的字符只用其余的码位。“厂商造字区”（F9D6—F9FE)：这段开始的七个码位用来存放裏、恒等“倚天字”，之后的码位被微软的繁体中文Windows用来存放制表符号。后来HKSCS1999年版本将之全部收纳。可是一般提及HKSCS的文件，包括来自香港政府的，都没有注明HKSCS以外的一般繁体字编码（即是Big-5本身）使用哪个版本。Big-5在2003年前就只有一个版本，不会造成混淆，但HKSCS-2004的文件仍没有指定Big-5部份是2003年之后还是之前的版本，虽然到目前为止并没有任何系统使用Big5-2003。发展由于各厂商及政府推出的Big5延伸，彼此互不兼容，造成乱码问题。鉴于Unicode能正确地处理七万多个汉字，近年的操作系统和应用程序（如苹果电脑Mac OS X和以CocoaAPI撰写之程序、MicrosoftWindows 2000及之后版本、Microsoft Office2000及之后版本、Mozilla浏览器、Internet Explorer浏览器、Java语言等等），已改用Unicode编码。可惜现时仍有一些旧的软件（如Visual Basic6、部分Telnet或BBS软件），未能支持Unicode编码，故相信Big5缺字的问题仍会困扰用户一段时间，直至所有程序都能改用Unicode为止。输入 VimIM在Vim环境中，可以直接键入十进制或十六进制Big5码。既不需要启动输入法，也不需要码表。
随便看	赖小琪赖校族赖歇赖歇尔赖歇努赖歇瑙赖谢瑙赖谢瑙岛赖辛格赖新民赖新明赖新生赖新伟赖新元赖心辉赖兴巴赫赖兴祥赖兴瑙岛赖幸媛赖姓赖雄赖戌播赖旭龙赖学恩赖学连戴凌君戴凡戴凭席戴利戴北方戴升江烈士戴华先烈士戴华清烈士戴南戴南海戴博戴友千烈士戴发思烈士戴发朵烈士戴发里烈士戴叔伦(732-789) 戴叔文烈士戴可大烈士戴可来戴可雄戴名世(1653～1713)　戴君竹戴启发烈士戴和丑烈士戴和勇烈士