请输入您要查询的百科知识:

 

词条 中日韩越统一表意文字
释义

(CJK Unified Ideographs),目的是要把分别来自中文、日文、韩文中,本质相同、形状一样或稍异的表意文字(主要为汉字,但也有仿汉字如日本国字、韩国独有汉字)于ISO 10646及Unicode标准内赋予相同编码。越南文后来亦加入此计划,所以亦有“CJKV”的称呼。Unicode亦开始收录其仿汉字-喃字。

介绍

概述

ISO 10646 版本 Unicode 版本 新增 置放平面 字数 累计字数

1993 1.0 中日韩统一表意文字 基本多文种平面(BMP) 20,902 20,914

位于“表意文字兼容区”中但实则独一的汉字 基本多文种平面 12

2000 3.0 中日韩统一表意文字扩展A区 基本多文种平面 6,582 27,496

2001 3.1 中日韩统一表意文字扩展B区 表意文字补充平面(SIP) 42,711 70,207

2003第一修订版 4.1 HKSCS-2004 及 GB 18030-2000 中仍未加入 ISO 10646 的汉字 基本多文种平面 22 70,229

未有 5.1(预计) 中日韩统一表意文字扩展C区 表意文字补充平面(预计) 4,251 74,480

历史

于1990年代初ISO 10646制订时,来自台湾的代表提出将源自中国的中日韩汉字予以统一(Unify, ISO术语称为认同),可以大量节省编码空间,获其他代表接纳。

字源

最初期统一汉字

最初期的统一汉字(20,902字)字源来自以下字集:

中国大陆的G源

G0:GB 2312-80:6,763字

G1:GB 12345-90:2,352字(含58个香港字和2个吏读字,不包括和G0重覆的字)

G3:GB 7589-87:7,237字

G5:GB 7590-87:7,039字

G7:现代汉语通用字表:642(G0, 1, 3, 5, 8未包括的字)

G8:GB 8565-89:290字(G0, 1, 3, 5未包括的字)

台湾的T源

T1:CNS 11643-1986第一字面:5,401+9字(含9个计量用汉字)

T2:CNS 11643-1986第二字面:7,650字

TE:CNS 11643-1986第十四字面:6,319+239+10(含239个CCCII特字和10个XCCS特字)

日本的J源

J1:JIS X 0208-90:6,335+1字

J2:JIS X 0212-90:5,801字

韩国的K源

K0:KS C 5601-87:4,888字(含268个重见字)

K1:KS C 5657-91:2,856字

以上的来源字集会实施字源分离原则。

另外还有:ANSI Z39.64-1989(EACC)、Big5、CCCII第一面、GB 12052-89、JEF、中国大陆电报码、台湾电报码、Xerox Chinese。这些来源字集不会实施字源分离原则。

很多人以为20,902统一汉字中来自台湾的只是Big5的一万三千多字,其实不然.

扩展A区

扩展A区包含有6,582个新的汉字,位置在 U+3400—U+4DB5。相比起最初期统一汉字,扩展A区多了来自多个来自中国大陆、台湾、新加坡等汉字。

扩展B区

这6千多个汉字分别从以下字典或字集中取得:中国大陆 《康熙字典》5357字(独有1892字)

《汉语大字典》5888字(独有339字)

G3:GB 7589-87 繁体字:2391字

G5:GB 7590-87 繁体字:1226字

G7:120字 GS:新加坡汉字226字 台湾 T3:CNS 11643-1992 第三字面(原本为CNS 11643-1986第十四字面)新加入字元

T4:CNS 11643-1992 第四字面

T5:CNS 11643-1992 第五字面

T6:CNS 11643-1992 第六字面

T7:CNS 11643-1992 第七字面

TF:CNS 11643-1992 第十五字面

日本 JA: Unified Japanese IT Vendors Contemporary Ideographs, 1993

南韩 K2:PKS C 5700-1:1994 K3:PKS C 5700-2:1994

越南 V0:TCVN 5773:1993 V1:TCVN 6056:1995

扩展B区包含有42,711个新的汉字,位置在 U+20000—U+2A6D6。根据ISO/IEC JTC1/SC2/WG2/IRG N777号文件,这四万多个汉字分别从以下字典或字集中取得:

CNS 11643的第4平面到第15平面所收录的30,177个汉字;

在《汉语大字典》中出现的28,914个未收录汉字;

在《康熙字典》中出现的18,486个未收录汉字(包括一个在补遗篇出现汉字);

在北朝鲜的国家标准所收录的5,642个汉字;

在越南的国家标准所收录的4,232个字喃;

HKSCS中出现的1,081个未收录汉字;

《汉语大词典》中出现的553个未收录汉字;

《四库全书》中出现的522个未收录汉字;

日本工业标准的JIS X 0213第3平面及第4平面的302个未收录汉字;

1980年代版本的《辞海》中出现的247个未收录汉字;

大韩民国PKS 5700-3:1998中出现的166个未收录汉字;

《中国大百科全书》中出现的86个未收录汉字;

《辞源》中出现的66个未收录汉字;

北大方正排版系统中出现的65个未收录汉字;

这堆汉字中重复的汉字有不少,所以经过整理之后,总数实际上只有42,711个汉字。

另外,在 U+2F800—U+2FA1D 的位置,放了542个来自台湾的兼容汉字。

Unicode 4.1汉字

为使 Unicode 向下兼容 GB 18030 和香港增补字符集(HKSCS)的所有汉字,而扩展C区又迟迟未能出笼,在 Unicode 4.1 版中引进了14个香港增补字符集的用字和8个 GB 18030 用字。该22字被编于 U+9FA6—U+9FBB 的位置。

另外,在 U+FA70—U+FAD9 的位置,放了106个来自北朝鲜的兼容汉字。

扩展C区按计划,中日韩统一表意文字扩展C区将收录4,251个汉字,包括来自中国大陆、澳门、台湾、日本、越南等尚未被编码的汉字。这些汉字预计会收录在下一版的 Unicode 版本中,位置在 U+2A6E0—U+2B77A。字源分离原则

字源分离原则字源分离原则(Source Separation Rule)是整理中日韩统一表意文字的基础。

由于CJK各地字型多有微妙的差异,如“户”字的第一笔,台湾作撇、中国大陆作点、日本作横,这种程度的差异,理想上是整并为一个字为佳。然而,从之前各种受挫之文字整并计划的经验得知,整合字集与现行通用字集(Big5或国标码)等无法一一对应,是推行整合字集的最大阻碍。

例如,日本的JIS标准同时收录了“剣”字与“剑”字,原本JIS文件里这两个字可以并存,但采用整合字集后反而变成同一个字,会造成使用上的困扰。于是,字源分离原则因而诞生。

字源分离原则是指,在上述所列出之各种字源里,若有任何字集同时收了两种以上的文字字形,则在Unicode中日韩统一表意文字中,也同时收录这些字。这样一来,现行的各种原有字集与Unicode汉字可以一一对应。

由于Unicode中日韩统一表意文字的主要诉求,就是能大幅减少Unicode收录汉字字数,同时尊重各地的习惯字形。但字源分离原则则破坏了“只对字,而不对字形”编码之原则,亦遭受不少批评。

已统一的汉字原则上ISO 10646只对字(Character),而非字形(Glyph)编码。同一字各地可使用自己的标准写法。下例中使用HTML标示同一编码的字在不同地区中的写法(但只是我的电脑提供的字型,未必代表该地区的标准写法)。

没有统一的汉字

有些字只是同一字在不同地区的写法,理应统一,但因为字源分离原则而只好分开编码。值得注意的是字源分离原则由扩展A集 (ExtensionA) 开始已没有使用,原因是CNS中有太多字形非常接近,按 Unicode 标准应该统一的字。这些字只有第一个会编入正式字集(包括Extension A,B,C) 中,其余的编入位于第二辅助平面的表意文字补充兼容区 (Compatibility Ideographs Supplement) 中。

以下是所有摘自ISO/IEC JTC1/SC2/WG2字源分离原则文件之中有的字。

Unicode 字 Unicode 字 Unicode 字

U+4E1F 丢 U+4E22 丢 
 

U+4E48 么 U+5E7A 幺 
 

U+4E89 争 U+722D 争 
 

U+4EDE 仞 U+4EED 仭 
 

U+4F75 并 U+5002 倂 
 

U+4FA3 侣 U+4FB6 侣 
 

U+4FC1 俣 U+4FE3 俣 
 

U+4FDE 俞 U+516A 兪 
 

U+4FF1 俱 U+5036 倶 
 

U+5024 値 U+503C 值 
 

U+5077 偷 U+5078 偷 
 

U+507D 伪 U+50DE 伪 
 

U+514C 兑 U+5151 兑 
 

U+514E 兎 U+5154 兔 
 

U+5156 兖 U+5157 兖 
 

U+518A 册 U+518C 册 
 

U+51C0 净 U+51C8 净 
 

U+51E2 凢 U+51E3 凣 
 

U+5203 刃 U+5204 刄 
 

U+520A 刊 U+520B 刋 
 

U+5220 删 U+522A 删 
 

U+5225 别 U+522B 别 
 

U+5238 券 U+52B5 劵 
 

U+5239 刹 U+524E 刹 
 

U+524F 剏 U+5259 剙 
 

U+525D 剥 U+5265 剥 
 

U+5292 剑 U+5294 劔 
 

U+52FB 匀 U+5300 匀 
 

U+5355 单 U+5358 単 
 

U+5373 即 U+537D 卽 
 

U+5377 卷 U+5DFB 巻 
 

U+53C1 叁 U+53C2 参 
 

U+53C3 参 U+53C4 叄 
 

U+5415 吕 U+5442 吕 
 

U+541E 吞 U+5451 呑 
 

U+5433 吴 U+5434 吴 U+5449 呉

U+5436 呐 U+5450 呐 
 

U+543F 吿 U+544A 告 
 

U+5527 唧 U+559E 喞 
 

U+55A9 喩 U+55BB 喻 
 

U+5618 嘘 U+5653 嘘 
 

U+568F 嚏 U+5694 嚔 
 

U+56EF 国 U+56FD 国 
 

U+5708 圈 U+570F 圏 
 

U+570E 圎 U+5713 圆 
 

U+5716 图 U+5717 圗 
 

U+5759 坙 U+5DE0 巠 
 

U+57D2 埒 U+57D3 埓 
 

U+5848 塈 U+588D 墍 
 

U+5861 塡 U+586B 填 
 

U+5897 増 U+589E 增 
 

U+58EE 壮 U+58EF 壮 
 

U+58FD 寿 U+5900 寿 
 

U+5910 夐 U+657B 敻 
 

U+5932 夲 U+672C 本 
 

U+5965 奥 U+5967 奥 
 

U+5968 奨 U+596C 奖 U+734E 奖

U+5986 妆 U+599D 妆 
 

U+598D 妍 U+59F8 姸 
 

U+59CD 姗 U+59D7 姗 
 

U+59EB 姫 U+59EC 姬 
 

U+5A1B 娱 U+5A2F 娯 U+5A31 娱

U+5A55 婕 U+5AAB 媫 
 

U+5A7E 婾 U+5AAE 偷 
 

U+5AAA 媪 U+5ABC 媪 
 

U+5AAF 妫 U+5B00 妫 
 

U+5B0E 嬎 U+5B14 嬔 
 

U+5B24 嬷 U+5B37 嬷 
 

U+5B73 孳 U+5B76 孶 
 

U+5BAB 宫 U+5BAE 宫 
 

U+5BDB 寛 U+5BEC 宽 
 

U+5BDC 寜 U+5BE7 宁 
 

U+5BDD 寝 U+5BE2 寝 
 

U+5C02 専 U+5C08 专 
 

U+5C06 将 U+5C07 将 
 

U+5C13 尓 U+5C14 尔 
 

U+5C19 尙 U+5C1A 尚 
 

U+5C2A 尪 U+5C2B 尫 
 

U+5C36 尶 U+5C37 尴 
 

U+5C4F 屏 U+5C5B 屛 
 

U+5CE5 峥 U+5D22 峥 
 

U+5DD3 巓 U+5DD4 巅 
 

U+5E21 帡 U+5E32 帲 
 

U+5E2F 帯 U+5E36 带 
 

U+5E76 并 U+5E77 幷 
 

U+5EC4 厩 U+5ECF 廏 
 

U+5F11 弑 U+5F12 弑 
 

U+5F37 强 U+5F3A 强 
 

U+5F39 弹 U+5F3E 弾 
 

U+5F50 彐 U+5F51 彑 
 

U+5F54 彔 U+5F55 录 
 

U+5F59 汇 U+5F5A 彚 
 

U+5F5B 彛 U+5F5C 彝 
 

U+5F5D 彝 U+5F5E 彝 
 

U+5F65 彦 U+5F66 彦 
 

U+5FB3 徳 U+5FB7 德 
 

U+5FB4 征 U+5FB5 征 
 

U+6075 恵 U+60E0 惠 
 

U+6085 悦 U+60A6 悦 
 

U+609E 悞 U+60AE 悮 
 

U+60B3 悳 U+60EA 惪 
 

U+6120 愠 U+614D 愠 
 

U+613C 愼 U+614E 慎 
 

U+6229 戬 U+622C 戬 
 

U+622F 戏 U+6231 戱 
 

U+6236 户 U+6237 户 U+6238 戸

U+623B 戻 U+623E 戾 
 

U+629B 抛 U+62CB 抛 
 

U+629C 抜 U+62D4 拔 
 

U+6329 挩 U+635D 捝 
 

U+633F 挿 U+63D2 插 U+63F7 揷

U+634F 捏 U+63D1 揑 
 

U+635C 捜 U+641C 搜 
 

U+63B2 掲 U+63ED 揭 
 

U+63FA 揺 U+6416 摇 U+6447 摇

U+63FE 揾 U+6435 搵 
 

U+6483 撃 U+64CA 击 
 

U+654E 敎 U+6559 教 
 

U+6553 敓 U+655A 敚 
 

U+65E2 既 U+65E3 旣 
 

U+6602 昂 U+663B 昻 
 

U+665A 晚 U+6669 晩 
 

U+66A8 暨 U+66C1 曁 
 

U+66FD 曽 U+66FE 曾 
 

U+67B4 拐 U+67FA 拐 
 

U+67E5 查 U+67FB 査 
 

U+67F5 栅 U+6805 栅 
 

U+68B2 梲 U+68C1 棁 
 

U+6961 楡 U+6986 榆 
 

U+6982 概 U+69EA 槪 
 

U+6985 榅 U+69B2 榲 
 

U+699D 榝 U+6A27 樧 
 

U+69C7 槇 U+69D9 槙 
 

U+69D8 様 U+6A23 样 
 

U+6A2A 横 U+6A6B 横 
 

U+6B65 步 U+6B69 歩 
 

U+6B72 岁 U+6B73 歳 
 

U+6B7F 殁 U+6B81 殁 
 

U+6BBB 壳 U+6BBC 壳 
 

U+6BC0 毁 U+6BC1 毁 
 

U+6BCE 毎 U+6BCF 每 
 

U+6C32 氲 U+6C33 氲 
 

U+6C5A 污 U+6C61 污 
 

U+6C92 没 U+6CA1 没 
 

U+6D44 浄 U+6DE8 净 
 

U+6D89 涉 U+6E09 渉 
 

U+6D97 涗 U+6D9A 涚 
 

U+6D99 涙 U+6DDA 泪 
 

U+6DE5 渌 U+6E0C 渌 
 

U+6DF8 ?#91; U+6E05 清 
 

U+6E07 渇 U+6E34 渴 
 

U+6E29 温 U+6EAB 温 
 

U+6E88 沩 U+6F59 沩 
 

U+6E89 溉 U+6F11 ?#91; 
 

U+6EDA 滚 U+6EFE 滚 
 

U+6F5B 潜 U+6FF3 濳 
 

U+7028 濑 U+702C 瀬 
 

U+70BA 为 U+7232 为 
 

U+712D 焭 U+7162 茕 
 

U+7155 煕 U+7199 熙 
 

U+7174 煴 U+7185 熅 
 

U+72B6 状 U+72C0 状 
 

U+7464 瑶 U+7476 瑶 
 

U+74F6 瓶 U+7501 甁 
 

U+7522 产 U+7523 产 
 

U+75E9 痩 U+7626 瘦 
 

U+76A1 皡 U+76A5 皥 
 

U+771E 眞 U+771F 真 
 

U+773E 众 U+8846 众 
 

U+7814 研 U+784F 硏 
 

U+797F 禄 U+7984 禄 
 

U+79BF 秃 U+79C3 秃 
 

U+7A05 税 U+7A0E 税 
 

U+7A42 穂 U+7A57 穗 
 

U+7B5D 筝 U+7B8F 筝 
 

U+7BB3 箳 U+7C08 簈 
 

U+7BE1 篡 U+7C12 簒 
 

U+7CA4 粤 U+7CB5 粤 
 

U+7D55 绝 U+7D76 绝 
 

U+7DA0 绿 U+7DD1 绿 
 

U+7DD2 绪 U+7DD6 緖 
 

U+7DE3 缘 U+7E01 縁 
 

U+7DFC 缊 U+7E15 缊 
 

U+7E48 襁 U+7E66 襁 
 

U+7FAE 羮 U+7FB9 羹 
 

U+7FF6 翶 U+7FFA 翱 
 

U+80FC 胼 U+8141 腁 
 

U+812B 脱 U+8131 脱 
 

U+817D 腽 U+8183 腽 
 

U+8203 舃 U+8204 舄 
 

U+820D 舍 U+820E 舎 
 

U+8216 铺 U+8217 舗 
 

U+8358 荘 U+838A 庄 
 

U+83D1 菑 U+8458 葘 
 

U+8480 蒀 U+8495 蒕 
 

U+848B 蒋 U+8523 蒋 
 

U+848D 蒍 U+853F 蔿 
 

U+8570 蕰 U+8580 薀 
 

U+85AB 薫 U+85B0 熏 
 

U+85F4 蕴 U+860A 蕴 
 

U+865A 虚 U+865B 虚 
 

U+86FB 蜕 U+8715 蜕 
 

U+885B 卫 U+885E 卫 
 

U+886E 衮 U+889E 衮 
 

U+88C5 装 U+88DD 装 
 

U+8A2E 訮 U+8A7D 詽 
 

U+8AAA 说 U+8AAC 说 
 

U+8ACC 諌 U+8AEB 谏 
 

U+8B20 谣 U+8B21 谣 
 

U+8C5C 豜 U+8C63 豣 
 

U+8D70 走 U+8D71 赱 
 

U+8EFF 軿 U+8F27 輧 
 

U+8F1C 辎 U+8F3A 輺 
 

U+8F3C 辒 U+8F40 辒 
 

U+8FBE 达 U+8FD6 迖 
 

U+8FF8 迸 U+902C 逬 
 

U+9059 遥 U+9065 遥 
 

U+90A2 邢 U+90C9 郉 
 

U+90CE 郎 U+90DE 郞 
 

U+90F7 郷 U+9109 乡 U+9115 乡

U+9196 酝 U+919E 酝 
 

U+91A4 醤 U+91AC 酱 
 

U+9203 钘 U+9292 銒 
 

U+92B3 锐 U+92ED 锐 
 

U+9304 录 U+9332 录 
 

U+932C 錬 U+934A 炼 
 

U+93AD 鎭 U+93AE 镇 
 

U+95B1 阅 U+95B2 阅 
 

U+9667 陧 U+9689 陧 
 

U+9751 靑 U+9752 青 
 

U+9759 静 U+975C 静 
 

U+976D 韧 U+9771 靱 
 

U+9839 颓 U+983D 颓 
 

U+984F 颜 U+9854 颜 
 

U+985A 顚 U+985B 颠 
 

U+98EE 飮 U+98F2 饮 
 

U+9905 饼 U+9920 餠 
 

U+99B1 驮 U+99C4 駄 
 

U+99E2 骈 U+9A08 騈 
 

U+9AA9 骩 U+9AAB 骫 
 

U+9AD8 高 U+9AD9 髙 
 

U+9AEA 髪 U+9AEE 发 
 

U+9B2C 鬬 U+9B2D 斗 
 

U+9C1B 鳁 U+9C2E 鳁 
 

U+9CEF 鳯 U+9CF3 凤 
 

U+9D87 鸫 U+9DAB 鶫 
 

U+9DC6 鷆 U+9DCF 鷏 
 

U+9EAA 面 U+9EAB 麫 
 

U+9EBC 么 U+9EBD 么 
 

U+9EC3 黄 U+9EC4 黄 
 

U+9ED1 黑 U+9ED2 黒 
 

随便看

 

百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。

 

Copyright © 2004-2023 Cnenc.net All Rights Reserved
更新时间:2025/2/26 0:08:25