请输入您要查询的百科知识:

 

词条 仓颉系统
释义

朱邦复

§ 汉字检索

汉字检索现时汉字的检索,在绝大多数地区都是以读音顺序为主。例如:

日本的汉字检索,以五十音顺序而排列,

韩国的汉字,以韩语字母顺序排列,

中国大陆的汉字,以汉语拼音顺序排列。

中国台湾虽然亦有以注音符号序列作检索,但日常应用仍以部首检字法为主;香港的电话簿虽然亦有提供粤音姓名检索,但日常使用,仍然以部首检字法或纯綷笔划检字法为主,这从现时香港小学的电脑认知课程主要教授九方输入法及仓颉输入法而可得知。

汉字检索的最大问题,是不管用甚么方法来实行,都要面对重码的问题。而重码的出现,亦使汉字检索的顺序产生一个疑问:有没有办法可以让汉字像其他字母系统一样,有一个绝对的检索顺序呢?

§ 仓颉系统方案

仓颉字根朱邦复先生在发展仓颉输入法时,原意是要发展出一套“中文检索法”,使汉字俱有“序位观念”,让汉字都有一个序位,使中文如同拼音文字般,用少少数个“字根”找到所有汉字,而不是单单作输入用途。因此,其26个仓颉输入法的字根“日月金木水火土…止卜”,其实就好像拉丁字母的26个字母“ABCDE…XYZ”、日本语的五十音序等,是一个有序的排列,可用作汉字的检索用途。

采用仓颉输入法作检索法,由于字根都依汉字“形音字”特性分析得来,故若在电脑上运用这套方法,不仅有具有只可作输入汉字用“字码”功能以外,还可以有下列用途:

字序︰“仓颉字根”有一定的排序,故汉字也可如同英语般,有顺位的观念。

字形︰“仓颉字根”可组合任何汉字,并显示电脑萤幕;

字音︰“仓颉字根”所表示“汉字音符”,可作语音用;

字义︰“仓颉字根”所表示“汉字形符”,可供“电脑人”了解人类常识;

字辨︰可把“汉字图档”分析出“仓颉字根”,并组成汉字,可供电脑扫描辨识汉字。

把电脑依上列汉字之六大要素:字码、字序、字辨、字形、字音、字义,综合一体考虑,进而发展出“电脑系统”,称为“仓颉系统”。

§ 解决的问题

在仓颉系统中,仓颉码不仅用来输入,也可以组合、输出字形,甚至呈现出虚构字。仓颉系统可解决下列各种问题:

字序问题:汉字字典依“部首”、“笔划”检索没有效率,兼没“序位”观念,若以仓颉码排序汉字,则汉字的字序分明,人类或电脑程式查找汉字将方便快速许多。没有大五码和统一码字序混乱的缺点。

缺字和储存问题:电脑系统会有缺字问题,除了汉字的编码和查对旷日费时以外,字集的储存空间也是一大考量因素。目前主流的轮廓字体中,TimesNewRoman约占400KB,收字不足1500;新细明体和细明体共约8.6MB,收字不到23000字;标楷体约5.1MB,收字亦不到23000。相较于拼音文字,由于汉字所需的储存空间庞大,许多小型的电子仪器不是无法收入汉字,就是缺字严重,如电子辞典、手机、各式医疗电子仪器等等。

由于仓颉码有字首、字身的讯息,汉字字形产生器可根据输入的仓颉码,把字根自动组合为字形,无需把每个字的字形逐一储存,大大减少所需记忆空间。由于输入输出统一以仓颉处理,取码与输出字形相符。

朱邦复在1995年开发的【汉字字形产生器】是依输入的仓颉码组合成字。该系统本身收录了已存在约六万古今汉字(字首约六百,字身约一万);并且可根据仓颉组字规则类推,依已有的字首、字身组合出“新字”近一千万。此系统共占160KB,在450MHz的电脑上,每秒可产生及显示16×16之字型46000个。字体有明、黑、圆、宋、楷、隶等,并且能任意变化大小、笔划粗细、笔划填充。与当今字集相较,其效率相当惊人。

编码问题:一般的字集编码缺少扩充空间,新字只能加在不同的字面上,不同字面间的汉字排序非常混乱。

仓颉系统采用一个字4字节固定码长的编码策略,一字共5个仓颉码(少于此数则补空码),一码占5位元(26个仓颉码、5个重复字处理码,加上空码共32个,即2的5次方),再加上数个辨识码组成。由于本身留下大量的编码空间,足够随时添加汉字至指定的编码位置(但实务上,若有重码则需另外处理),不同的字形对应的仓颉码也不同,不会有相异字形兼并为同一内码而带来麻烦。

输入问题:由于汉字表意特性强而表音特性弱,很多字没有明确的“标准读音”,或者标准读音常常变化;大多数的罕用字读音也很难被了解,因此音码无法全面解决汉字输入问题。此外,汉字同音字多,音码输入如果用于较大的字集,选字将严重影响效率。

朱邦复认为,中文输入必须要能够处理所有的汉字,因此编码时根据字首、字身分析,以求仓颉码能反映汉字的组合特征。他同时也极力避免重码,这主要是为了编码和排序考量。相对而言,其他形码输入法主要着眼于易学易用及快速,仅针对常用字进行编码,对罕用字处理较粗糙,不是无法输入就是重码率高。

§ 实际应用

朱邦复朱邦复先生依仓颉系统的概念,设计出以下几套系统:

聚珍整合操作系统:聚珍整合操作系统于1989年推出市场,使用第五代仓颉,提供符合汉字结构的字数百万,有七万为实际用字,整个系统连同各种程式只占450KB。因此,当系统发售时,一个A4纸长宽、十厘米高的盒子里,主要是使用手册,而整个系统只占用一片软磁盘。即使是当时市面上功能最差的个人电脑,亦可以顺畅地运行。

人文系统:“人文系统”是一套于1999年起发展的非操作系统,且不对外发售。其为建构在MS-DOS上的软件系统,并由两项系统组成:

具图文功能的“图文系统”;

汉字处理功能的“仓颉系统”。

此系统是首套使用第六代仓颉(又称苍颉)的系统。由于有字序,即使数据库巨大,查寻速度仍然很快。灵活的字库,也让生僻字能如常处理。仓颉系统的优点得到发挥。

这套系统现时有北京的栾贵明教授用来建构其收录中国历代文献的,成品为汉文史数据库。

明珠中文系统:脱胎自聚珍中文系统,含明珠中文小字库。

理解系统:理解系统是仓颉系统的一部分。该系统将汉字使用4字节的固定长度编码,其中有1个“分类字符”,1个“区别字符”,和2个“定义字符”。采用固定长度编码的目的是为了能够快速方便地检索。

在“分类字符”中,朱邦复将汉字用二分法进行多次的“概念分类”,以定义汉字的字义:

概念

┌─────────┴─────────┐

0客觀                  1主觀

┌────┴────┐          ┌────┴────┐

0抽象        1具象        0認識        1行為

┌─┴─┐      ┌─┴─┐      ┌─┴─┐      ┌─┴─┐

0介面  1定義    0本存  1人造    0刺激  1狀態    0生存  1社會

┌┴┐  ┌┴┐    ┌┴┐  ┌┴┐    ┌┴┐  ┌┴┐    ┌┴┐  ┌┴┐

00  10  00  10    00  10  00  10    00  10  00  10    00  10  00  10

單  現  人  形    本  植  食  用    感  心  動  介    官  動  思  制

位  象  際  象    體  物  衣  具    覺  緒  態  面    能  作  維  約

、  、  、  、    、  、  、  、    、  、  、  、    、  、  、  、

01  11  01  11    01  11  01  11    01  11  01  11    01  11  01  11

語  訊  規  意    組  動  住  器    感  表  形  辨    體  生  溝  意

法  息  範  義    織  物  行  皿    知  現  勢  知    能  活  通  志

上图显示将概念分为三十二的结果。举例而言,“逃”为主观-行为-生存-体能,故前5码为11001。32类各可再细分为八,共有256类,刚好可用1个字符代表,如“体能”的详细分类为:C8行動:進退赴去往返來達蒞渡旅行巡到出入C9走動:走踱跑跨邁超步越馳奔凌CA體動:扒攀登游泳泅涉仆跌撲爬拐CB追動:躲避竄逃遁追趕攆驅逐排CC腳動:踏踩踹蹬踢跳蹦踐躡蹈蹴跺躍CD姿動:仰俯伏跪坐鞠躬蹲踞躺臥趴站立佇CE互動:摟擁抱掙扎攔擋妨礙遏絆剎CF電腦:(電腦功能)其中“逃”属“追动”类,编码为CB。“逃”的“区别字符”定义如下:位元1及2 有四種組合,表示危險性之程度,逃字設為1,優先性不高,此類條件由主體自行判斷。位元3 表示字首之關係,設為1,凡屬1者,皆需查字首「辵」之說明。位元4及5 文字結合型態為「靜態」、「始態」、「終態」或「連續態」。位元6 表示是否可做為姓,設為0,表示否定。位元7 能否作單位用,設為0,表示否定。位元8 有無延伸定義,設為0,表示否定。

“逃”的“定义字符”定义可参考下表:位元1 移動之方向兩種:固定/無關。 2,3 速度之快慢四種:急/緩/正常/無關。 4,5 位移之對象四種:接近/遠離/比較/無關。 6 動作之連續兩種:連續/否。 7,8 動作之能量四種:大/常態/小/無關。 9,10 行為之態度四種:緊張/謹慎/從容/無關。 11 行為之影響兩種:嚴重/無關。 12 行為之隱祕兩種:需要/無關。 13~16 暫未定。

如此一来,32个位元便能表达无数多种的汉字字义,空间和时间效率都很高。举例来说,若要判断“逃”是否属于“生存类”,比对前3个位元是否等于110即可。

仓颉系统系采用组合语言写成,可针对输入的文句产生联想推理的“概念网络”,根据这些对汉字的定义编码进行高速的复杂运算,进而理解一段中文的意思。

图文系统:图文系统是理解系统的其中一种应用,该系统可以理解一段输入的中文文本,全自动产生一段动画。只须事先绘制必要的物件模型,以及设定数个基本的运镜参数即可。

朱邦复计划使用这个系统量产中文动画,以发扬中国文化。

范例:【记承天寺夜游】动画、剧本

§ 批评

一些人对仓颉系统做出以下的批评:仓颉为了考虑按键的分配和重码率,不得不破坏汉字的理据拆分(如将“门”拆成“日弓”,但之间没有文字学的连系)。迁就了键盘,但失去了部件的教学和检字功能。仓颉输入码在有理论上的极限值,32自乘5次。如果踫到新字,就必须回头修改仓颉系统的数据库,如果有重码,还要试图化解。还没换新版的仓颉之前,新字无法立刻呈现。仓颉码只是字形的“特征取样”,舍弃了很多资讯,往往造成例外和重码,使程式变得极为复杂而难以推广。

§ 聚珍整合操作系统

聚珍整合操作系统于1989年推出巿场,使用第五代仓颉,提供符合汉字结构的字数百万,有七万为实际用字,整个系统连同各种程序只占450KB。因此,当系统发售时,一个A4纸长宽、十厘米高的盒子里,主要是使用手册,而整个系统只占用一片软磁盘。即使是当时市面上功能最差的个人电脑,亦可以顺畅地运行。

§ 各系统

人文系统:“人文系统”是一套于1999年起发展的非操作系统,且不对外发售。其为建构在MS-DOS上的软件系统,并由两项系统组成:

俱图文功能的“图文系统”;

汉字处理功能的“仓颉系统”。

此系统是首套使用第六代仓颉(又称苍颉)的系统。由于有字序,即使数据库巨大,查寻速度仍然很快。灵活的字库,也让生僻字能如常处理。仓颉系统的优点得到发挥。

这套系统现时有北京的栾贵明教授用来建构其收录中国历代文献的,成品为汉文史数据库。

明珠中文系统:脱胎自聚珍中文系统,含明珠中文小字库。

§ 相关条目

汉字基因字首苍颉检字法

汉字检索动态组字仓颉输入法

§ 参考资料

资讯时代的中文电脑

中文电脑漫谈

仓颉输入法与中文字形产生器

随便看

 

百科全书收录594082条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。

 

Copyright © 2004-2023 Cnenc.net All Rights Reserved
更新时间:2025/2/22 16:55:23