字形整理与对应转换
发布时间:2015-07-02 12:00
说明:本文把以《简化字总表》、《第一批异体字整理表》和《印刷通用汉字字形表》等为基础标准的,在简化整理过程中被确定为简体、正体或新字形的汉字,称为新式汉字;把与新式汉字相对的,即在简化整理过程中被确定为繁体、异体或旧字形的,但现今仍在港澳台等地通行或读古书时还需要使用的汉字,称为老式汉字。
1“规范”应是新式汉字的规范
制定《规范汉字表》,应以大陆现行的新式汉字为根据,这本该是毫无疑问的。但是,面对某些企图推倒新式汉字,主张恢复到20世纪50年代以前的状态的各种观点,却又不得不再说上几句。
⑴新式汉字已经通行了半个世纪,已深深扎根于广大民众之中,成为了12亿民众日常生活习惯的一部分,要让他们放弃这种习惯,肯定会不得民心。
⑵新式汉字完全能够胜任书写现代汉语白话文的职责,并不像某些人所认为的那样,妨碍了文学思想的发展和发挥。
⑶半个世纪以来,用新式汉字书写、印刷的各种文化成果,已经成为众多图书馆的主流馆藏,一旦废除,其代价将无法估量。
⑷如果稍加适当整理,能够与老式汉字一一对应的话,新式汉字既不会成为继承古代文化遗产的障碍,也不会成为两岸文化交流的障碍,更不会成为汉字信息化处理的障碍。
2新老汉字应该“一一对应”
字形整理是一项宏伟的系统工程,需要考虑的问题很多,新老汉字的“一一对应”问题,就是其中之一。以往由于没有把“一一对应”作为字形整理的目标之一,造成了一定数量的“非对称繁简字”和“非对称异体字”(“成因”之一),从而给当前的汉字信息处理和汉字使用带来了许多不便。Www.lw881.com彻底消除异体字和繁简字,建立一个既没有异体又无所谓繁简的汉字字形规范,无疑是我们的最终目标,然而在当前我们还不得不面对许多人还在使用老式汉字的情况下,清除那些严重影响对应转换的非对称繁简字和非对称异体字,进而打通新式汉字与老式汉字的对应关系,才是最为要紧的事情。
⑴一一对应,是我们必须面对“一国两制”之社会现实需要。
有香港人士认为,简化字不便学习的主要原因,就是与繁体字不能一一对应。如果能够一一对应,熟悉了繁体字的港澳台同胞,就很容易学会简体字。因此,只有一一对应,才能照顾到港澳台同胞的用字习惯,才能方便地进行两种文本的相互转换;只有能够方便地相互转换,才便于相互沟通、相互学习;只有便于相互沟通、相互学习,才能加快认同感的产生,才能加速港澳台同胞接受新式汉字的步伐。只有让他们具备了高度的认同感,“内服”地而不是强迫地接受了新式汉字,才能实现真正意义上的“书同文”。秦始皇为了“书同文”而不惜“焚书坑儒”的做法,在当今社会中是行不通的。从长远看,只有在充分了解、逐步学习的过程中,才能培养出感情,才能达到自觉认同的境界。等到新式汉字为广大港澳台同胞高度认同时,实现真正意义上的书同文,也就不在话下了。就拿《汉语拼音方案》来说,尽管台湾当局曾竭力阻挠,但还是被台湾同胞接受了,关键就在于《汉语拼音方案》有很高的国际认同度。试想,只要新式汉字的国际认同度大大提高,大大超过了老式汉字,《汉语拼音方案》的今天,也许就是新式汉字的明天。
⑵阅读古书,继承文化遗产,也迫使我们不得不面对老式汉字。
传统的文化典籍都是用老式汉字印刷的,要继承文化遗产,就必然面对古书,就必须要学习老式汉字。这虽然不是普通人民大众的事,但毕竟有一大批人要从事这项工作。有人可能会认为,我们可以把古代文献典籍都翻译成现代文,大家就不用再学习老式汉字了。然而,要真正实现这一“宏伟蓝图”并不那么轻而易举。据报道,国家古籍整理出版规划部门的一位工作人员,在向记者介绍古籍电子出版物时说:目前在古籍数字化整理方面,国家还没有新政策出台,因为有些特殊的技术障碍。首先,繁体字没有国家统一标准,哪些该保留,哪些不能再用尚未最终确定。其次,繁体如何转换成简体成为一个研究课题,目前高校古委会与北京大学合作做这方面的研究,如何使这种转化符合国家语言文字工作委员会的要求还在探讨之中。第三是字库容量问题,比如《康熙字典》中有些文字不能在电脑上显示。古籍电子出版物原本投入很大,出版社要付稿费,要占市场,而他们还得面临繁简转化和造字的难题,畏难情绪是显而易见的。
即便能够实现,都翻译成现代文后,必然会丢失许多历史文化信息,譬如语言文化信息等。譬如我们要查证一个汉字是从何时开始出现和使用的,由于受到非对称繁简字、非对称异体字的烦扰,根本无法如愿以偿。例如在旧文献中明明意思不同的“穀”与“谷”、“後”与“后”、“鬥”与“斗”等字,在新式汉字的文本中都变成了“谷”、“后”、“斗”等字,因此,要想查找“穀”、“後”、“鬥”等字的来历,根本就没有可能。据说有一位在国内出过好些书,发表过好些文章的专家写了一篇题为“男尊女卑在汉语和德语中的对比”的稿子,立论是:汉字中,从“女”、从“母”的字多含贬义。这本来无可厚非,但他却举了“毒”字为例,并说:“从‘母’,贬义”。实际上老式汉字的“毒”字下边并不是个“母”,而是个“毋”。汉字简化后,把这两个部首合一,都写作“母”,因此造成了这样奇怪的“研究结果”。这说明,通过现代文本来了解古代文化,若作粗略的了解还是可以的,若要仔细研究的话,还是真正的古代善本、真迹才靠得住。要想做一个古代文化通,不学会老式汉字,恐怕是不大可能的。而要想使现代人能够很方便的学会老式汉字,将新老汉字一一对应、相互转换,无疑是最佳选择。
总之,“一一对应”,是我们高效、优质地学习和研究古代文化遗产的必然要求。只有一一对应,现代人才不会被错综复杂的对应关系所羁绊,才能顺利跨过老式汉字的门槛,才能方便地转写各种古文化遗产。
⑶“一一对应”,也是汉字信息化处理的必然要求。
汉字信息化处理过程中使用的电脑字库,也要求新老两种汉字体系能够一一对应、相互转换。由于不能一一对应、相互转换,给字库的编制带来了说不尽的烦恼。有人说,繁简转换问题只存在于人际之间,不存在于电脑方面,这实在是“井底之见”。
现在内地通行的字符集主要有两个:一个是收6763汉字的《信息交换用汉字编码字符集·基本集》(gb2312-80),一个是收20902汉字的《汉字内码扩展规范》(gbk)。前一个字符集只能输入简体字,与之配套的还有一个专收繁体字的《信息交换用汉字编码字符集·辅助集》(gb/t12345-90)。原则上后者是将gb2312-80中的简化字用相应的繁体字替换而成,这些替代的繁体字具有与被替代的简化字相同的编码。关于繁体字替换简化字的原则,gb/t12345-90注明:“本标准原则上按照《简化字总表》中所列繁体字与简化字的对应关系进行替换。”“gb2312中,由于60年代汉字简化被精简的字有103个,这些被精简的字根据繁体字处理系统的需要增补于88~89区。”其实这一表述不完全准确,大约有三分之一左右并未将繁体字形放在88~89区,而是将简化字形放在了88~89区。例如:“丰”与“豐”,汉字简化时精简了“豐”字,以“丰”字替代,而gb/t12345将被精简的“豐”字,作为“丰”的繁体,置于23-65,而将“丰”字置于88-19。(《网路灯塔》)所谓103个“被精简的汉字”,只是就6763常用字的范围而言的,就7000通用字的范围而言,应该是132个(见下文《非对称繁简字总表》),更未包括被精简(废除)的大量异体字。例如,“昇”和“陞”,作为“升”的异体字,被停止使用,gb/t12345亦未收录。对于只简化了其字义的某一个或几个义项的,如“干乾、后後、伙夥、么麽、于於、余馀、折摺、征徵”等,gb/t12345的处理则显得比较混乱。例如gb/t12345将“伙”置于27-79,“夥”置于66-23,与gb2312编码相同,即以“伙”对应“伙”,以“夥”对应“夥”。另一种情况是,gb/t12345将“後”置于26-83,对应gb2312的“后”,将“后”置于65-65,对应gb2312的“後”;将“徵”置于53-87,对应gb2312的“征”,将“征”置于65-71,对应gb2312的“徵”,显然不甚恰当。这些问题的存在,都是与新老汉字不能一一对应密切相关的,并非计算机专家们水平差,如果妥善解决了一一对应的问题,一切问题都将迎刃而解。
第二个字符集(gbk)是一个向下与gb2312编码兼容,向上支持iso10646.1国际标准的承上启下的标准。iso10646是国际标准化组织iso公布的一个编码标准,即universalmultiple-octetcodedcharacterset(简称ucs),大陆译为《通用多八位编码字符集》,台湾译为《广用多八位元编码字元集》,它与unicode组织的unicode编码完全兼容。iso10646.1是该标准的第一部分《体系结构与基本多文种平面》。我国1993年以gb13000.1国家标准的形式予以认可(即gb13000.1等同于iso10646.1)。iso10646是一个包括世界上各种语言的书面形式以及附加符号的编码体系。其中的汉字部分称为“cjk统一汉字”(c指中国,j指日本,k指朝鲜)。而其中的中国部分,包括了源自中国大陆的gb12345、《现代汉语通用字表》等法定标准的汉字和符号,以及源自台湾的cns11643标准中第1、2字面(基本等同于这个字符集的推出基本能应付通用汉字的信息化处理问题,为了解决更大范围内的汉字信息化处理问题,iso/iec10646中日韩统一编码汉字unifiedideographsextensionb(四万余字)也已经定稿,并从irg上交iso(国际标准化组织)wg2、sc2,2001年8月1日呈报iso秘书处,纳入iso/iec10646-2:2001发布出版。此前,iso/iec10646-1:2000已于2000年10月5日出版公布。这样,iso/iec10646所收入汉字(包括各种字体变形)已超过七万个,有人认为,除甲骨文、篆文外,已能很好地满足世界各地汉字使用的需要。但这是指研究方面,就社会的应用而言,目前大陆仍已big-5编码为主,并没有接受gbk规范的迹象。
问题还在于,字库虽然大了,由于一一对应的问题并未解决,两岸又没有一个统一的规范字表,致使cjk中大量充斥着互不被对方承认的不规范字。这在gbk规范中也有反映。例如,有大量的应该类推简化的汉字并没有配上相应的简化字,例如“騇”、“騲”、“騬”等字,就没有与之对应的“马”字旁。当用电脑写作时,如果遇到这类字,只得另外造字。然而手工造字,不仅费时费力、效果不佳,而且不能与他人共享和网上交流。这无疑给汉字的信息处理和交流带来了不便。问题更大的是,由于简化字和繁体字不能一一对应,在简化字文本和繁体字文本相互转换的时候,无法实现完全自动化,有时不得不亲自动手,逐个判断处理,大大影响了汉字信息处理的效率。计算机虽然号称“无所不能”,实际上它只适合于有规则的东西,面对毫无规则的繁简关系,任何软件都难以做到尽善尽美。譬如microsoftoffice2000等软件,虽然有智能化的繁简字转换功能,能根据上下文作出相应的用字选择,但其转换是以预先设定的词语搭配为前提的,凡设定之外的搭配就无能为力。如果实现了有规则的一一对应,所有与繁简转换相关的问题,将变得易如反掌。
总之,只有妥善解决了一一对应问题,两岸的汉字字库才能实现没有障碍的相互转换,才能让软件专家们从繁简转换的烦恼中解脱出来,从而可以腾出更多时间去做他们更应该做的事情。如果实现了一一对应,就可以消除那些“你有我无、我有你无”的非对应字,从而使整个字库的总量瘦身减肥,汉字的信息处理和信息交流也将变得更为方便。
3非对称繁简字的问题可以妥善解决
打通新式汉字与老式汉字的对应关系,需要解决的问题主要有两项:⑴非对称繁简字问题;⑵非对称异体字问题。
有许多大陆人,在使用繁体字时常闹出许多笑话,如把“写字板”繁化成“寫字闆”,把“皇后”繁化成“皇後”等,病根就在繁简字不能一一对应上。正如董琨先生所言:有的人不明白有的字繁简转换并非单一对应关系,于是随意代替。如内地一个京剧团到台湾演出,把武松写成武“鬆”,武松的“松”成了肉松的“鬆”。不知道这本来就是两个字,而不是一繁一简。要显得有文化,结果弄巧成拙,贻笑大方。对此,本人曾做过初步的调查和研究,编制了《非对称繁简字对照表》(见《语文建设通讯》(香港)第53期),提出了一个《非对称繁简字的调整》方案(见《语文建设通讯》(香港)第65期)。现择要概述如下:
⑴《非对称繁简字总表》
根据我们的调查统计,在7000通用字范畴内,共有非对称繁简字117组。大体上可以分为:
⑴一个简体对应几个繁体的;⑵一个简体对应一个繁体,但意义和用法不尽相同的;⑶一个繁体作部分或分头简化的。具体汉字见下表:
其中,以下13组不能正确地“繁转简”,其余104组不能正确地“简转繁”:
讎(仇、雠)、兒(儿、兒)乾(干、乾)閤(合、阁)夥(伙、夥)
藉(借、藉)剋(克、剋)瞭(了、瞭)麼(么、麽)蘋(苹、pin2)
餘(余、馀)摺(折、摺)徵(征、徵)
⑵整理的步骤和方法
建议按以下具体步骤和方法进行整理:
①废除不能对应转换的繁简关系,保留能够对应转换的繁简关系;
②废除繁简关系后,必须与简体并存的繁体,原样恢复为正规字;
③繁体字恢复为正规字后,能类推简化的继续进行简化;
④废除繁简关系后,能找到新的对应简体的,重新组建繁简关系;
⑤废除繁简关系后,不能与简体并存,又找不到新的对应简体的,把繁体作为异体字取消。
⑶预期结果:
①可以保留原有繁简关系的有:“摆—擺、当—當、发—髮、汇—匯、获—獲、饥—饑、尽—盡、历—歷、卤—鹵、弥—彌、签—簽、苏—蘇、坛—壇、团—團、纤—纖、须—須、药—藥、脏—髒、钟—鍾”等19组。
②需要重新组建繁简关系的有:“鼕—咚、裏—裡、曆—厤、罎—罈”等4组。
③解除繁简关系后,需要原样恢复为正规字的繁体字有:“澱、鬥、發、複、幹、穀、後、彙、穫、幾、繫、傢、薑、據、捲、剋、瞭、懞、濛、矇、麼、寜、僕、乾、埆、捨、瀋、勝、適、術、鬆、塗、係、葉、臓、摺、徵、築”等38字。
④解除繁简关系后,可以继续按偏旁类推简化的繁体字有:“襬、闆、錶、纔、讎、齣、噹、範、颳、櫃、價、儘、滷、瀰、麵、蘋、籤、縴、麯、囌、颱、檯、糰、鹹、鬚、鏇、餘、緻、鐘”等29字。
⑤被作为异体字取消其使用资格的有:“彆、蔔、廠、衝、蟲、醜、擔、黨、噁、兒、豐、復、閤、廣、鬍、劃、壞、迴、飢、睏、纍、灕、簾、黴、衊、闢、樸、韆、鞦、確、臺、體、萬、嚮、葯、傭、與、禦、鬱、籲、願、雲、澐、蕓、癥、衹、隻、製、種、硃、準”等51字。
4包孕异体字的整理应方法得当
从正体和异体的关系上看,异体字有三大类:⑴绝对异体字;⑵包孕异体字;⑶交叉包孕异体字。对三种异体字宜采取不同的方法进行整理:
⑴绝对异体字的各变体之间是“音同义同”的关系,不管使用哪个,都表示同样的意义,有同样的读法,因此,即使在新老汉字体系中选择了不同的正体字形,也不会影响相互间的对应转换。但从统一规范的角度说,当然还是采用同一的取舍为最好,因为那样就无所谓“一一对应”的问题了。
⑵交叉包孕异体字虽然是你中有我,我中有你,但毕竟各有侧重点,因此只要两岸都采用分化法,两字都收,也不会有所谓“一一对应”的问题。当然,如果在新老两种汉字体系中,只要有一方没对交叉包孕异体字采用分化法整理,也会成为对应转换的障碍之一,也需要加以关注。例如:
膀:bǎng、bàng、pāng、páng;髈bǎng、pǎng
二者只在读bǎng时同义,在其他读音上则大相径庭,因此宜采用分化法,让二者并存并用。但如果像《一异表》那样取消“髈”的使用资格,而港澳台又二者都保留的话,必然造成对应转换的困难。
⑶对于包孕异体字,如果都采用分化法整理,让每个字都分担一部分意义,各个字头都保留,其结果跟交叉包孕异体字是一样的,也不会有所谓“一一对应”的问题;如果对包孕异体字都采用取舍法,选择了相同的正体字形,也不会有所谓“一一对应”的问题。当然,如果新老两种汉字体系对包孕异体字各采用了不同的取舍法,对正体字作了不同选择,就必定导致对应转换的困难。例如,“菢”是在意义上被“抱”包孕的异体字,如果在新式汉字中被取消,而在老式汉字中被保留,就必然影响相互转换。又如“着”是在读音和意义上都被“著”包孕的异体字,老式汉字中取消了“着”,而新式汉字中保留了它,所以经常造成相互转换的不便。
总之,绝对异体字(如果采用取舍法)和交叉包孕异体字(如果采用分化法),一般不会构成对应转换的关系。需要重点关注的主要是:
⑴只有一方采取了分化法整理的交叉包孕异体字;
⑵各方分别选取了不同的正体字形的包孕异体字。
对于这两类情况,最好应在各方充分协商的基础上做出抉择,各行其是,就难免分道扬镳。
为了研究和整理异体字的方便,我们以《现代汉语通用字表》和gbk字符集等为资料依据,编制了《影响转换的非对称异体字调查表》,共收包孕异体字300多组,其中包括了被《一异表》错收,而又没有得到《现通表》等纠正的某些非异体字。(表暂略)
5新旧字形与对应转换
上面讨论的繁体、简体、异体、正体等,实际上都属于汉字的字形范畴,而通常所谓新旧字形,反倒属于汉字的字体范畴。
⑴新旧字形属于字体变体范畴,不属于字形整理的内容
任何文字体系中都存在着同一个字的不同变体问题,但汉字较为特殊。汉字有两类变体:⑴字体变体,如真、草、隶、篆、手写体与印刷体等,这类变体其他文字体系也有,它们的存在对整个文字体系有利,书面上的变化运用可以增强文本的视觉美效果;⑵字形变体,如一个汉字往往有繁体、简体,正体、异体或俗体等多种变体写法,这类变体实为汉字所独,对整个汉字体系有害无益,历来是规范化的主要对象。
从总体上看,属于同类字体(如同是行书体)的个体汉字之间,往往具有笔画方面的共有特征;一个汉字的不同字体变体之间,往往具有笔画方面的体系性差异,但一般不存在组合方式或造字原理方面的不同。而属于同类字形(如同是异体字形)的各个体汉字之间,往往没有什么共有特征可言;一个汉字的不同字形之间,也往往具有组合方式或造字原理方面的巨大差异。
作为一个汉字的两种写法的新字形和旧字形,其间的差异主要涉及笔画的笔形和笔向,并不涉及部件的组合方式和造字原理,因此宜归属“一字多体”的范畴,如“彦——彥、兖——兗、争——爭、并——幷、真——眞、值——値”。从新字形的诞生看,其创造宗旨就是要将楷书印刷体(宋体)改造得跟楷书的手写体基本一致,这足以说明,新字形的本质是字体变体,而非字形变体。
异体字、繁简字的情况正好相反。就异体字来说,一个字的正、异两种写法之间,都存在着组合方式或造字原理方面的不同,纯粹是“一字多形”的反映,如“峰——峯、够——夠、皂——皁、噪——譟”。就繁简字来说,一个字的繁、简两种写法,有的同正体与异体的关系一样,如“才——纔、邓——鄧、枣——棗、凿——鑿、灶——竈、泪——淚”等,有的因其偏旁已变成不再象形示意或表音的记号,其造字原理也已面目全非,如“发——發髮、财——財、连——連、说——說、阀——閥、给——給”等,本质上也都属于“一字多形”的范畴。
有人可能要说,在由篆变隶、由隶变楷的过程中,有不少字改变了造字原理,应如何解释呢?是不是字体之间也存在着组合方式和造字原理方面的差异呢?我们认为,这其实是字形变异与字体变化同步重合的一种现象,后起字体只反映了后起字形而已。例如,“弦”在隶变过程中由象形字变成形声字,“表”在隶变过程中由会意字变成无理字;作为偏旁的“月、肉、舟”在隶变过程中同化为“月”,不同字头的“奉、春、秦、奏、泰”同化为相同的字头等,这些后起字体都只能与其后起字形的造字原理相一致。这种情况也存在于新式汉字中,例如“东、农、书、发、过”等,都是由草书(或隶书)楷化而成的新式字,因此只有新字形写法,而没有旧字形写法。
总之,新旧字形与异体字、繁简字有本质不同,属于字体变体。同一个汉字的不同字体之间,通常需要由一种字体转换成另一种字体,这是字体层面上的对应转换。如果同一个汉字的同一种字体存在两种以上的写法(字形),必然会影响字体间的对应转换。字体间的对应转换要求,在一种字体范畴内,一个汉字最好只有一种字形,否则将不便于字体间的对应转换。就字形转换来说,如果一种字体内一个汉字只有一种字形的话,也就不会有所谓字形间的对应转换了,但由于实际上有很多字是存在多种字形的,如繁体、简体、异体、正体等,而新老两种汉字体系对它们往往又有不同的认定,因此字形间的对应转换问题也就不可避免了。由此可见,字形转换与字体转换虽属于不同层面,但又密切相关。只有把字形转换的问题解决好了,才能解决好字体转换的问题。
⑵将新字形贯彻到老式汉字中,值得商榷
新字形是跟手写体一致的印刷体,原只属于新式汉字,并不属于老式汉字。但gbk规范规定:在cjk汉字认同规则的总框架内,对所有的gbk编码汉字实施“无重码正形”,即在不造成重码的前提下,尽量采用中国新字形(“gb化”);对于超出cjk汉字认同规则的、或认同规则尚未明确规定的汉字,在gbk码位上暂安放旧字形。根据这条原则,gbk对许多繁体字都同时收入了新旧两种字形。例如“产”的繁体,它同时收入了新字形“産”和旧字形“產”。而对有些繁体字则只收入了其旧字形,如“为、伪”的繁体,只收入了旧字形“爲、僞”,而未收入新字形“為、偽”。这样,新字形就不是新式汉字的专利了。某些专为阅读古书服务的字典、词典,大概是采用了装有gbk的软件排版的,也把繁体字头改成了新字形写法。但问题是,这样做到底有无必要呢?老式汉字只是在阅读古书或跟还使用它们的人们打交道时才被使用的汉字,而古书上的和那些正被港澳台等地使用的老式汉字字体,本来都只有旧字形一种字体,人们已经习惯了,现在又多出一套新字形字体,是否有利于人们学习和使用老式汉字呢?的确是值得深入研究的。这样做的初衷,也许是为了扩大新字形的影响或覆盖范围,对于没有繁简对应关系的汉字来说,统统“gb化”,是新式汉字建设的需要,是完全应该的,但对于已排除在新式汉字之外的繁体字来说,也通通来一个“gb化”,似乎就是在建设老式汉字的新字体了。可是,老式汉字的字体还不够多吗?这样做是不是有点画蛇添足的味道呢?
我们认为,较为妥当的办法是:新式汉字的字体应当新形化(gb化),老式汉字的字体应当旧形化,除非修辞等特殊需要,同一“文面”应使用同一种字体。在老式汉字中搀杂进新形字体,在新式汉字中搀杂进旧形字体,都有违字体统一的原则。在某些字处理软件上,有时竟打印出新旧字形相互穿插的词语,如“轉换、鬥争、异樣”等,实在令人苦笑不得。
1“规范”应是新式汉字的规范
制定《规范汉字表》,应以大陆现行的新式汉字为根据,这本该是毫无疑问的。但是,面对某些企图推倒新式汉字,主张恢复到20世纪50年代以前的状态的各种观点,却又不得不再说上几句。
⑴新式汉字已经通行了半个世纪,已深深扎根于广大民众之中,成为了12亿民众日常生活习惯的一部分,要让他们放弃这种习惯,肯定会不得民心。
⑵新式汉字完全能够胜任书写现代汉语白话文的职责,并不像某些人所认为的那样,妨碍了文学思想的发展和发挥。
⑶半个世纪以来,用新式汉字书写、印刷的各种文化成果,已经成为众多图书馆的主流馆藏,一旦废除,其代价将无法估量。
⑷如果稍加适当整理,能够与老式汉字一一对应的话,新式汉字既不会成为继承古代文化遗产的障碍,也不会成为两岸文化交流的障碍,更不会成为汉字信息化处理的障碍。
2新老汉字应该“一一对应”
字形整理是一项宏伟的系统工程,需要考虑的问题很多,新老汉字的“一一对应”问题,就是其中之一。以往由于没有把“一一对应”作为字形整理的目标之一,造成了一定数量的“非对称繁简字”和“非对称异体字”(“成因”之一),从而给当前的汉字信息处理和汉字使用带来了许多不便。Www.lw881.com彻底消除异体字和繁简字,建立一个既没有异体又无所谓繁简的汉字字形规范,无疑是我们的最终目标,然而在当前我们还不得不面对许多人还在使用老式汉字的情况下,清除那些严重影响对应转换的非对称繁简字和非对称异体字,进而打通新式汉字与老式汉字的对应关系,才是最为要紧的事情。
⑴一一对应,是我们必须面对“一国两制”之社会现实需要。
有香港人士认为,简化字不便学习的主要原因,就是与繁体字不能一一对应。如果能够一一对应,熟悉了繁体字的港澳台同胞,就很容易学会简体字。因此,只有一一对应,才能照顾到港澳台同胞的用字习惯,才能方便地进行两种文本的相互转换;只有能够方便地相互转换,才便于相互沟通、相互学习;只有便于相互沟通、相互学习,才能加快认同感的产生,才能加速港澳台同胞接受新式汉字的步伐。只有让他们具备了高度的认同感,“内服”地而不是强迫地接受了新式汉字,才能实现真正意义上的“书同文”。秦始皇为了“书同文”而不惜“焚书坑儒”的做法,在当今社会中是行不通的。从长远看,只有在充分了解、逐步学习的过程中,才能培养出感情,才能达到自觉认同的境界。等到新式汉字为广大港澳台同胞高度认同时,实现真正意义上的书同文,也就不在话下了。就拿《汉语拼音方案》来说,尽管台湾当局曾竭力阻挠,但还是被台湾同胞接受了,关键就在于《汉语拼音方案》有很高的国际认同度。试想,只要新式汉字的国际认同度大大提高,大大超过了老式汉字,《汉语拼音方案》的今天,也许就是新式汉字的明天。
⑵阅读古书,继承文化遗产,也迫使我们不得不面对老式汉字。
传统的文化典籍都是用老式汉字印刷的,要继承文化遗产,就必然面对古书,就必须要学习老式汉字。这虽然不是普通人民大众的事,但毕竟有一大批人要从事这项工作。有人可能会认为,我们可以把古代文献典籍都翻译成现代文,大家就不用再学习老式汉字了。然而,要真正实现这一“宏伟蓝图”并不那么轻而易举。据报道,国家古籍整理出版规划部门的一位工作人员,在向记者介绍古籍电子出版物时说:目前在古籍数字化整理方面,国家还没有新政策出台,因为有些特殊的技术障碍。首先,繁体字没有国家统一标准,哪些该保留,哪些不能再用尚未最终确定。其次,繁体如何转换成简体成为一个研究课题,目前高校古委会与北京大学合作做这方面的研究,如何使这种转化符合国家语言文字工作委员会的要求还在探讨之中。第三是字库容量问题,比如《康熙字典》中有些文字不能在电脑上显示。古籍电子出版物原本投入很大,出版社要付稿费,要占市场,而他们还得面临繁简转化和造字的难题,畏难情绪是显而易见的。
即便能够实现,都翻译成现代文后,必然会丢失许多历史文化信息,譬如语言文化信息等。譬如我们要查证一个汉字是从何时开始出现和使用的,由于受到非对称繁简字、非对称异体字的烦扰,根本无法如愿以偿。例如在旧文献中明明意思不同的“穀”与“谷”、“後”与“后”、“鬥”与“斗”等字,在新式汉字的文本中都变成了“谷”、“后”、“斗”等字,因此,要想查找“穀”、“後”、“鬥”等字的来历,根本就没有可能。据说有一位在国内出过好些书,发表过好些文章的专家写了一篇题为“男尊女卑在汉语和德语中的对比”的稿子,立论是:汉字中,从“女”、从“母”的字多含贬义。这本来无可厚非,但他却举了“毒”字为例,并说:“从‘母’,贬义”。实际上老式汉字的“毒”字下边并不是个“母”,而是个“毋”。汉字简化后,把这两个部首合一,都写作“母”,因此造成了这样奇怪的“研究结果”。这说明,通过现代文本来了解古代文化,若作粗略的了解还是可以的,若要仔细研究的话,还是真正的古代善本、真迹才靠得住。要想做一个古代文化通,不学会老式汉字,恐怕是不大可能的。而要想使现代人能够很方便的学会老式汉字,将新老汉字一一对应、相互转换,无疑是最佳选择。
总之,“一一对应”,是我们高效、优质地学习和研究古代文化遗产的必然要求。只有一一对应,现代人才不会被错综复杂的对应关系所羁绊,才能顺利跨过老式汉字的门槛,才能方便地转写各种古文化遗产。
⑶“一一对应”,也是汉字信息化处理的必然要求。
汉字信息化处理过程中使用的电脑字库,也要求新老两种汉字体系能够一一对应、相互转换。由于不能一一对应、相互转换,给字库的编制带来了说不尽的烦恼。有人说,繁简转换问题只存在于人际之间,不存在于电脑方面,这实在是“井底之见”。
现在内地通行的字符集主要有两个:一个是收6763汉字的《信息交换用汉字编码字符集·基本集》(gb2312-80),一个是收20902汉字的《汉字内码扩展规范》(gbk)。前一个字符集只能输入简体字,与之配套的还有一个专收繁体字的《信息交换用汉字编码字符集·辅助集》(gb/t12345-90)。原则上后者是将gb2312-80中的简化字用相应的繁体字替换而成,这些替代的繁体字具有与被替代的简化字相同的编码。关于繁体字替换简化字的原则,gb/t12345-90注明:“本标准原则上按照《简化字总表》中所列繁体字与简化字的对应关系进行替换。”“gb2312中,由于60年代汉字简化被精简的字有103个,这些被精简的字根据繁体字处理系统的需要增补于88~89区。”其实这一表述不完全准确,大约有三分之一左右并未将繁体字形放在88~89区,而是将简化字形放在了88~89区。例如:“丰”与“豐”,汉字简化时精简了“豐”字,以“丰”字替代,而gb/t12345将被精简的“豐”字,作为“丰”的繁体,置于23-65,而将“丰”字置于88-19。(《网路灯塔》)所谓103个“被精简的汉字”,只是就6763常用字的范围而言的,就7000通用字的范围而言,应该是132个(见下文《非对称繁简字总表》),更未包括被精简(废除)的大量异体字。例如,“昇”和“陞”,作为“升”的异体字,被停止使用,gb/t12345亦未收录。对于只简化了其字义的某一个或几个义项的,如“干乾、后後、伙夥、么麽、于於、余馀、折摺、征徵”等,gb/t12345的处理则显得比较混乱。例如gb/t12345将“伙”置于27-79,“夥”置于66-23,与gb2312编码相同,即以“伙”对应“伙”,以“夥”对应“夥”。另一种情况是,gb/t12345将“後”置于26-83,对应gb2312的“后”,将“后”置于65-65,对应gb2312的“後”;将“徵”置于53-87,对应gb2312的“征”,将“征”置于65-71,对应gb2312的“徵”,显然不甚恰当。这些问题的存在,都是与新老汉字不能一一对应密切相关的,并非计算机专家们水平差,如果妥善解决了一一对应的问题,一切问题都将迎刃而解。
第二个字符集(gbk)是一个向下与gb2312编码兼容,向上支持iso10646.1国际标准的承上启下的标准。iso10646是国际标准化组织iso公布的一个编码标准,即universalmultiple-octetcodedcharacterset(简称ucs),大陆译为《通用多八位编码字符集》,台湾译为《广用多八位元编码字元集》,它与unicode组织的unicode编码完全兼容。iso10646.1是该标准的第一部分《体系结构与基本多文种平面》。我国1993年以gb13000.1国家标准的形式予以认可(即gb13000.1等同于iso10646.1)。iso10646是一个包括世界上各种语言的书面形式以及附加符号的编码体系。其中的汉字部分称为“cjk统一汉字”(c指中国,j指日本,k指朝鲜)。而其中的中国部分,包括了源自中国大陆的gb12345、《现代汉语通用字表》等法定标准的汉字和符号,以及源自台湾的cns11643标准中第1、2字面(基本等同于这个字符集的推出基本能应付通用汉字的信息化处理问题,为了解决更大范围内的汉字信息化处理问题,iso/iec10646中日韩统一编码汉字unifiedideographsextensionb(四万余字)也已经定稿,并从irg上交iso(国际标准化组织)wg2、sc2,2001年8月1日呈报iso秘书处,纳入iso/iec10646-2:2001发布出版。此前,iso/iec10646-1:2000已于2000年10月5日出版公布。这样,iso/iec10646所收入汉字(包括各种字体变形)已超过七万个,有人认为,除甲骨文、篆文外,已能很好地满足世界各地汉字使用的需要。但这是指研究方面,就社会的应用而言,目前大陆仍已big-5编码为主,并没有接受gbk规范的迹象。
问题还在于,字库虽然大了,由于一一对应的问题并未解决,两岸又没有一个统一的规范字表,致使cjk中大量充斥着互不被对方承认的不规范字。这在gbk规范中也有反映。例如,有大量的应该类推简化的汉字并没有配上相应的简化字,例如“騇”、“騲”、“騬”等字,就没有与之对应的“马”字旁。当用电脑写作时,如果遇到这类字,只得另外造字。然而手工造字,不仅费时费力、效果不佳,而且不能与他人共享和网上交流。这无疑给汉字的信息处理和交流带来了不便。问题更大的是,由于简化字和繁体字不能一一对应,在简化字文本和繁体字文本相互转换的时候,无法实现完全自动化,有时不得不亲自动手,逐个判断处理,大大影响了汉字信息处理的效率。计算机虽然号称“无所不能”,实际上它只适合于有规则的东西,面对毫无规则的繁简关系,任何软件都难以做到尽善尽美。譬如microsoftoffice2000等软件,虽然有智能化的繁简字转换功能,能根据上下文作出相应的用字选择,但其转换是以预先设定的词语搭配为前提的,凡设定之外的搭配就无能为力。如果实现了有规则的一一对应,所有与繁简转换相关的问题,将变得易如反掌。
总之,只有妥善解决了一一对应问题,两岸的汉字字库才能实现没有障碍的相互转换,才能让软件专家们从繁简转换的烦恼中解脱出来,从而可以腾出更多时间去做他们更应该做的事情。如果实现了一一对应,就可以消除那些“你有我无、我有你无”的非对应字,从而使整个字库的总量瘦身减肥,汉字的信息处理和信息交流也将变得更为方便。
3非对称繁简字的问题可以妥善解决
打通新式汉字与老式汉字的对应关系,需要解决的问题主要有两项:⑴非对称繁简字问题;⑵非对称异体字问题。
有许多大陆人,在使用繁体字时常闹出许多笑话,如把“写字板”繁化成“寫字闆”,把“皇后”繁化成“皇後”等,病根就在繁简字不能一一对应上。正如董琨先生所言:有的人不明白有的字繁简转换并非单一对应关系,于是随意代替。如内地一个京剧团到台湾演出,把武松写成武“鬆”,武松的“松”成了肉松的“鬆”。不知道这本来就是两个字,而不是一繁一简。要显得有文化,结果弄巧成拙,贻笑大方。对此,本人曾做过初步的调查和研究,编制了《非对称繁简字对照表》(见《语文建设通讯》(香港)第53期),提出了一个《非对称繁简字的调整》方案(见《语文建设通讯》(香港)第65期)。现择要概述如下:
⑴《非对称繁简字总表》
根据我们的调查统计,在7000通用字范畴内,共有非对称繁简字117组。大体上可以分为:
⑴一个简体对应几个繁体的;⑵一个简体对应一个繁体,但意义和用法不尽相同的;⑶一个繁体作部分或分头简化的。具体汉字见下表:
其中,以下13组不能正确地“繁转简”,其余104组不能正确地“简转繁”:
讎(仇、雠)、兒(儿、兒)乾(干、乾)閤(合、阁)夥(伙、夥)
藉(借、藉)剋(克、剋)瞭(了、瞭)麼(么、麽)蘋(苹、pin2)
餘(余、馀)摺(折、摺)徵(征、徵)
在117组繁简字中,同音代替类占了绝大多数。譬如,“只有”的“只”和“一隻”的“隻”;“頭髮”的“髮”与“发展”的“发”;“後來”的“後”与“皇后”的“后”;“干戈”的“干”与“才幹”的“幹”等等。上古时,字数少,又没有字典,写作时找不到确当的字,用读音相同的字来代替,这就是令人头痛的“同音假借”。字的发音是变化的,不同字的发音经历着不同的变化。几百年前读音相同的字,几百年后就可能相差很大,而使人难以看出它原来是哪个字的代用品。我们今天读上古的文学作品,文字是其中很大的障碍:很多的字,在不同的文章、不同的段落中的意思不同,因为他们是其他字的代用品。后来字数多了,有了字典,字的读音和意思渐渐地固定下来,借代就越来越少了。即便是多音字,他们的读音和字意也是相对稳定的。尽管如此,一字多音,从来就是汉字中难弄的部分,精于文字的人都有意避免它。后代的人再用同音字来借代,就是正字法上的错误了,章太炎把它叫做“借声”,我们今天则叫做“别字”。汉字简化时,把很多意思毫不相干而仅仅读音类似的几个字,用一个笔画较少的字来顶替,实际上是在人为地制造“别字”,因此,在权衡各种利弊的情况下,恢复某些字的本来面貌,是很有必要的。
⑵整理的步骤和方法
建议按以下具体步骤和方法进行整理:
①废除不能对应转换的繁简关系,保留能够对应转换的繁简关系;
②废除繁简关系后,必须与简体并存的繁体,原样恢复为正规字;
③繁体字恢复为正规字后,能类推简化的继续进行简化;
④废除繁简关系后,能找到新的对应简体的,重新组建繁简关系;
⑤废除繁简关系后,不能与简体并存,又找不到新的对应简体的,把繁体作为异体字取消。
⑶预期结果:
①可以保留原有繁简关系的有:“摆—擺、当—當、发—髮、汇—匯、获—獲、饥—饑、尽—盡、历—歷、卤—鹵、弥—彌、签—簽、苏—蘇、坛—壇、团—團、纤—纖、须—須、药—藥、脏—髒、钟—鍾”等19组。
②需要重新组建繁简关系的有:“鼕—咚、裏—裡、曆—厤、罎—罈”等4组。
③解除繁简关系后,需要原样恢复为正规字的繁体字有:“澱、鬥、發、複、幹、穀、後、彙、穫、幾、繫、傢、薑、據、捲、剋、瞭、懞、濛、矇、麼、寜、僕、乾、埆、捨、瀋、勝、適、術、鬆、塗、係、葉、臓、摺、徵、築”等38字。
④解除繁简关系后,可以继续按偏旁类推简化的繁体字有:“襬、闆、錶、纔、讎、齣、噹、範、颳、櫃、價、儘、滷、瀰、麵、蘋、籤、縴、麯、囌、颱、檯、糰、鹹、鬚、鏇、餘、緻、鐘”等29字。
⑤被作为异体字取消其使用资格的有:“彆、蔔、廠、衝、蟲、醜、擔、黨、噁、兒、豐、復、閤、廣、鬍、劃、壞、迴、飢、睏、纍、灕、簾、黴、衊、闢、樸、韆、鞦、確、臺、體、萬、嚮、葯、傭、與、禦、鬱、籲、願、雲、澐、蕓、癥、衹、隻、製、種、硃、準”等51字。
4包孕异体字的整理应方法得当
从正体和异体的关系上看,异体字有三大类:⑴绝对异体字;⑵包孕异体字;⑶交叉包孕异体字。对三种异体字宜采取不同的方法进行整理:
⑴绝对异体字的各变体之间是“音同义同”的关系,不管使用哪个,都表示同样的意义,有同样的读法,因此,即使在新老汉字体系中选择了不同的正体字形,也不会影响相互间的对应转换。但从统一规范的角度说,当然还是采用同一的取舍为最好,因为那样就无所谓“一一对应”的问题了。
⑵交叉包孕异体字虽然是你中有我,我中有你,但毕竟各有侧重点,因此只要两岸都采用分化法,两字都收,也不会有所谓“一一对应”的问题。当然,如果在新老两种汉字体系中,只要有一方没对交叉包孕异体字采用分化法整理,也会成为对应转换的障碍之一,也需要加以关注。例如:
膀:bǎng、bàng、pāng、páng;髈bǎng、pǎng
二者只在读bǎng时同义,在其他读音上则大相径庭,因此宜采用分化法,让二者并存并用。但如果像《一异表》那样取消“髈”的使用资格,而港澳台又二者都保留的话,必然造成对应转换的困难。
⑶对于包孕异体字,如果都采用分化法整理,让每个字都分担一部分意义,各个字头都保留,其结果跟交叉包孕异体字是一样的,也不会有所谓“一一对应”的问题;如果对包孕异体字都采用取舍法,选择了相同的正体字形,也不会有所谓“一一对应”的问题。当然,如果新老两种汉字体系对包孕异体字各采用了不同的取舍法,对正体字作了不同选择,就必定导致对应转换的困难。例如,“菢”是在意义上被“抱”包孕的异体字,如果在新式汉字中被取消,而在老式汉字中被保留,就必然影响相互转换。又如“着”是在读音和意义上都被“著”包孕的异体字,老式汉字中取消了“着”,而新式汉字中保留了它,所以经常造成相互转换的不便。
总之,绝对异体字(如果采用取舍法)和交叉包孕异体字(如果采用分化法),一般不会构成对应转换的关系。需要重点关注的主要是:
⑴只有一方采取了分化法整理的交叉包孕异体字;
⑵各方分别选取了不同的正体字形的包孕异体字。
对于这两类情况,最好应在各方充分协商的基础上做出抉择,各行其是,就难免分道扬镳。
为了研究和整理异体字的方便,我们以《现代汉语通用字表》和gbk字符集等为资料依据,编制了《影响转换的非对称异体字调查表》,共收包孕异体字300多组,其中包括了被《一异表》错收,而又没有得到《现通表》等纠正的某些非异体字。(表暂略)
5新旧字形与对应转换
上面讨论的繁体、简体、异体、正体等,实际上都属于汉字的字形范畴,而通常所谓新旧字形,反倒属于汉字的字体范畴。
⑴新旧字形属于字体变体范畴,不属于字形整理的内容
任何文字体系中都存在着同一个字的不同变体问题,但汉字较为特殊。汉字有两类变体:⑴字体变体,如真、草、隶、篆、手写体与印刷体等,这类变体其他文字体系也有,它们的存在对整个文字体系有利,书面上的变化运用可以增强文本的视觉美效果;⑵字形变体,如一个汉字往往有繁体、简体,正体、异体或俗体等多种变体写法,这类变体实为汉字所独,对整个汉字体系有害无益,历来是规范化的主要对象。
从总体上看,属于同类字体(如同是行书体)的个体汉字之间,往往具有笔画方面的共有特征;一个汉字的不同字体变体之间,往往具有笔画方面的体系性差异,但一般不存在组合方式或造字原理方面的不同。而属于同类字形(如同是异体字形)的各个体汉字之间,往往没有什么共有特征可言;一个汉字的不同字形之间,也往往具有组合方式或造字原理方面的巨大差异。
作为一个汉字的两种写法的新字形和旧字形,其间的差异主要涉及笔画的笔形和笔向,并不涉及部件的组合方式和造字原理,因此宜归属“一字多体”的范畴,如“彦——彥、兖——兗、争——爭、并——幷、真——眞、值——値”。从新字形的诞生看,其创造宗旨就是要将楷书印刷体(宋体)改造得跟楷书的手写体基本一致,这足以说明,新字形的本质是字体变体,而非字形变体。
异体字、繁简字的情况正好相反。就异体字来说,一个字的正、异两种写法之间,都存在着组合方式或造字原理方面的不同,纯粹是“一字多形”的反映,如“峰——峯、够——夠、皂——皁、噪——譟”。就繁简字来说,一个字的繁、简两种写法,有的同正体与异体的关系一样,如“才——纔、邓——鄧、枣——棗、凿——鑿、灶——竈、泪——淚”等,有的因其偏旁已变成不再象形示意或表音的记号,其造字原理也已面目全非,如“发——發髮、财——財、连——連、说——說、阀——閥、给——給”等,本质上也都属于“一字多形”的范畴。
有人可能要说,在由篆变隶、由隶变楷的过程中,有不少字改变了造字原理,应如何解释呢?是不是字体之间也存在着组合方式和造字原理方面的差异呢?我们认为,这其实是字形变异与字体变化同步重合的一种现象,后起字体只反映了后起字形而已。例如,“弦”在隶变过程中由象形字变成形声字,“表”在隶变过程中由会意字变成无理字;作为偏旁的“月、肉、舟”在隶变过程中同化为“月”,不同字头的“奉、春、秦、奏、泰”同化为相同的字头等,这些后起字体都只能与其后起字形的造字原理相一致。这种情况也存在于新式汉字中,例如“东、农、书、发、过”等,都是由草书(或隶书)楷化而成的新式字,因此只有新字形写法,而没有旧字形写法。
总之,新旧字形与异体字、繁简字有本质不同,属于字体变体。同一个汉字的不同字体之间,通常需要由一种字体转换成另一种字体,这是字体层面上的对应转换。如果同一个汉字的同一种字体存在两种以上的写法(字形),必然会影响字体间的对应转换。字体间的对应转换要求,在一种字体范畴内,一个汉字最好只有一种字形,否则将不便于字体间的对应转换。就字形转换来说,如果一种字体内一个汉字只有一种字形的话,也就不会有所谓字形间的对应转换了,但由于实际上有很多字是存在多种字形的,如繁体、简体、异体、正体等,而新老两种汉字体系对它们往往又有不同的认定,因此字形间的对应转换问题也就不可避免了。由此可见,字形转换与字体转换虽属于不同层面,但又密切相关。只有把字形转换的问题解决好了,才能解决好字体转换的问题。
⑵将新字形贯彻到老式汉字中,值得商榷
新字形是跟手写体一致的印刷体,原只属于新式汉字,并不属于老式汉字。但gbk规范规定:在cjk汉字认同规则的总框架内,对所有的gbk编码汉字实施“无重码正形”,即在不造成重码的前提下,尽量采用中国新字形(“gb化”);对于超出cjk汉字认同规则的、或认同规则尚未明确规定的汉字,在gbk码位上暂安放旧字形。根据这条原则,gbk对许多繁体字都同时收入了新旧两种字形。例如“产”的繁体,它同时收入了新字形“産”和旧字形“產”。而对有些繁体字则只收入了其旧字形,如“为、伪”的繁体,只收入了旧字形“爲、僞”,而未收入新字形“為、偽”。这样,新字形就不是新式汉字的专利了。某些专为阅读古书服务的字典、词典,大概是采用了装有gbk的软件排版的,也把繁体字头改成了新字形写法。但问题是,这样做到底有无必要呢?老式汉字只是在阅读古书或跟还使用它们的人们打交道时才被使用的汉字,而古书上的和那些正被港澳台等地使用的老式汉字字体,本来都只有旧字形一种字体,人们已经习惯了,现在又多出一套新字形字体,是否有利于人们学习和使用老式汉字呢?的确是值得深入研究的。这样做的初衷,也许是为了扩大新字形的影响或覆盖范围,对于没有繁简对应关系的汉字来说,统统“gb化”,是新式汉字建设的需要,是完全应该的,但对于已排除在新式汉字之外的繁体字来说,也通通来一个“gb化”,似乎就是在建设老式汉字的新字体了。可是,老式汉字的字体还不够多吗?这样做是不是有点画蛇添足的味道呢?
我们认为,较为妥当的办法是:新式汉字的字体应当新形化(gb化),老式汉字的字体应当旧形化,除非修辞等特殊需要,同一“文面”应使用同一种字体。在老式汉字中搀杂进新形字体,在新式汉字中搀杂进旧形字体,都有违字体统一的原则。在某些字处理软件上,有时竟打印出新旧字形相互穿插的词语,如“轉换、鬥争、异樣”等,实在令人苦笑不得。
上一篇:西夏语言文字研究的回顾与展望