组字
汉字历史上是不断在组新字的,目前所见的各种汉字并非一口气完成在某一年代,而是应时代需要渐渐发展成今的面貌。例如:“人”这个字商朝就有了,凹凸这二字则是在唐朝的时候才出现。
此外不同的行业有不同的用字需求因而组字。例如传统国乐在记谱上会用到减字谱、工字谱,台湾政府各专门机关也有各自的特有用字:如户政用字等等。
组字往往比组词在表意上更有效率,但组字组得太复杂又适逢变成常用字的话,就会衍生简化的努力。
简化
汉字书写复杂,传统印刷更复杂。所以自古以来就已经有许多的简字,但多半是人民私下使用,正式的文书仍然是用繁体字,而虽然活字印刷是中国人发明的,但由于汉字的结构特性,活字印刷帮助有限。
楷书欧阳询的《九成宫醴泉铭》。
楷书欧阳询的《九成宫醴泉铭》。
近代,处于强势地位的西方文明开始进入东亚,整个汉字文化圈的各个国家中纷纷掀起了学习西方的思潮。当中有人坚持汉字的传统,但亦有不少人鼓吹放弃使用汉字。这些鼓吹放弃汉字运动的立论“汉字落后论”,内容为:跟西方拼音文字相比,汉字是繁琐笨拙的。尤其在近代个人电脑还没有普遍化以前, 因为汉字不能透过打字机书写,而必须使用巨型的排版房的铅字,也就是说汉字已成为教育及资讯化上的瓶颈。但是近代个人电脑普遍化以后,汉字能透过个人电脑输入,此种论述已经不具说服性.许多使用汉字国家以政治推行的方式,进行了不同程度的汉字简化,甚至还有完全拼音化的尝试。日本的使用假名方案以及汉语多种拼音方案的出现都是基于这种考量。
中华人民共和国1956年1月28日发布《汉字简化方案》,1964年5月审定通过《简化字总表》,1986年经少量修订后重新发表,一直在中国大陆使用至今。1977年,曾公布《第二批汉字简化方案(草案)》,发布“二简字”,试用一段时间(约八年)后因为字形过于简单且混乱而于1986年正式宣布废除。新加坡和马来西亚分别发布了同《简化字总表》相同的简化字表。
日本、韩国也有各自的汉字简化,但都没有中国简体字激进。
拉丁化
近四百年来,西方人和华人本身都提出了很多汉字的拉丁化方案,主要包括:
* 威妥玛拼音(1867年)
* 邮政式拼音(1906年)
* 国语罗马字(1928年)
* 北方话拉丁化新文字(1931年)
* 汉语拼音方案(1958年)
* 粤语拼音(1993年)
* 通用拼音(1998年)
现在,汉语拼音方案是使用最广且被联合国接受的汉字拉丁化方案。
“汉字落后论”的说法存在了很长时间,认为汉字是教育及资讯化的瓶颈,并有“汉字拉丁化”甚至废除汉字的推动行为。现在一般认为汉字也有突出优点,初始学习难度虽大,但掌握常用字之后就不会有类似大量英文单词的继续学习问题,且其表意特性也能充分训练人脑的学习能力。在电脑输入问题获得解决后,“汉字落后论”及“汉字拉丁化”在现实上已逐渐被大多数人抛弃。
异体字整理
除了造字以外,另外还有许多异体字。他们是意义和读音完全相同,但写法不同的字。有的是因为历史缘故,有的是名人造字,如“和”与“龢”,“秋”、“秌”和“龝”等。
中国大陆于1956年公布整理异体字表,废除了大量异体字,但后来因为各种原因恢复了部分异体字。如“於”曾被当作“于”的异体字废除掉,但在1988年发表的《现代汉语通用字表》中又恢复成为规范字,因为姓氏中于、於同时存在,不宜合并。另外,不同地区对异体字的取舍有所不同,例如:韩国就以汉字各种异体字中最早出现的样式为标准写法。所以,在韩语汉字的标准中,取“甛”而不取“甜”、取“幇”而不取“帮”、取“畵”而不取“画”。
在台湾,也有所谓的异体字,例如“台”与“台”、“体”与“体”以及“柜”与“柜”等等。
计算机处理
主条目:中文信息处理
由于打字机键盘在设计时本身没有考虑汉字输入的问题,输入汉字往往比输入拼音文字困难。汉字没有经过中文打字机的普及,直接进入了电脑中文信息处理阶段。在电脑发明初期曾引起汉字能否适应电脑时代的问题,支持汉字拉丁化的学者甚至以此为理据。
随着各种中文输入法的出现,汉字的计算机输入、存储、输出技术得到了基本解决,大大提高了中文写作、出版、信息检索等的效率。目前中文输入法有上千种之多,主要包括表音输入和表形输入两类,也有两者兼之的。汉字的语音输入、手写识别和光学字符识别(OCR)技术也已得到广泛应用。
如收录数千字的GB 2312(中国大陆)、Big5及CNS 11643(台湾)、HKSCS(香港)、JIS(日本),以及收录两万多字的GBK(中国大陆)、国际标准Unicode、ISO 10646等等。在这个过程中,因为技术及其他种种因素,在收录字数,及收录字体等方面或做不同层次的调整。
中国政府为了解决邮政,户籍整理等领域用字的迫切需要,于2000年实行了一个新的汉字编码的国家标准《汉字编码字符集-基本集的扩充》GB 18030-2000,共收汉字27484个。并强制所有在中国售卖的计算机产品必须支持这个新的国家标准。
汉字编码
汉字的基本字体:篆、隶、楷、行、草。本图还包括了书法和印刷的美术字体,前者如欧体、颜体,后者如宋体、黑体。
汉字的基本字体:篆、隶、楷、行、草。本图还包括了书法和印刷的美术字体,前者如欧体、颜体,后者如宋体、黑体。
为进行信息交换,各汉字使用地区都制订了一系列汉字字符集标准。
* 国标码(“国标”是中华人民共和国国家标准的简称)在中国大陆使用。GB 2312收录6763个汉字,GBK收录20912个汉字,最新的GB 18030收录27533个汉字。
* Big5码。收录13053个汉字。在台湾和香港使用的一字节或两字节编码。
* Unicode:中国政府不接受。中国政府要求在中国大陆出售的软件必须支持GB 18030编码。
* 在国际通信化和软件设计领域,中日韩统一表意文字编码收集了汉语、日语、朝鲜语/韩语中的汉字集。
动态组字
主条目:动态组字
到目前为止流通的各种汉字编码规格,过去号称万码奔腾,是在没有文字学专家的指导下,科技人员以欧美处理字母的作法在处理汉字,汉字就因此被西方资讯技术所束缚,走向无法造新字,只好固定字数,弱化文字本身表义机能,把字当作字母来组词以表达事物。结果制作、运行成本远高于表音文字不说(汉字常用字就一万五千多,最简化也要六千多),汉字的诸多形、音、义等问题更不能很好的解决,中文还因此变成了一个停滞发展的文字系统。反观英文可是仍然不断在演化,例如“Central Processing Unit”一开始是很复杂的一个词,但是后来为了频繁的使用需要,缩写为:“CPU”;在中文全名是“中央处理器”,无法找到合适的中文缩写,不同科技产业都有如此表达新技术名词的痛苦,这使得欧语文大量侵蚀了中文。
经过数十年的研究,两岸各有不同的人研究出动态组字这新兴技术,这技术简单的来说,就是借由资讯科技重新解放汉字原有的生命力:任何汉字都可以由基本的百来个字根(也就是汉字的字母)以二维编码的方式即时合成为汉字,简单的理解,就以前面的中央处理单元来说,可以形声的原则创新字:“电心”,既有效率,且本身表意,学过百来个字根的,就可以知道它代表甚么,再赋予一个读音(通常与心同音),如此这般以此类推,就可以一次解决汉字形音义以及成本高的等等问题,使汉字与西文站在同样的资讯平等点,甚至因表意的特性比起西文更占新时代资讯处理的优势(比较好做电脑理解)。
陶器上的符号——甲骨文——铭文——大篆——小篆——隶书——楷书(然后出现各种字体)详细参见初一历史书