光明日报
对于学习中文的人来说,最主要的障碍莫过于掌握大量汉字。
尤其是在文言中,单音节词占绝大部分,也因此中国古人真的是会为了指示不同的客体而专门创造出一个字的。比如针对马的毛色不同,身高不同,乃至岁数不同,就能弄出几十上百个汉字来进行命名。
也因此,从先秦上古到十一世纪,汉字的数量一直在增长。比如目前发现和整理的甲骨文字数量有4055个;到了东汉《说文解字》中,汉字数量增长到9353个;三国时《广雅》收字18150个;一直到北宋《类编》收录的汉字,高达33190个;之后汉字增量放缓,直到清朝《康熙字典》共收字46933个,是古代收录汉字数量最多的字书。
不过汉字的数量并非只有这么多,现代字书如《汉语大字典》更是收字60370个,其中《难检字表》还录入了不少读音不详的汉字。
而将佛经、道经和石刻资料中发现的异体字也包含在内的《中华字海》,收字85568个。除了中国以外,受汉字影响的其他国家字书中也有大量汉字收录,比如日本《大汉和词典》收字五万个左右,韩国《汉韩大辞典》收字53667个。
日本《今昔文字镜》收字更是高达16万,其中还包含了越南旧时曾使用的以汉字为原型孳乳仿造的喃字。
虽然汉字数量众多,甚至还有衍生字形,真要统计一个准确数字是一件困难的事情。但从商朝至今,使用最频繁、字义稳定不变的核心汉字不超过300个。
这些核心汉字在任意一篇文本中,占用字数量的70%,余下29%则有2000个汉字,而那孤独的1%则属于其他几万个汉字,其中大多数属于在文献中出现过一次或几次,或只在特定情况下才使用的“一次性”的汉字。
而在27部先秦主要文献中,1076个汉字占全部用字的95%,而这些先秦典籍使用的汉字数量其实并没有想象中那么丰富。比如《诗经》用字2831个,《周易》用字1358个,《老子》用字824个,而《孙子兵法》用字更是仅有760个。所谓微言大义,可见一斑。
汉朝及以后的文献中,如《史记》用字4932个,其中868个汉字构成了全篇90%的篇幅,有1017个汉字只出现过一次。
如果以《四库全书》作为依据,其收录3071本书共计8亿字,使用了29088个不同汉字。如果将用字频率做一个统计,那么最常用的1000字构成了整部书篇幅的81%,2000字构成了92%,4000字构成了98%。
而《现代汉语常用字表》则是有3500个汉字,能够覆盖现代主流文本的99.48的篇幅。
所以中国九年义务教育的语文课标里要求“认识常用汉字3500个左右”这个标准,可以说是十分有依据。
不过认识汉字的数量足够多,并不代表一个人的汉语水平一定很高,因为还涉及到构词和造句的问题。毕竟仅有760字的《孙子兵法》不是所有人都读得懂,当这些单语素的字组成千上万不同的词和短语,要是还包含典故的话,那就是传说中“既熟悉又陌生”的感觉了。
这也是许多老外在学习汉字时最头疼的一件事——认识几千个汉字,但仍然读不懂一篇文章。
来源:梨视频
责编:王子墨
编辑:宗小宁 孙岱