中文汉字竟天然具备普适全球的原生接口?完全没有汉字教育背景的外国汉字盲,竟能当场自学掌握超七万字大字集汉字的便捷数字化管理?
千百年来无数仁人志士、专家学者殚精竭虑探寻无解的千古难题,竟被二十个年轻学子当场几分钟凭基本常识推导解决?关切人人日常的拼音两大天然短板被完美弥补?
近年的AI大模型,其技术架构、生成路径竟在二十八年前的故纸堆中已被完整揭示?早已证实汉字的底层逻辑架构决定了中文注定是AI母语?
一个小分享会回望的四十年汉字丛林漂泊孤旅——
4月20日下午,铁城先生带着尚带油墨香的中华芯码时光档案《汉字汉字》书册,邀请部分媒体朋友及一些中外大学生,在北京一酒店会议室举办了一个小型的软件分享会。
作者上世纪八十年代大学学习有关微机课程时,了解到汉字是世界上检字效率最低的文字,便捷检字是汉字千百年来无数专家学者探寻而无解的世界难题。而计算机的发明,及七八十年代逐渐开始走进中国,又延伸出汉字输入计算机的难题,一时几乎使汉字到了面临生死存亡的历史关口。
用作者自己的话说,他大概属于天生的无条件的“民族主义者”,当然限于觉得自己民族的东西最优秀这种世界公民眼里的偏执“无脑主义”。在他眼里,汉字毫无疑问是不证自明的最优越最完美的文字。一方面打心眼里受不了汉字竟有这么个什么“之最”短板,另一方面根本就不相信完美的汉字会有什么短板缺陷。很“盲目自信”觉得这种什么所谓“难题”“缺陷”,根本就不是事,迟早会有专家搞定的,而且就这块也同样一定会超越一切拼音文字。而作为一个初入大学不两年的理工学生,当然不想会与自己一个外行有什么瓜葛,相信归相信,没放自己心上。
后因一两个因素刺激,他突然觉得,“便捷检字”说白了就是要特别特别简单,而“简单”就不一定要专家才能搞,甚至可能根本与“专家”就是相悖的。专家怎么可能搞特别“简单”的东西嘛,太“简单”搞出来也让人笑话,可能正是必须要最笨最蠢的人,反而才能干这种活。所以之后不时躺在铺位上翻动字典自己瞎琢磨,想着要笨到什么样才能最最简单快捷呢?直到八七年三月,临毕业前的某一天,照例躺床上翻字典瞎想时,突然灵光一现想到一个思路,觉得如果能证实可行,那么真是简单到就是完全不懂汉字的外国人也能掌握,不输英文盲也能键盘输入查找单词。
可这仅仅是一个思路而已,虽然感觉可行性很大,但要证实这种可行性并且得到完善实用方案,谈何容易?无数前辈,可能仅仅在数千常用字范围折腾,就耗尽毕生心血而最终徒劳无功失败告终。而汉字总数可能超过八万十万,面对如此浩如烟海的文字海洋,个人的几十年实在太微不足道了,甚至极可能折腾一生,到最后关头发现一个无法解决的bug而功亏一篑彻底失败。而作为即将迈出校门的学渣,却也不知天高地厚的想着开万世太平呢,这样交代一生可不是事。作为一个关系全民的中华文化重大课题,国家曾教育部、科学院等四部委联合成立工作组希望解决,这个思路可能还是很有价值,很自然想应该提供给国家有关方面,个人无力对付,有国家组织力量研究就是小菜一碟了。于是省会跑了些腿,一个毛头小子,当然是天真了。
只好还落到自己头上。到单位后,两三年利用业余时间先几千常用字简化方式试水,基本可行。但真要投入,海量工作量,意味着与正常的工作 、正常的生活是无法相容的,只能辞职离乡。心理学说自卑的人都好面子,最终真一世报销,可以不知所终,不用对谁交代。
90年简易验证,出来到94年完成基本集6763字集数字三码初步可行方案,97年购入电脑提速,完成基本集四码优化,98年完成基本集全方位扩展“友善汉字体系”,及字海超30000字三码验证,07年基本集新版四码,规则趋向极简,发现可以基于常识推导,08年推进扩展集、超七万字大字集四码实用,10年开发26键逍遥码,15年完成电脑平台植入,规则基本趋零,完全不懂汉字外国人也基本能实用,找到数字第五码附码,数字映射中排字母键,实现数字与拼音融合,常用字可以完全字母键实现全数字、数字加拼音、全拼音、拼音加数字输入,生僻字中排字母映射全数字输入,无需切换,完美弥补拼音输入同音字词多时需翻页找及生僻难字不懂音无法输入两大自身无解短板,也使新时代沦落“无用”的检字法复活人人相关的现实实用价值。
这两年开始整理这前后四十年的汉字芯码时光,人生欲迟暮,做个了结。某天恍然惊觉,芯码不但是汉字作为智慧芯片本身天然具备的序属性,并且可以通过基本常识直接推导出来,更令人喟叹的是,所有一切,竟是古人早已几百上千年的用老了的日常,也就是说,自己几十年的孜孜矻矻,不过是从新蹚顺了一条古已有之的千年故道!
这才敢想着扯这么个所谓“分享会”,如果借此机缘其能离了悖时旧主混出点生机,也是先人之功,如果一切依旧,反正先人东西要跟悖时人一起灰飞烟灭,也不赖自己哈。
上面当然这些大部是事后从作者闲扯了解,当日走进这个主题有些语焉不详又顶着个“汉字·全球”夸张而不得要领唬人名头的什么“分享会”,不过偶然机缘如例行公事填场个无所谓的活动。
稍有些讶异的是小会场一边排开五个貌似洋留学生在看电脑不知忙什么。后作者开始通过PPT介绍关于汉字检字法的一些故纸堆拉杂。说实话,现在大家都泡在手机里,都是轻阅读,有生字大都无视跳过,就算较真也或直接点搜获复制、手写什么的,谁还能记得什么老古董检字法啊。大略了解到汉字检字繁难,以前一直是困扰中国文化人的一个大麻烦,千百年许多文化大家参与其中自不待言,甚至王竹溪、钱伟长等大科学家都曾亲自投入,发明新部首检字法、钱码等,对外国人就更是学习中文的一大拦路虎了,有汉学家夸张为“光学习检字法就相当于秘书学校一个学期的课程”。
所以约半小时后,作者介绍说,旁边五个洋学生基本不懂汉字,刚刚现场临时通过十几页的图示PPT自学,应已基本掌握称为“芯码”的汉字编码方法,可以为任意汉字编码而实现输入检索,一时有些愕然,将信将疑。但接下来作者拿出整本打印好的数万生僻字,由大家任意选字现考,几个洋学生竟然真的基本能够磕磕绊绊编出四位数字码,作者在电脑上输入,果然正确打出相应生僻字!
一时有些不明觉厉,在座不乏学中文的,要输入检索这些生僻字都不免挠头。但谁知道呢,表面看到这出奇的一幕,也许背后不知道有什么猫腻呢。大约不过精心设计的一出把戏,随后的戏码,不出意料将是作者开始出来介绍推广他自以为得意的某种莫名其妙稀奇古怪的东东了。
但万没想到,真正让人吃惊的是随后一幕!作者根本没有来兜售他自己什么东西,而是和大家一起讨论到几个常识,然后让大家自己根据逻辑一二推导,竟然就直接得到了一个简单方法,可以非常便捷直观给任何汉字编出四位数字编码!所以称这不是他个人自以为是鼓捣的什么东西,而是汉字内在固有的属性,或可称为第四属性——序属性。
大家各各一试,还真不是幻觉,真真如此!就这?简单、自然,直是汉字一万年前娘胎自带。千百年无数仁人志士、专家学者前赴后继费尽心血苦寻无果,结果却就简单是几句话捅破窗户纸“山在那!”?这简直是老天开了个大号玩笑。
作者也开玩笑说在座各位今天不但是见证历史、参与历史,还千真万确亲手创造了历史!但还真是个玩笑,大家还没从“被历史”的懵圈中醒过味,台上话锋一转,哈哈玩笑了其实和大家各位或者说和任何现代人没有一毛钱关系,全部都是古人早已用了几百年上千年的日常操作!然后说出两个事实,大家哑然无言继续懵圈中。
云山雾罩一大篇,那么就如此简单连外国汉字盲都能掌握的便捷数字化检字,到底作者揭示出是古人什么样的日常操作???
大家知道小时学偏旁部首检字,有个很重要也很烦人的步骤是数笔画,因汉字结构复杂笔画多,数起来非常费心费力,甚至许多字很难数准。
但汉字称为方块字,如果避开复杂的汉字内部结构,就沿着汉字方块四边数,结合古人用了一两千年以上的珠算规则数,就会发现简单的不费吹灰之力!连完全不懂汉字的外国人都手拿把掐,而且正好得到一个四位数,千古检字难题迎刃而解。
具体说,相对方块有上右下左四面,相对每面,只有两种笔画,一种是只露出端点称为“点”,一种是整个笔画平行该面(上下面的横、左右面的竖)称为“平”,一个平按珠算规则当上珠以一当五。
1、“点”为1,一到三个点容易一眼看清,而四个点以上,要一一数清费劲,就一律算4,即超过四个以上的点不管多少都忽略不计。因而光“点”笔画,可能得到1、2、3、4四个任一数字,一如珠算下珠永远只用到1~4珠。如“木”四位数码为1232,“林”四位数码为2242;
2、“平”算5,任意面有“平”的话,则加上可能的任意点,可得到5、6、7、8、9任意结果数字,一如算盘如果有一颗上珠,则该位一定是5~9。如“杏”四位数码为1757,“和”四位数码为6583;
3、如果任一面同时又两个“平”,就直接算0,多余其他任何笔画忽略不计,一如算盘上档一旦有两个上珠,一定进位本档清空。如“倡”四位数码为6061,“居”四位数码为5061。
简单说就是“点1平5四边数,过四计四平平0”,就如此彻底的简单明了、直观便捷,所谓汉字便捷检字难检字效率世界最低消弭于无形,转身成为世界检字效率最高最简单全球普适的检字效率顶流。
只要涉足过汉字相关研究者,都会对汉字无限复杂多样的结构构成叹为观止,不论你总结出任何规律规矩,都会有大量的例外或难以取舍的情况,就是最基础的偏旁部首检字法,不到一万头的《新华字典》选用了189个部首的“庞大”阵容,也仍然有四五百字因难以取舍归类而在后面另行单列了一项“难检字”表,很难想象上面如此简单的一条规则就能应对数以万计无限复杂的所有汉字。
实际也确实如此。无限复杂无级变速的构成,叠加对码分效率同码字分布均衡的追求,在简单明了的总思路之下,前期各种规范、简化、分流规则,历经无数次“无用功”般的调整、取舍,无数次版本迭代,无数次奥卡姆剃刀砍削,最终让附加规则基本归零,仅仅需要硬性保留的几乎就一条“国(囗)型后三取内形”。因这类字不调整一下,则同类字编码都是“5555”,对大字集,同码字将达到数百个。
此外,分化为电子词典和纸质字词典两类。电子词典容错能力极强,大量增加容错码也几乎不影响使用效率,毕竟不是用于盲打的专业输入法。比如“耳”字下横一般带点斜,那么下码取不取呢?电子词典就两种都收,因而“5222、5212”都能打出“耳”字,“千”字外国人可能判断不清首笔是撇还是横,那就“5212、1212”都能打出“千”。而对主要面对国人的纸质字词典,经过大汉字集数万汉字实际分化总结,最终仅仅只需分三五种情况说明一下,有汉字基础的,一看就明白,无须专门学习,即使不管不看,实际使用中也能判断个八九不离十,如“耳、斗”这里习惯性装饰性倾斜,仍然归为“横”,下面不计入其“点”。
可以说“奔腾万码”那数百数千种各类输入法检字法,毫无例外每种在本就非常复杂的规则下,都隐藏了大量没有明示的不合理或不符合规则或无法纳入规则的硬性例外规定,也就是说从“科学”角度来说,几乎没有任何一款不是漏洞百出的,但“芯码”则可以一条最简明的规则做到科学、规范,几乎没有硬伤或无法合理处理的字。
新世纪以来,以前非常被关注、文化意义社会价值都非常重大的检字法研究逐渐了无声息。一方面是进入电子化时代,多种因素消解了检字法以前的独门重要性;另一方面,实际上是千百年努力、特别是近现代三次全国性检字法研究热潮几乎颗粒无收,使得专家、学界基本已经给实现便捷检字判了死刑,搞什么劳什子“检字法”几乎成为“永动机”一样的笑话。
但时代真已经终结了检字法重要性乃至其本身?事实大谬不然!是没有好的检字法才造成我们很多日常不便被当成理所当然,比如翻页找字、难字输入大费周章、一些单位人名输入很麻烦等等,但汉字芯码使这些问题都迎刃而解。
将芯码十个数字映射到中排字母键,A~L分别代表1~9,M为0,实现芯码与拼音的完美融合。大家知道光“yi”常用字同音字就有一百四五十个,要输入姓氏“伊”字,实际操作某拼音输入法翻页四次,但用芯码输入法,yi加一个上码6(h),输入“yih”就直接出现,如果进一步加入右码1(a),输入“yiha”,则选字都不用,一键上屏,极为方便。大家日常输入大多是想打,如果不是很熟练,要去脑中想出一个字的四边情况数出四边数字码,有一定难度,但仅仅要想出第一个上码,却是非常简单的,而拼音即使仅仅加上一个芯码数字上码为附码,也几乎能减少90%甚至99%以上翻页需要。
至于偶尔遇到姓名生僻字等情况,比如前面举例遇到一个人名“李翯”,“翯”字直接“mmjm”上屏,更是无缝连接信手拈来。
所以似乎这个芯码还真不完全是一个无聊某人自娱自乐自迷自道的过气冷门玩意,而疑似真有一定现实意义和价值,可能可以为每个人都多带来一点便利。
至于分享会主题中提到“中文AI母语”云云,本来感觉大抵就是蹭热点而已。但不想作者翻出蒙尘二十八年的旧稿《友善汉字体系》,其“江河湖海”四篇的“海篇”,除个别片段,从未在包括个人博客等任何场所晒过,作者半自嘲半庆幸“deepseek问世揭示了中文之于AI世界的天然优势,我这篇扒拉出来的旧文,应该可以不太被喷为神经病呓语了”。这二十几年前的荒诞怪文,竟然自以为是的“分析、论证”“自圆其说”了中文汉字将是智能时代、信息世界的母语乃至唯一“世界语”,写下“是先人数千年前洞彻抑或安排了一切,还是信息人类预向汉字先人下过订单?”自以为是的设问。看如下这个似乎荒唐可笑的片段——
竟然仿佛真切设计描摹了暗合今日天才们基于transformer架构、大模型训练、蒸馏、专家模型、深度思索推理等构建的人工智能世界,甚至犹有过之,所以要吐槽人家提前二三十年凹好了姿势来碰今天的磁,确乎有些下不了口哇。
哈,偶然参加这么个奇怪的“分享会”,被“分享”了这么些乱七八糟东东,一时也不知怎么说,在此也就这么拉杂分享一下。
如有好事看官扒拉到此,不知您看法如何哈?觉得这个什么芯码是有价值的吗?
花了四十年证明这事其实和自己无关,都是古人的锅,要背古人去背!才鼓捣这么个啥“分享会”,算做个了结,所谓“事了拂衣去,与我不相干。”
欢迎各位犀利看官,给出自己的见解!
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
责任编辑:kj005