资讯

公司资讯 行业动态 市场信息

核心提示:这个数字化项目也可以为很多中国人解决一个大难题——他们对中文数字化的不完善感到不满意。

10月26日报道 美媒称,看着中文字,人们可能会对18世纪耶稣会传教士的说法感同身受:“完全是出于对上帝的爱,一个人才能忍受学习它的痛苦。”这样的抱怨中国人已经听了400多年,如今他们终于决定做点什么。

据美国《纽约时报》网站10月25日报道,本月,中国政府计划推出大约3000个中文字符的编码。此举属于“中华字库工程”的一部分,这个宏大的工程将把以前没有电子形式的50万个字符进行数字化。到目前为止,国际计算标准unicode已经对80388个汉字进行了编码。该项目包含了全国56个民族的10万个字符以及来自中国书面语料库的另外10万个生僻字和古文字,项目动员了近30家公司、机构和大学,是有史以来规模最大的政府资助数字化项目。

报道称,这些字符长期囿居于蒙尘的古旧手稿上,它们将在数字媒体中获得新生。扩展到网上之后,中国和世界各地的人可以更加方便地接触这些文稿,这将有助于中国语言和文化的传播。

报道称,全球信息架构以使用西方字母表为主,给中国造成了一些困难,现代通信领域的重大创新——莫尔斯电码、打字机和ascii(美国信息交换标准代码)编码标准无一考虑到了中文字的使用。几十年来,中国科学家一直在努力打破字母媒介的壁垒。1974年,中国政府指示工程师和数学家寻找一种方式,来使用美国的字母键盘,最终他们配置了数千个击键组合,以便在计算机的标准键盘上键入数以万计的字符。

报道称,长期以来,中国人一直觉得他们在书面语言上具有优越性。北京政府认为,当前unicode中编码字符的数量不足以代表中国古代文化的丰富性,通过字库工程,中国人将解锁他们的文稿宝库,从古代的甲骨文到少数民族语言文字,都将进行数字化。通过孔子学院等方式在世界各地传播中国语言和文化,是北京过去十年提升软实力战略的组成部分,字库工程将把这个使命带入数字领域。

从学术论文到twitter消息的任何内容,只要能被人看到,就会有助于扩大中文的覆盖面。随着越来越多的中文进入网络空间,就会有更多的人开始使用它,其地位也将随着可见度的增加而上升,同时这个数字化项目也可以为很多中国人解决一个大难题——他们对中文数字化的不完善感到不满意。

去年,中国一家媒体报道了一个10岁男孩的故事。他有一个寓意吉祥的名字,使用了一个由“龍”和“天”组成的生僻字。校方在计算机系统中找不到这个字符,当他通过了一个重要考试后,他的姓名在证书上却只剩下一个普通而平淡的字——“皓”,他不能充分证明自己通过了考试。

报道称,还有很多其他影响更严重的例子:一些人因为身份证件上无法显示正确的姓名而无法使用医保或取钱。过去,人们可以通过手动填写生僻字来解决这个问题,如今,如果姓名没有正确的电子形式,这个名字可能也就不存在了。这样的案例实在太多,以致中国在本世纪初开始指定哪些字可用于起名。新增加的这些文字将在不限制家长的起名权的情况下解决这些令人头痛的问题。





网站地图