首页/心系八方/正文
王谢杨追寻生僻字数字化之路:从文献海洋到国际字符编码标准

 2025年02月12日  阅读 10

摘要:如果找不到上述证据,或者没有清楚地显示证据上的单词,王只能在他的脑海中写下这个词,然后等待一天在文件海洋中再次见面-现在,假装在那里在大脑中有四十多个词。幸运的是,寻找证据的过程并不无聊,追踪单词的起源的过程是诗意的。Wang喜欢登山探险家乔治·马洛...

如果找不到上述证据,或者没有清楚地显示证据上的单词,王只能在他的脑海中写下这个词,然后等待一天在文件海洋中再次见面 - 现在,假装在那里在大脑中有四十多个词。

幸运的是,寻找证据的过程并不无聊,追踪单词的起源的过程是诗意的。 Wang 喜欢登山探险家乔治·马洛里( )的故事。在现代登山设备出现之前,这位1886年出生的探险家试图多次攀登珠穆朗玛峰,并最终为此牺牲了生命。一位记者问他:“你为什么要爬珠穆朗玛峰?”乔治给出了一个简单而著名的答案,“因为那座山就在那里。”

步骤2:单词的“身份”

挑选角色和认证测试都是关于向制定国际角色编码标准的组织提交申请 - 这是稀有字符数字化的第二个障碍。

电子设备并非天生显示汉字。计算机,手机...这些电子系统的基本原理是处理二进制数据。为了允许电子设备显示中文字符,有必要在汉字和二进制数据之间形成映射关系,这需要编码汉字。

现代计算机出生于西方国家,在设计开始时没有考虑汉字。 1980年代最具代表性的个人计算机是美国的IBM PC,仅包含系统中的256个字符,即字母,数字和符号;早期的系统不支持中国人 - 在那个时代开始接触计算的中国人一定是我仍然记得流行的产品,例如“中国软件”,“中国卡”和“中国机器”。

IBM PC |

与英文字符相比,汉字的数字化要复杂得多。

首先,数量是一个障碍。 26个字母可以形成所有英语表达式。对于中文意识形态图(或词素字符),每个字符都是一个独立的符号,编码数量与英语的水平不同样。

汉字的展示也更加复杂。 IBM PC中的英语字符以9*14像素点矩阵的形式显示,而汉字至少需要16*16像素才能清楚地显示 - 这进一步提出了存储要求。当时,计算机存储容量仍处于KB的顺序,并且很难容纳大型和大型汉字。

但是,电子信息的浪潮会影响现代性无与伦比的每个地方。 BP机器(),游戏机,相机...这些全球流行的电子产品立即在中国流行,迫切需要解决对汉字数字化的需求。

1991年,一家名为的公司通过自定义编码规则,并将中文字符发送到其自己的BP机器上 - “我是,韩牛”,通过自定义编码规则来编译“中文角色信息表示及其编码角色集”。它曾经成为高端BP机器的象征。当时这是一个流行的解决方案。各种电子设备和操作系统各自编码它们,以解决中文角色显示的需求。

BP机器|百和百科全书

在像BP机器这样的产品中只需要显示汉字,自我编码可以解决问题。但是很快,计算机变得流行。

与BP机器不同,计算机交互是双向的,而普通消费者中汉字输入的问题 - 这种交互仍然是跨系统和跨产品。仅显示汉字,这不足以显示汉字具有统一的编码标准。否则,可以在软件A上输入和显示的中文字符可能是软件B上的一堆乱码代码。

没有统一标准,输入方法将存在问题。如果输入方法的编码标准与计算机的编码标准不一致,则输入方法键盘上将显示一个单词,但无法显示计算机文档。

1991年,标准(也称为代码)在这种情况下出生。它准备了17*代码位(17个称为“平面号”,每个平面都可以容纳一个字符),并用于使整个世界。国家的角色,标点符号和符号。这等同于将先前代码中的单个动作从属标准。更重要的是,它在全球适用。

汉字是一个全球性格,在中国大陆,香港,澳门和台湾,日本,朝鲜,越南,新加坡和其他地方很受欢迎。实际上,早在1960年代后期,日本就开始考虑如何将超过2,000个日本角色塞入计算机系统中,并且是第一个研究汉字数字化的国家。

中文,韩语,越南和日本汉字标准的角色“德”的变化|

日本最终开发了JIS C 6226编码标准;在韩国,该标准具有KS C 5601;在中国;在香港;在中国,整个汉字世界的编码标准被分为零件。

如果您经历了这段时间,您很可能会记住,在日本或台湾玩盗版游戏时,您需要先准备转码器,还是 ?您是否还记得游戏中称为“ Get ”的“有能力的部长和危险的英雄”?

|百杜百科全书

标准角色集中的汉字称为“中国,日本和韩国统一意识形态图”。使用汉字的人遵循相同的原则和标准,并提交汉字进行编码。在不同区域具有相同形状或差异很小的汉字,并且字符的含义是顺序排列的,并将其放置在相同的代码下 - 真正的全球化。

角色被发现和编码。这是一个汉字“ Qian and ”。它不仅获得了计算机系统中唯一的位置,而且在世界汉字家族中找到了一个位置。

步骤3:连接的价值

Lun(Lun2)是,起源于“ Shan Hai Jing”,意为月亮和山。 Wu 的父母用这个词的简化版本命名了他。

标准字符集中LUN2字符的代表字形|由受访者提供的照片

这使他的生活更加困难,比普通人要飞行,乘​​火车,使用支付宝和网上银行来转让资金。

电脑上的字怎么放大_电脑上字放大了怎么缩小_放大电脑屏幕的字

该标准解决了一个问题,即汉字没有统一的标准,但是对于稀有字符,这还远远不够。

在17架标准飞机中,目前仅启用了0,第1、2、2、3和14架飞机,用于编码特定字符,其中汉字在0th,2th和3rd 中编码,通常将新添加的中文字符放在第三层。

为了确保实用性和效率,并且不会浪费有限的代码点,编码标准的汉字优先考虑了常用汉字的收集,并且使用频率较低的稀有字符排队排队。如果您很幸运并且有足够的证据,您可以有机会站在每两年一次提交新单词的标准前,等待3 - 5年的审查后将其包括在标准中 - 这是未编码的汉字的常规周期获得编码。

对于每个不常见的单词用户来说,这样的时间跨度太长。

第一代ID卡|百度百科全书

2004年,公共安全部在全国范围内推出了第二代ID卡,将由塑料信封和卡组成的ID卡升级到带有电子芯片的版本。公共安全字体库也已升级,有4,600多个手写的稀有字符进入公共安全系统,并且电子字体与常用的汉字一起印刷在身份证上。

当时,公共安全系统使用PUA代码(私人使用区域,使用)来表示这些超过4,600个稀有字符 - 这是标准系统下的私人代码区域。如果某人想显示在标准框架下尚未编码的标准字符,他可以使用这些私人代码区域的编码来临时表示相应的字符。但是,使用PUA代码的字符很难在其他电子设备或系统中显示,更不用说相互通信了。

当进入“ +移动时代”时,这组PUA代码作为折衷解决方案引起了新问题。

可以在身份证上显示的罕见单词在其他信息系统中不存在。购买机票,在线购物,在线银行传输,在线评论...大多数需要真名系统的地方,这些罕见的单词只能在拼音中甚至一个 */□而不是符合真名系统规范。在流行期间,像Wu 这样的稀有角色的持有人更加难以向前发展:一个北京公民,其中包含“日本(WEI3)”的名字给人们每天给人们留言,说他无法使用“健康代码”因为他无法使用真实姓名,所以他正处于进入并离开所有公共场所,公共交通和服务的时期,“我很难前进,所有社交活动基本上都被暂停。”

Wu 的银行卡只能在 |由受访者提供的照片

还有一些妥协的方法。云南在丽明安格()的露森(Lisu)村民将古老的姓氏“ nia4”共同改变为鸭子 - 生活很方便,但他们并不幸福。

2022年,国家标准委员会和相关部门共同启动了新版本的“信息技术中文编码角色集”(GB -2022),增加了17,000多个稀有汉字。这是中国的官方编码标准,具有强制执法权,并根据更新进行了更新,但它仅着眼于中国部分(包括汉字和少数民族角色),并拥有特别机构和行政部门来促进和监督实施。

2000年和2005年有两个国家标准的版本,其中2005年的版本包括70,000多个汉字。但是,必须强制使用超过20,000个汉字,而建议其他人字符。这会导致大多数市场上的信息技术产品支持多达20,000多个汉字。

17年后启动的新版本的国家标准被更改为强制性全文,需要数字化的汉字分为三个级别,电子产品的1级,包括27,000多个字符;政府事务和公共服务系统的第3级应该实施,即所有汉字(包括角色)的稀有和罕见和罕见的数量。

这至少可以防止罕见角色的用户被封锁生活的基本需求,例如购买火车票和在线银行付款。

步骤4:画一个美丽的词

2017年,乡村委员会坚持编译《王海扬》(Wang )发现的“瓜库西岛村纪事”。他以《乡村编年史》作为证据,并将其编码为“吉库”。五年后,“ ”和大约300个稀有单词一起使用了。通过审核,获得了标准中的代码。

标准字符集中单词“后”的代表形状|由受访者提供的照片

但这并不意味着计算机可以创建“医疗通话”。

显示中文字符的计算机的逻辑大致如下:首先,计算机读取一串数据并确定它是否是文本数据。如果是这样,则字体文件中的字形将根据数据(单词的编码)调用 - 一系列渲染操作后,该字体将在计算机上显示。

换句话说,编码仅解决数字系统中是否存在单词的问题。要显示单词,还需要字体库和字体形状。

当新版本的“信息技术中文编码角色集合”发出草案以征求意见时,服务提供商的字体库之一开始为稀有字符构建字体库,其中两个是:首先,让这些字符遵循编码标准的新版本(如果字形编码和表现绩效的代码不在同一标准中,则也将有无法显示的问题),第二个是设计。

稀有字符的特征在第二步中被放大。以下是稀有单词的列表,您可以直观地感受到这些单词的外观。

一些稀有词| gb -2022

当设计师面对以前从未接触过的字形时,只能引用标准文件的纸版本(无法获得字体的电子文件)。毫无疑问的单词复杂的笔画只是纸上的毫米,而设计师“不可避免地会误认为”。例如,如果您正在阅读,则可以想象,如果没有屏幕放大功能,不要错过每一个笔触的困难。

保持美是另一个问题。传统字符的结构大多是简单的,并且设计时有一组规则,例如“上下形状相同,上下形状很小”,“左右形状相同,左派和右边是大的“等等。无论这些罕见的话,它们都像肿瘤一样,所有组件都挤在一起。或者它们太轻而轻,就像尚未完成的激进分子一样。

在设计传统字符时,也可以从以前的设计中重复使用经常出现的组件/激进分子。稀有字符的大多数组成部分都是罕见的,例如“兙”,“兙”和“六”。您很难在普通字符中看到类似的组件。面对这些一次性零件,设计师只能重新检查其位置和大小,然后从一个中风开始,例如返回手工艺时代。

与写作相比,“这更像是绘画” - 字体库的产品经理将其描述为如此。

电脑上的字怎么放大_电脑上字放大了怎么缩小_放大电脑屏幕的字

稀有字符和传统字符之间的比较|

通过该级别的漫长旅程已经进入了关键的一步 - 输入。

步骤5:不是终点的输入方法

这是您需要输入的罕见词。您将如何输入?飞跃在哪里?

不认识他们是正常的。您可能会猜测它们基于熟悉的字形,在输入方法中键入“ chou”和“ pang”,然后按页面搜索它。遗憾的是,他们阅读了“ qu4”和“ xi1”。

由于它是“不熟悉的”,因此通常会遇到您无法阅读或写作的情况。最常见的拼音和中风输入将撞到墙壁。面对这些问题的输入方法需要新的输入逻辑 - 单词拆卸。例如,如果您有“就”,则用户将输入最常见的“就”,“就”和“就”,希望找到合并的单词。

输入方法已在内部构建了一个罕见的单词键盘项目组,模拟了用户如何一个一个罕见的单词逐一拆卸。这是纯粹依靠直觉的另一项手动工作。角色拆除者A的想法与B完全不同。

例如,“山”一词被“山 +选择”的想法分解,而有些则更加折断,而它们被分解成“山 +和 +李子”,而另一些则使用了模糊的拆除闯入“山 +峰”的方法。

这需要不同的人将其拆除两次和三次。不寻常的单词键盘项目团队在3个月内拆除了17,000多个角色,总共拆除了90,000多个角色。如果用户反馈不好,请从一开始就将其删除。目前,每天通过稀有单词键盘输入超过40,000个单词。

不寻常的键盘|由受访者提供的照片

但是,由于最接近用户和最直观的链接, 输入方法总是会收到用户的投诉,“为什么可以在我的ID卡上键入的所有单词,您在输入方法中没有它们” - 用户经常认为稀有单词是输入问题,而输出问题都是与输入方法有关的。

“ 90%的用户认为输入方法可以解决稀有单词的问题,但他们不知道稀有词的数字化实际上是一个复杂的系统项目,” 的项目总监Gu 解释说。单词解决方案。 “除了输入外,还必须解决不常见字符的显示,存储,传输,输出,打印和其他链接,并打开所有链接以数字化不常见的字符。只有当在该字符中平稳地使用了一个不常见的字符时信息系统。”

为了实施新的国家标准,腾讯输入方法开始在2022年转换输入方法产品。它放弃了已使用16年的基础体系结构,更改了以前在PUA代码中显示的字符,并扩展了字体。

这是一个困难而漫长的过程。理想的终点是,在数字世界中可以显示,进入和使用而没有障碍。回报的起点是允许整个社会和所有数字系统实施它。实施统一的标准 - 1990年代编码标准的混乱仍然对当今有很大的影响。可以在身份证上显示的单词在其他系统中仍然“找不到”。即使在同一家医院,药物的注册和处方也可能是可能的。有两组代码。

不常见单词收集的迷你程序|截屏

中国信息研究办公室主任 说:“实际上,每个系统并非必须重新编码它,并进行良好的转码映射,以便每种产品都可以显示在国家标准上指定的单词。”电子工业和信息技术部电子行业标准化研究所。从技术上讲,这些很容易,关键是要使整个社会意识到统一稀有词的标准的重要性。”

今年,电子标准研究所提高了其在新的国家标准上的宣传工作,并正在与主管部门合作并支持主管部门进行标准合规性测试和其他工作。

数字系统的当事方也在试图联合起来。今年春天,在联合国中国日,一项迷你计划,用于收集稀有角色,结合了腾讯,电子标准研究所,中国角色图书馆和其他机构曾经很受欢迎。到今年6月的夏季,Mini计划的21,000人参加了提交5,000多个稀有角色(重复数据删除之后),其中300多个稀有角色通过此渠道进入了专家认证过程,并且是预计明年赚取。新的国家标准和国际标准。

迷你计划中提交的十大稀有词|被访者提供的照片

8月1日,还将正式实施强制性的编码-2022角色编码国家标准。 “后后”一词尚未在2022年编码,尚未进入新的国家标准。 - 在进入新的国家标准之前,没有人有动力完成后续步骤,并且“名完”一词被抛入字体设计和进入字体库的步骤。

村民没有灰心。他们还专门写了一首歌。村里的孩子们从小就唱“蜿蜒的河流,涟漪的涟漪”。请记住,村外面有两条小河流,这首歌被称为“ 小学之歌”。

希望下次他们进入Zhan时,他们会看到自己的家。

参考

[1]无与伦比的字符的提交和编码状态,名称,声音和含义验证

[2]在罕见地方的字符编码的当前状态

[3] Chen 。中国在ISO/IEC JTC1/SC2中的活动以及中国编码的国际标准化[J]。中国信息科学,2007,21(4):122。

[4]

[5]

[6]

版权声明:本文为 “博览广文网” 原创文章,转载请附上原文出处链接及本声明;

原文链接:http://wen.bjhwtx.com/post/3090.html

标签:

博览广文网

博览广文网为所有文学爱好者、新闻爱好者、关注生活多方面内容的观众朋友提供多方位的内容呈现、提升阅读空间、填充碎片时间,开阔读者的视野、增长见识、了解民生、一个让您不出户尽知天下事的网站平台!
热门标签
关于我们
广文舒阅网—让天下读者有家可归!这里汇聚了各类优质文化信息,无论是全球热点、历史故事,还是实用百科、趣味探索,您都能轻松获取。我们希望用阅读点亮您的世界,让每一次浏览都充满收获和乐趣。
导航栏A标题
广文舒阅网
扫码关注
联系方式
全国服务热线:0755-88186625
Q Q:8705332
Email:admin@lanyu.com
地址:深圳市福田区海雅缤纷国际大厦5层501
Copyright 深圳市蓝宇科技有限公司 版权所有 备案号:京ICP备20013102号-1