曾经有段时间对计算机文字编码和字体设计及其渲染感兴趣。

查了一些关于Unicode的资料,在知乎读到一篇文章《困扰 Unicode 的幽灵文字》的翻译版本。

原英文版本地址:https://www.dampfkraft.com/ghost-characters.html

上个世纪日本经贸部建立了Unicode的JIS标准,标准发布后,有一些文字没有人能认得出来,也不知道它们怎么读,从哪里来。

这些文字被称为“幽灵文字”。

在1997年,日本开展了一项调查,决定把这些幽灵文字的来历给找出来,查明其出处。

在一本厚厚的地理书籍去找一个字,而且是在没有页面引用的情况下找一个字,无异于在大海捞针。

尽管如此,他们还是找出来了大多数,除了有一个字还是没有找出来。

不得不佩服日本人对文化和教育的严谨和执着。

或许这和一直以来日本文化对于教育的无比重视有关,谨慎、注重细节已经成为他们平常待人处事准则。

可惜的是,尽管这些文字的来历已经查明,但这些文字早已随普及开来的JIS标准在Unicode的CJK统一期间被加入进去了。

CJK标准统一期间,这些文字有了他们独立的“幽灵文字”集。

Unicode为了照顾其标准的兼容性,不能对已编码好的文字进行随意删除。

于是乎,“幽灵文字”会永远游荡在每一台计算机里,直到永远……

“幽灵文字”事件,给后来的Unicode文字编码敲响了警钟,新加入的文字,必须要注明其出处以及其出现的具体文献或照片。

Unicode文字编码,编字难,查找其出处更是难上加难。

后来又了解到,文字编码工作者,为了寻找文字的出处,有时候要花费大量的精力和财力到当地走访和调查取样,而且这项工作在一般人眼中并不受人理解。

感谢这些文字编码工作者,没有你们的工作,就见不到计算机对知识传播的伟大贡献。

分类: 闲暇时光

3 条评论

repostone · 2019年5月30日 下午5:19

Google Chrome 63.0.3239.132 Google Chrome 63.0.3239.132 Windows 8.1 x64 Edition Windows 8.1 x64 Edition

不知道到底说的啥。

Powered386 · 2022年9月1日 上午11:42

Microsoft Edge 104.0.1293.70 Microsoft Edge 104.0.1293.70 Windows 8.1 x64 Edition Windows 8.1 x64 Edition

windowsNT4在安装时也会显示一些奇怪的字符(然后蓝屏),但看起来并不是这种”幽灵文字“

发表回复

Avatar placeholder

您的电子邮箱地址不会被公开。 必填项已用*标注


The reCAPTCHA verification period has expired. Please reload the page.