曾经有段时间对计算机文字编码和字体设计及其渲染感兴趣。
查了一些关于Unicode的资料,在知乎读到一篇文章《困扰 Unicode 的幽灵文字》的翻译版本。
原英文版本地址:https://www.dampfkraft.com/ghost-characters.html
上个世纪日本经贸部建立了Unicode的JIS标准,标准发布后,有一些文字没有人能认得出来,也不知道它们怎么读,从哪里来。
这些文字被称为“幽灵文字”。
在1997年,日本开展了一项调查,决定把这些幽灵文字的来历给找出来,查明其出处。
在一本厚厚的地理书籍去找一个字,而且是在没有页面引用的情况下找一个字,无异于在大海捞针。
尽管如此,他们还是找出来了大多数,除了有一个字还是没有找出来。
不得不佩服日本人对文化和教育的严谨和执着。
或许这和一直以来日本文化对于教育的无比重视有关,谨慎、注重细节已经成为他们平常待人处事准则。
可惜的是,尽管这些文字的来历已经查明,但这些文字早已随普及开来的JIS标准在Unicode的CJK统一期间被加入进去了。
CJK标准统一期间,这些文字有了他们独立的“幽灵文字”集。
Unicode为了照顾其标准的兼容性,不能对已编码好的文字进行随意删除。
于是乎,“幽灵文字”会永远游荡在每一台计算机里,直到永远……
“幽灵文字”事件,给后来的Unicode文字编码敲响了警钟,新加入的文字,必须要注明其出处以及其出现的具体文献或照片。
Unicode文字编码,编字难,查找其出处更是难上加难。
后来又了解到,文字编码工作者,为了寻找文字的出处,有时候要花费大量的精力和财力到当地走访和调查取样,而且这项工作在一般人眼中并不受人理解。
感谢这些文字编码工作者,没有你们的工作,就见不到计算机对知识传播的伟大贡献。
3 条评论
repostone · 2019年5月30日 下午5:19
不知道到底说的啥。
小宝 · 2019年5月30日 下午8:43
呃,感兴趣的话可以读一下知乎那篇译文的,说的更清楚些。
https://zhuanlan.zhihu.com/p/43083166
Powered386 · 2022年9月1日 上午11:42
windowsNT4在安装时也会显示一些奇怪的字符(然后蓝屏),但看起来并不是这种”幽灵文字“