计算机差点变成巴别塔：Unicode 发明前，我们如何处理多语言文字

1. 糟糕的开头

想象一下：你给远在日本的朋友发了一封满载思念的电子邮件，结果对方打开一看，全是 ¡è¡£¡è¡£ 之类的乱码。

在 20 世纪 80 年代到 90 年代初，这并不是什么意外，而是日常。那时候，全世界的程序员都在玩一种极其危险的“代码杂耍”：为了在只能理解 128 个字符的 ASCII 世界里塞进本国语言，每个人都搞了一套互不兼容的补丁。

计算机世界差点就永远停留在巴别塔倒塌的那一刻。

2. 我的思考：为什么 1 字节的世界会爆炸？

最初，计算机是说英语的。7 位的 ASCII 码完美解决了 A-Z 和 0-9。但当中文（几万个汉字）、日文、俄文加入时，1 字节（256 个状态）的容器瞬间爆舱。

于是，世界进入了“代码页（Code Page）”割据时代：

中国大陆用 GB2312（后来演进为 GBK）。
台湾地区用 Big5。
日本用 Shift-JIS。
欧洲各国在 ISO-8859 的各个子集里打架。

最痛苦的是，这些编码往往是重叠的。同一个十六进制数值 0xA4，在一种编码里是希腊字母，在另一种编码里可能是半个汉字。如果你没有提前告诉浏览器你用的是哪张“地图”，它就会带你在乱码的荒漠里裸奔。

3. 技术硬核区：Unicode 的三个救赎阶段

为了终结这种混乱，Xerox 和 Apple 的先驱们在 1988 年提出了 Unicode。它的演进经历了三个关键的博弈：

阶段一：UCS-2 的“两字节万能论”

最初，人们天真地以为 65,536 个位置（2 字节）足够装下全人类的文字。这就是为什么 Windows NT、Java 和 JavaScript 的内部字符串至今仍深受 UTF-16 困扰的原因。但很快，随着生僻字、古文字和 Emoji 的激增，6.5 万个坑位瞬间填满。

阶段二：UTF-8 的逆袭

为什么是 UTF-8 最终统治了 Web，而不是技术上更对称的 UTF-16？因为 UTF-8 做到了向后兼容 ASCII。一个纯英文文件，在 UTF-8 下和 ASCII 下的字节流是一模一样的。这种“优雅的妥协”让旧系统可以在不崩溃的前提下平滑升级。

阶段三：平面（Planes）的扩展

现代 Unicode 定义了 17 个平面，每个平面有 65,536 个码点。目前我们绝大多数使用的文字都在“基本多语言平面（BMP）”中。而那些昂贵的 Emoji 和生僻字，则躺在“第一辅助平面”里。

// 深度揭秘：为什么 JS 里的 Emoji 长度是 2？
const heart = "❤️"; // 实际上由 U+2764 和 U+FE0F 组成
const smile = "😄"; // U+1F604，超出了 2 字节范围

console.log(smile.length); // 2 (因为它被拆成了两个 UTF-16 代理对)

4. FAQ 模块

Q1: 现在还有必要学习 GBK 之类的旧编码吗？

非常有必要。虽然 Web 是 UTF-8 的天下，但大量的工业设备、政府旧系统、甚至是 Excel 的某些旧版本 CSV 导出，依然在坚持使用 GBK。这就是为什么 daima.life 的“Unicode 转换”工具依然保留了对 Legacy Encoding 支持的原因——工具不能只看未来，还要修补过去。

Q2: 为什么我复制一段文字到记事本，还是会乱码？

这通常是因为丢失了 BOM（Byte Order Mark）。BOM 就像是文件开头的“自我介绍”，告诉系统：“嘿，我是 UTF-8 编码的”。如果没有这个签名，系统只能靠猜，而一旦猜错，乱码就会降临。

Q3: Unicode 会用完吗？

理论上 17 个平面可以提供 111 万个码点。目前只用了不到 15%。即便全人类发明新文字的速度翻倍，Unicode 也能支撑到太阳系毁灭的那一天。

5. 结尾

Unicode 的诞生，本质上是人类对“沟通”这一原始冲动的技术折现。它不仅是一张编码表，更是数字时代的《罗塞塔石碑》。

在 daima.life，我们处理每一个字符的转换时，都在致敬那些为了让全人类能共享信息而奋斗的编码先驱。不管你输入的是中文、梵文还是一个卑微的火星文，它们在 Unicode 的世界里都拥有平等的、唯一的坐标。

下一篇，我想聊聊 Base64 的伪装术：为什么它看起来像加密，但其实只是一场精妙的搬运。

计算机差点变成巴别塔：Unicode 发明前，我们如何处理多语言文字

1. 糟糕的开头

2. 我的思考：为什么 1 字节的世界会爆炸？

3. 技术硬核区：Unicode 的三个救赎阶段

阶段一：UCS-2 的“两字节万能论”

阶段二：UTF-8 的逆袭

阶段三：平面（Planes）的扩展

4. FAQ 模块

5. 结尾

推荐工具

Unicode 转换

Base64 编解码

相关阅读

那些藏在 URL 里的双重编码漏洞：一次 SQL 注入的完整路径

那个把对象直接 toString 传进 URL 的同事，把我们的接口搞崩了