Base64

Base64 是一种用 64 个可打印字符 来表示二进制数据的编码方法。

它的核心目的是：确保二进制数据在传输过程中（特别是通过文本协议）不会被修改。

想象一下，你需要通过传真（一种只能传文字和简单图形的旧设备）来发送一张图片的原始数据。

问题：图片、音频、文件等都是二进制数据（包含很多不可见的、特殊的控制字符）。而很多传统的传输系统（如早期的电子邮件）是专门为文本设计的。这些系统看到二进制数据中的特殊字符时，可能会误解为控制命令（如换行符、结束符），从而导致数据被错误处理或损坏。
解决方案： Base64 登场。它充当了一个“翻译官”，将原始的、不可读的二进制数据，“翻译”成完全由普通文本字符（A-Z, a-z, 0-9, +, /）组成的形式。这样，任何只支持文本的系统都能安全地传输这段数据。

Base64 的编码过程可以通俗地理解为：

将二进制数据“切块”：将原始的二进制数据每 3个字节（共 24 个比特）分为一组。
重新“分组”：将这 24 个比特重新划分为 4 组，每组 6 个比特。
“查表”转换： 6 个比特能表示的范围是 0-63（2^6=64）。每个 6 比特的值对应一个 Base64 索引表中的一个可打印字符。
- 0-25 对应大写字母 A-Z
- 26-51 对应小写字母 a-z
- 52-61 对应数字 0-9
- 62 对应 +
- 63 对应 /
- = 用作填充字符（后面会解释）

一个简单的比喻： 把原始数据想象成一种只有本地人能懂的“方言”。Base64 编码就像把这种“方言”翻译成全世界都能看懂的“普通话”（纯文本），以确保它在任何地方都能被正确传递。到达目的地后，再通过 Base64 解码把“普通话”翻译回原来的“方言”。

这是编码和解码的核心依据：

如果原始数据的字节数不是 3 的倍数，编码器会在末尾添加一个或两个 = 作为填充，以确保输出字符串的长度是 4 的倍数。

让我们对单词 "Man" 进行 Base64 编码。

转换为二进制 (ASCII)：
- M -> 77 -> 01001101
- a -> 97 -> 01100001
- n -> 110 -> 01101110
- 合并： 01001101 01100001 01101110
重新分组为 6-bit：
- 010011 -> 19
- 010110 -> 22
- 000101 -> 5
- 101110 -> 46
查表：
- 19 -> T
- 22 -> W
- 5 -> F
- 46 -> u

所以，"Man" 的 Base64 编码结果是 "TWFu"。

电子邮件：这是 Base64 最早的应用场景，用于在纯文本协议中发送附件。
在网页中嵌入小文件：通过 Data URL，你可以将图片、字体等小文件直接以 Base64 格式嵌入到 HTML 或 CSS 中，从而减少 HTTP 请求。
- 例如： data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAAUAAAAFCAYAAACNbyblAAAAHElEQVQI12P4//8/w38GIAXDIBKE0DHxgljNBAAO9TXL0Y4OHwAAAABJRU5ErkJggg==
存储二进制数据在文本环境中：例如，将复杂的二进制数据存储在 JSON、XML 或数据库的文本字段中。
简单的数据混淆：虽然不安全，但有时用于对数据进行简单的、一眼看不穿的表示。

Base64 是一种将二进制数据“文本化”的编码方案。它通过一套 64 个字符的“密码本”，将不可读的二进制数据转换成纯文本，从而确保数据在只支持文本的通道中能够安全、无误地传输。虽然它会导致数据体积变大，但在需要兼容文本系统的场景下，它是一个不可或缺的工具。