HCY Blog

Base64

知识积累

Base64是一种将二进制数据编码为64个可打印字符的方法,确保数据在文本协议传输中不被修改。文章通过传真发送图片的比喻解释了其必要性,并简述了编码原理:将二进制数据按3字节分组,转换为6比特单位后查表映射为字符。读者可掌握Base64的核心机制与适用场景,如电子邮件附件和网页资源嵌入,理解其虽非加密工具但能保障数据完整性,同时注意编码会导致数据体积增加约33%。

Base64

Base64 是一种用 64 个可打印字符表示二进制数据的编码方法。

它的核心目的是:确保二进制数据在传输过程中(特别是通过文本协议)不会被修改。


核心概念:为什么需要 Base64?

想象一下,你需要通过传真(一种只能传文字和简单图形的旧设备)来发送一张图片的原始数据。

  1. 问题: 图片、音频、文件等都是二进制数据(包含很多不可见的、特殊的控制字符)。而很多传统的传输系统(如早期的电子邮件)是专门为文本设计的。这些系统看到二进制数据中的特殊字符时,可能会误解为控制命令(如换行符、结束符),从而导致数据被错误处理或损坏。
  2. 解决方案: Base64 登场。它充当了一个“翻译官”,将原始的、不可读的二进制数据,“翻译”成完全由普通文本字符(A-Z, a-z, 0-9, +, /)组成的形式。这样,任何只支持文本的系统都能安全地传输这段数据。

工作原理(简单版)

Base64 的编码过程可以通俗地理解为:

  1. 将二进制数据“切块”: 将原始的二进制数据每 3个字节(共 24 个比特)分为一组。
  2. 重新“分组”: 将这 24 个比特重新划分为 4 组,每组 6 个比特
  3. “查表”转换: 6 个比特能表示的范围是 0-63(2^6=64)。每个 6 比特的值对应一个 Base64 索引表中的一个可打印字符。
    • 0-25 对应大写字母 A-Z
    • 26-51 对应小写字母 a-z
    • 52-61 对应数字 0-9
    • 62 对应 +
    • 63 对应 /
    • = 用作填充字符(后面会解释)

一个简单的比喻: 把原始数据想象成一种只有本地人能懂的“方言”。Base64 编码就像把这种“方言”翻译成全世界都能看懂的“普通话”(纯文本),以确保它在任何地方都能被正确传递。到达目的地后,再通过 Base64 解码把“普通话”翻译回原来的“方言”。


Base64 索引表

这是编码和解码的核心依据:

索引字符索引字符索引字符索引字符
0A16Q32g48w
1B17R33h49x
2C18S34i50y
3D19T35j51z
4E20U36k520
5F21V37l531
6G22W38m542
7H23X39n553
8I24Y40o564
9J25Z41p575
10K26a42q586
11L27b43r597
12M28c44s608
13N29d45t619
14O30e46u62+
15P31f47v63/
填充=

关于填充字符 =

如果原始数据的字节数不是 3 的倍数,编码器会在末尾添加一个或两个 = 作为填充,以确保输出字符串的长度是 4 的倍数。

  • 如果最后剩 1 个字节,会补 2=
  • 如果最后剩 2 个字节,会补 1=

一个具体的编码示例

让我们对单词 "Man" 进行 Base64 编码。

  1. 转换为二进制 (ASCII):

    • M -> 77 -> 01001101
    • a -> 97 -> 01100001
    • n -> 110 -> 01101110
    • 合并: 01001101 01100001 01101110
  2. 重新分组为 6-bit

    • 010011 -> 19
    • 010110 -> 22
    • 000101 -> 5
    • 101110 -> 46
  3. 查表

    • 19 -> T
    • 22 -> W
    • 5 -> F
    • 46 -> u

所以,"Man" 的 Base64 编码结果是 "TWFu"


主要特点

  • 数据膨胀: 因为每 3 个字节的二进制数据会变成 4 个字节的文本字符,所以编码后的大小会比原始数据大 about 33%。
  • 不是加密: Base64 是一种编码,不是加密。它没有任何安全性,任何人都可以轻松解码。它的目的是保证数据的完整性,而非机密性
  • 可读性差: 编码后的字符串对人类来说是一串无意义的字符。

常见应用场景

  1. 电子邮件: 这是 Base64 最早的应用场景,用于在纯文本协议中发送附件。
  2. 在网页中嵌入小文件: 通过 Data URL,你可以将图片、字体等小文件直接以 Base64 格式嵌入到 HTML 或 CSS 中,从而减少 HTTP 请求。
    • 例如: 
  3. 存储二进制数据在文本环境中: 例如,将复杂的二进制数据存储在 JSON、XML 或数据库的文本字段中。
  4. 简单的数据混淆: 虽然不安全,但有时用于对数据进行简单的、一眼看不穿的表示。

总结

Base64 是一种将二进制数据“文本化”的编码方案。它通过一套 64 个字符的“密码本”,将不可读的二进制数据转换成纯文本,从而确保数据在只支持文本的通道中能够安全、无误地传输。 虽然它会导致数据体积变大,但在需要兼容文本系统的场景下,它是一个不可或缺的工具。