8.4. 二进制数据类型

bytea 数据类型允许存储二进制字串。 参阅Table 8-6

Table 8-6. 二进制数据类型

名字存储空间描述
bytea4 字节加上实际的二进制字串变长的二进制字串

二进制字串是一个字节数值的序列。 二进制字串和字符字串的区别有两个: 首先,二进制字串完全可以允许存储字节零值以及其它"不可打印的"字节 (定义为范围在 32 到 126 之外的字节)。 字符串不允许字节零,并且也不允许那些从数据库选定的字符集编码里面认为是非法的其它字节值或者字节序列。 第二,对二进制串的处理就是实际上的字节,而字符串的处理和取决于区域设置。 简单说,二进制字串适用于存储那些程序员认为是"裸字节"的数据, 而字符串适合存储文本。

在输入 bytea 数值的时候, 在一个 SQL 语句的文本串里面, 你必须逃逸某些字节值(但可以逃逸所有字节值) 通常,要逃逸一个字节值,需要把它的数值转换成与其十进制字节值对应的三位八进制数字, 并且前导两个反斜杠。有些八进制数值有可选的逃逸序列, 在 Table 8-7 中显示, 同时给出了可选的逃逸序列。

Table 8-7. bytea 文本逃逸八进制

十进制数值描述输入逃逸表现形式例子输出形式
0 零的八进制 '\\000' select '\\000'::bytea; \000
39 单引号 '\'' 或者 '\\047' select '\''::bytea; '
92 反斜杠 '\\\\' 或者 '\\134' select '\\\\'::bytea; \\
0 到 31 和 127 到 255"不可打印"字节'\\xxx' (八进制值)SELECT '\\001'::bytea;\001

逃逸"不可打印"字节的要求因区域设置而异。在某些场合下,你可以不逃逸它们。 请注意Table 8-7里的每个例子都是刚好一个字节长,虽然字节零和反斜杠输出形式比一个字符要长。

你必须写这么多反斜杠的原因,如 Table 8-7 所示, 是因为一个写成字串文本的输入字串必须通过 PostgreSQL 服务器里的两个分析阶段。 每个反斜杠对的第一个反斜杠会被字串文本分析其理解成一个逃逸字符而消耗掉, 剩下反斜杠对中的第二个。剩下的反斜杠被 bytea 输入函数当作一个三位八进制值或者是逃逸另外一个反斜杠的开始。 比如,一个传递给服务器的字串文本 '\\001' 在通过字串分析器之后会成为 \001。而 \001 则发送给 bytea 输入函数,在这里它被转换成一个十进制值为 1 的单个字节。请注意,省略字符不会被 bytea 特殊对待, 因此它遵循字串文本的普通规则。(又见 Section 4.1.2.1。)

Bytea 字节也在输出中逃逸的。通常, 每个"不可打印"的字节值都转化成对应的前导反斜杠的三位八进制数值。 大多数"可打印的"字节值是以客户端字符集的标准表现形式出现的。 十进制值为 92 (反斜杠)的字节有一个特殊的可选输出形式。细节在 Table 8-8 里描述。

Table 8-8. bytea 输出逃逸序列

字节的十进制值描述逃逸的输出形式例子输出结果
92 反斜杠 \\ select '\\134'::bytea; \\
0 到 31 和 127 到 255 "不可打印"八进制字符 \xxx(octal value) select '\\001'::bytea; \001
32 到 126 "可打印"八进制字符 客户端字符集表现形式 select '\\176'::bytea; ~

根据你使用的前端的不同,在逃不逃逸 bytea 字串的问题上你可能有一些额外的工作要做。 比如,如果你的接口自动转换换行和回车,那你可能还要逃逸它们。

SQL 标准定义了一种不同的二进制字串类型, 叫做 BLOB 或者 BINARY LARGE OBJECT。 其输入格式和 bytea 不同,但是提供的函数和操作符大多一样。