4.2. 表表达式

表表达式计算一个表.该表表达式 包含一个FROM子句,该子句可以根据需要选用WHEREGROUP BY, 和HAVING 子句.大部分的表表达式只是指向磁盘上的一个表, 一个所谓的基本表,但是我们可以用更复杂的表表达式以各种方法修改或 组合基本表.

表表达式里的WHEREGROUP BY,和 HAVING 子句声明一系列对源自 FROM 子句的表的转换操作.所有这些转换最后生成一个虚拟表, 提供传递给选择列表计算查询输出行的数据行。

4.2.1. FROM 子句

FROM子句从一个用逗号分隔的表引用列表中的一个或更多个其它表 中生成一个表.

FROM table_reference [, table_reference [, ...]]

表引用可以是一个表名字(可能有模式修饰)或者是一个生成的表, 比如子查询,一个 表连接,或者这些东西的复杂组合.如果在FROM子句中列出了多于一个表, 那么它们被 cross join (见下文)形成一个派生表,该表可以进行 WHEREGROUP BYHAVING 子句的转换处理,并最后生成所有表表达式的结果.

如果一个表引用是一个简单的表名字并且它是表继承级别中的 超级表,那么该表的行包括所有它的后代子表的行,除非你在 该表名字前面加ONLY关键字.这样的话,这个引用就只生成 出现在命名表中的列 --- 任何在子表中追加的列都会被忽略.

4.2.1.1. 连接表

一个连接表是根据特定的连接类型的规则从两个其它表(真实表或生成表) 中排生的表.我们支持内连接,外连接和交叉连接类型.

连接类型

交叉连接
T1 CROSS JOIN T2

对每个从 T1T2 来的行的组合, 生成的表将包含这样一行:它包含所有 T1 里面的列后面跟着所有 T2 里面的列. 如果该表分别有 N 和 M 行,连接成的表将有 N * M 行.一次 cross join (交叉连接)实际上是一个 INNER JOIN ON TRUE

技巧: FROM T1 CROSS JOIN T2 等效于 FROM T1, T2.

条件连接(join)
T1 { [INNER] | { LEFT | RIGHT | FULL } [OUTER] } JOIN T2 ON boolean_expression
T1 { [INNER] | { LEFT | RIGHT | FULL } [OUTER] } JOIN T2 USING ( join column list )
T1 NATURAL { [INNER] | { LEFT | RIGHT | FULL } [OUTER] } JOIN T2

INNEROUTER 对所有连接(join) 类型都是可选的.INNER 是缺省; LEFTRIGHT,和 FULL 隐含外连接.

连接条件ONUSING子句里声明, 或者用关键字NATURAL隐含地声明.连接条件判断来自两个源表 中的那些行是"匹配"的,这些我们将在下面详细解释.

ON子句是最常见的连接条件的类型∶它接收一个和WHERE子句里用的一样的 布尔值表达式.如果两个分别来自T1T2的行在ON表达式上运算的 结果为真,那么它们就算是匹配的行.

USING是缩写的概念∶它接收一个用逗号分隔的字段名字列表, 这些字段必须是连接表共有的,最终形成一个连接条件,表示 这些字段对必须相同.最后,JOIN USING 的输出会为每一对相等 的输入字段输出一个字段,后面跟着来自各个表的所有其它字段. 因此,USING (a, b, c) 等效于 ON (t1.a = t2.a AND t1.b = t2.b AND t1.c = t2.c) 只不过是如果使用了ON,那么在结果里 ab,和 c字段每个都会有两个, 而用USING的时候每个字段就只会有一个.

最后,NATURALUSING 的缩写形式∶它形成一个 USING 列表, 该列表由那些在两个表里都出现了的字段名字组成.和USING一样, 这些字段只在输出表里出现一次.

条件JOIN的可能类型是∶

INNER JOIN

对于 T1 的每一行 R1,生成的连接表都有一行对应 T2 中的 每一个满足和 R1 的连接条件的行.

LEFT OUTER JOIN

首先,执行一次内连接.然后,为 T1 里那些和 T2 里任何一行都不满足连接条件的行返回一个连接行, 同时该连接行里对应 T2 的列用空值补齐.因此, 生成的连接表里无条件地包含来自 T1 里的每一行至少 一个副本.

RIGHT OUTER JOIN

首先,执行一次内连接.然后,为 T2 里那些和 T1 里任何一行都不满足连接条件的行返回一个连接行, 同时该连接行里对应 T1 的列用空值补齐.因此, 生成的连接表里无条件地包含来自 T2 里的每一行.

FULL OUTER JOIN

首先,执行一次内连接.然后,为 T1 里那些和 T2 里任何一行都不满足连接条件的行返回一个连接行, 同时该连接行里对应 T2 的列用空值补齐. 同样,为 T2 里那些和 T1 里的任何行都不满足连接条件的 行返回一个连接行,该行里对应 T1 的列用空值补齐.

如果 T1T2 有一个或者都是可以连接(join)的表, 那么所有类型的连接都可以串在一起或嵌套在一起. 你可以在JOIN子句周围使用圆括弧来控制连接顺序, 如果没有圆括弧,那么JOIN子句是从左向右嵌套的.

为了解释这些问题,假设我们有一个表 t1

 num | name
-----+------
   1 | a
   2 | b
   3 | c

t2

 num | value
-----+-------
   1 | xxx
   3 | yyy
   5 | zzz

然后我们用不同的连接方式可以获得各种结果:

=> SELECT * FROM t1 CROSS JOIN t2;
 num | name | num | value
-----+------+-----+-------
   1 | a    |   1 | xxx
   1 | a    |   3 | yyy
   1 | a    |   5 | zzz
   2 | b    |   1 | xxx
   2 | b    |   3 | yyy
   2 | b    |   5 | zzz
   3 | c    |   1 | xxx
   3 | c    |   3 | yyy
   3 | c    |   5 | zzz
(9 rows)

=> SELECT * FROM t1 INNER JOIN t2 ON t1.num = t2.num;
 num | name | num | value
-----+------+-----+-------
   1 | a    |   1 | xxx
   3 | c    |   3 | yyy
(2 rows)

=> SELECT * FROM t1 INNER JOIN t2 USING (num);
 num | name | value
-----+------+-------
   1 | a    | xxx
   3 | c    | yyy
(2 rows)

=> SELECT * FROM t1 NATURAL INNER JOIN t2;
 num | name | value
-----+------+-------
   1 | a    | xxx
   3 | c    | yyy
(2 rows)

=> SELECT * FROM t1 LEFT JOIN t2 ON t1.num = t2.num;
 num | name | num | value
-----+------+-----+-------
   1 | a    |   1 | xxx
   2 | b    |     |
   3 | c    |   3 | yyy
(3 rows)

=> SELECT * FROM t1 LEFT JOIN t2 USING (num);
 num | name | value
-----+------+-------
   1 | a    | xxx
   2 | b    |
   3 | c    | yyy
(3 rows)

=> SELECT * FROM t1 RIGHT JOIN t2 ON t1.num = t2.num;
 num | name | num | value
-----+------+-----+-------
   1 | a    |   1 | xxx
   3 | c    |   3 | yyy
     |      |   5 | zzz
(3 rows)

=> SELECT * FROM t1 FULL JOIN t2 ON t1.num = t2.num;
 num | name | num | value
-----+------+-----+-------
   1 | a    |   1 | xxx
   2 | b    |     |
   3 | c    |   3 | yyy
     |      |   5 | zzz
(4 rows)

ON 声明的连接条件也可以包含与连接不直接相关 的条件。这种功能可能对某些查询很有用,但是需要我们仔细想想。 比如:

=> SELECT * FROM t1 LEFT JOIN t2 ON t1.num = t2.num AND t2.value = 'xxx';
 num | name | num | value
-----+------+-----+-------
   1 | a    |   1 | xxx
   2 | b    |     |
   3 | c    |     |
(3 rows)

4.2.1.2. 表和列别名

你可以给一个表或复杂表引用一个临时的名字,用于在后面的 处理过程中引用那些派生的表.这样做叫做 表别名

要创建一个表别名,我们可以写:

FROM table_reference AS alias

或者

FROM table_reference alias

AS 关键字是噪音。 alias 可以是任意标识符。

表别名的典型应用是给长表名赋予比较短的标识符, 好让连接子句更好读一些。比如:

SELECT * FROM some_very_long_table_name s JOIN another_fairly_long_name a ON s.id = a.num;

别名成为当前查询的表引用的新名称 -- 我们不在能够用该表最初的 名字引用它了。因此

SELECT * FROM my_table AS m WHERE my_table.a > 5;

是不合法的 SQL 语法。这里将发生的事情(这是 PostgreSQL 对标准的扩展)是在 FROM 子句里面隐含地增加了 一个表引用,因此这个查询将会象下面这样处理

SELECT * FROM my_table AS m, my_table AS my_table WHERE my_table.a > 5;

这样会生成一个交叉连接,通常可不是你想要的。

圆括弧用于解决歧义.下面的语句将把别名 b 赋与连接的结果,这是和前面的例子不同的:

SELECT * FROM (my_table AS a CROSS JOIN my_table) AS b ...

另外一种形式地表别名还给该表的列赋予了临时名字.

FROM table_reference [AS] alias ( column1 [, column2 [, ...]] )

如果声明的列别名比表里实际的列少,那么后面的列就没有重命名. 这个语法对于自连接或子查询特别有用.

如果用这些形式中的任何一种给一个JOIN子句的输出附加了一个别名, 那么该别名就在JOIN里隐藏了其原始的名字.比如

SELECT a.* FROM my_table AS a JOIN your_table AS b ON ...

是合法 SQL,但是

SELECT a.* FROM (my_table AS a JOIN your_table AS b ON ...) AS c

是不合法的∶表别名 a 在别名c外面是看不到的.

4.2.1.3. 子查询

声明一个派生表的子查询必须包围在圆括弧里并且必须 赋予一个别名.(参阅 Section 4.2.1.2.)

FROM (SELECT * FROM table1) AS alias_name

这个例子等效于 FROM table1 AS alias_name. 更有趣的例子是在子查询里面有分组或聚集的时候, 这个时候子查询不能归纳成一个简单的连接.

4.2.2. WHERE 子句

WHERE子句的语法是

WHERE search_condition

这里的 search condition 是定义在 Section 1.2 里的任意表达式,它返回一个 类型为boolean的值.

在完成对FROM子句的处理之后,生成的每一行都会对搜索条件进行检查. 如果该条件的结果是真,那么该行输出到输出表中,否则(也就是说, 如果结果是假或空)就把它抛弃.搜索条件通常至少要引用一些在 FROM子句里生成的列;这不是必须的,但如果不是这样的话,那么 WHERE子句就没什么用了.

注意: JOIN语法实现以前,我们必须把 inner join(内部连接)的连接条件放在 WHERE子句里. 比如,这些表表达式是等效的:

FROM a, b WHERE a.id = b.id AND b.val > 5

FROM a INNER JOIN b ON (a.id = b.id) WHERE b.val > 5

或者可能还有

FROM a NATURAL JOIN b WHERE b.val > 5

你想用哪个只是一个风格问题.FROM子句里的JOIN语法可能不那么 容易移植到其它产品中.对于外部连接(outer join)而言,我们在任何 情况下都没有选择:它们必须在FROM子句中完成.外部连接的 ON/USING 子句等于WHERE条件,因为它判断最终结果中 行的增(那些不匹配的输入行)和删.

这里是一些 WHERE 子句的例子:

SELECT ... FROM fdt WHERE c1 > 5

SELECT ... FROM fdt WHERE c1 IN (1, 2, 3)

SELECT ... FROM fdt WHERE c1 IN (SELECT c1 FROM t2)

SELECT ... FROM fdt WHERE c1 IN (SELECT c3 FROM t2 WHERE c2 = fdt.c1 + 10)

SELECT ... FROM fdt WHERE c1 BETWEEN (SELECT c3 FROM t2 WHERE c2 = fdt.c1 + 10) AND 100

SELECT ... FROM fdt WHERE EXISTS (SELECT c1 FROM t2 WHERE c2 > fdt.c1)

在上面的例子里,fdt是从FROM子句中派生的表.那些不符合 WHERE子句的搜索条件的行从fdt中删除.请注意我们把标量 子查询当做一个值表达式来用。 就好象任何其它查询一样,子查询里可以使用复杂的表表达式. 请注意fdt是如何引用子查询的.把c1 修饰成fdt.c1只有 在c1是该子查询生成的列的名字时才是必须的. 修饰列名字可以增加语句的准确性,即使有时候不是必须的. 这样就演示了字段名字范围如何从外层查询扩展到它的内层查询.

4.2.3. GROUP BY 和 HAVING 子句

在通过了WHERE过滤器之后,生成的输出表可以继续用GROUP BY 子句进行分组,然后用HAVING子句删除一些分组行.

SELECT select_list
	FROM ...
	[WHERE ...]
	GROUP BY grouping_column_reference [, grouping_column_reference]...

GROUP BY 子句用于把一个表中在所列出的列上 共享相同值的行聚集在一起. 这些列的列出顺序并没有什么关系。 目的是把每组共享相同值的行缩减为一个组行,它代表该组里的所有行. 这样就可以删除输出里的重复和/或计算应用于这些组的聚集. 比如:

=> SELECT * FROM test1;
 x | y
---+---
 a | 3
 c | 2
 b | 5
 a | 1
(4 rows)

=> SELECT x FROM test1 GROUP BY x;
 x
---
 a
 b
 c
(3 rows)

在第二个查询理,我们不能写成 SELECT * FROM test1 GROUP BY x, 因为字段 y 里没有哪个值可以和每个组相关联起来。 被分组的字段可以在选择列表中引用是因为它们每个组都有已知的常量值。

通常,如果一个表被分了组,那么没有在分组中引用的 字段都不能引用,除了在聚集表达式中以外。一个带聚集 表达式的例子是:

=> SELECT x, sum(y) FROM test1 GROUP BY x;
 x | sum
---+-----
 a |   4
 b |   5
 c |   2
(3 rows)

这里的 sum() 是一个聚集函数,它在整个 组上计算一个数值。有关可用的聚集函数的更多信息可以在 Section 6.14 中找到。

技巧: 没有聚集表达式的分组实际上计算了一个字段中独立数值的集合。 我们也可以用 DISTINCT 子句实现(参阅 Section 4.3.3)。

这里是另外一个例子:在一个用产品代码分组了的表上计算 sum(sales),得出每种产品的总销售额, 而不是所有产品上的总销售额。

SELECT pid, p.name, (sum(s.units) * p.price) AS sales
  FROM products p LEFT JOIN sales s USING ( pid )
  GROUP BY pid, p.name, p.price;

在这个例子里,列pidp.name,和p.price必须在GROUP BY子句里, 因为它们都在查询选择列表里被引用到. (根据产品表具体的设置的不同,名字和价格可能和产品 ID 完全无关,因此理论上额外的分组可能是不必的,但是这些 尚未实现。) 列s.units不必在GROUP BY 列表里,因为它只是在一个聚集表达式(sum()) 里使用,它代表一组产品的销售额.对于每种产品,都返回一个该产品 的所有销售额的总和.

在严格的 SQL 里,GROUP BY只能对源表的列进行分组,但 PostgreSQL 把这个扩展为也允许GROUP BY那些在选择列表中的选则列.也允许 对值表达式进行分组,而不仅是简单的列.

如果一个表已经用GROUP BY子句分了组,然后你又只对其中的某些 组感兴趣,那么就可以用HAVING子句,很象WHERE子句,以删除 一个分了组的表中的一些组.语法是:

SELECT select_list FROM ... [WHERE ...] GROUP BY ... HAVING boolean_expression

HAVING 子句中的表达式可以引用分组的表达式和未分组 的表达式(后者必须涉及一个聚集函数)。

例子:

=> SELECT x, sum(y) FROM test1 GROUP BY x HAVING sum(y) > 3;
 x | sum
---+-----
 a |   4
 b |   5
(2 rows)

=> SELECT x, sum(y) FROM test1 GROUP BY x HAVING x < 'c';
 x | sum
---+-----
 a |   4
 b |   5
(2 rows)

然后是一个更现实的例子:

SELECT product_id, p.name, (sum(s.units) * (p.price - p.cost)) AS profit
    FROM products p LEFT JOIN sales s USING (product_id)
    WHERE s.date > CURRENT_DATE - INTERVAL '4 weeks'
    GROUP BY product_id, p.name, p.price, p.cost
    HAVING sum(p.price * s.units) > 5000;

在上面的例子里,WHERE子句用那些非分组的字段选择的行. 而HAVING子句选择那些单价超过 5000 的组的行. 请注意聚集函数不需要在所有地方都一样。