32.10. 用户定义聚集

PostgreSQL里的聚集是用状态值状态转换函数表达的。 也就是说,一个聚集可以定义为一些状态, 当一条输入的条目被处理时,这些状态被修改。 要定义一个新的聚集函数,我们就要选择一个表示状态值的数据类型, 一个状态初始值,一个状态转换函数。 该状态转换函数只是一个普通函数,也可以用于聚集的环境之外。 还可以声明一个终处理函数, 用于对付当期望的聚集结果和需要保留在运行的状态值里面的数据不同的情况。

因此,除了被聚集用户看到的参数和结果数据类型外,还有一种内部状态值数据类型,这种类型可能和参数与结果类型都不一样。

如果我们定义了一个不使用终处理函数的聚集, 那我们的聚集就是对每条记录的字段值进行函数计算。 sum(求和)是这类聚集的例子。 sum从零开始,每次都向运行总和追加当前记录值。比如,如果我们要把 Sum 聚集用于复数,我们只需要该数据类型的加法函数就行了。 该聚集可以这样定义:

CREATE AGGREGATE complex_sum (
    sfunc = complex_add,
    basetype = complex,
    stype = complex,
    initcond = '(0,0)'
);

SELECT complex_sum(a) FROM test_complex;

 complex_sum
-------------
 (34,53.9)

(实际上,我们会把这个聚集命名为 sum,然后让 PostgreSQL 来区分对一个类型为 complex 的列应该使用哪种 sum。)

如果不存在非空输入值,上面的sum定义将返回零值(初始状态条件)。 可能我们在那种情况下会希望返回NULL — SQL标准要求 sum 的行为是那样的。 我们只需要忽略initcond段就可以实现那一点, 这样初始状态条件是 NULL。 通常这也意味着sfunc需要检查 NULL 状态条件输入, 不过对于 sum 和一些象MaxMin这样的简单聚集来说, 把第一个非空输入插入到状态值里面, 然后从第二个非空输入状态值开始使用转换函数就足够了。 如果初始条件是NULL并且转换函数标记为"strict", (也就是说,不能对NULL输入调用。) PostgreSQL 就会自动处理这些内容。

另外一个"strict"转换函数的缺省特性是:当碰到一个NULL输入的时候, 前面一个状态转换函数会被保留下来不做改动。 这样,就忽略了NULL。如果你希望对空值输入有其它处理,只需要 别把你的转换函数定义为严格的然后编写代码的时候 测试NULL并做相应处理即可。

avg(平均)是更复杂一点的聚集的例子。它需要两个运行时状态: 输入的总和以及输入数量的计数。最终结果是通过把这些量相除得到的。 平均的典型实现是用两元素数组做状态值。比如,内建的 avg(float8)实现是这样的:

CREATE AGGREGATE avg (
    sfunc = float8_accum,
    basetype = float8,
    stype = float8[],
    finalfunc = float8_avg,
    initcond = '{0,0}'
);

聚集函数可以使用多态转换函数或者终处理函数, 这样,同一个函数可以用于实现多个聚集。 参阅 Section 32.2.5 获取多态函数的解释。 再进一步,聚集函数本身可以用多态的基本类型和状态类型来声明, 这样就允许一个聚集定义用于多种输入数据类型。 下面是一个多态聚集的例子:

CREATE AGGREGATE array_accum (
    sfunc = array_append,
    basetype = anyelement,
    stype = anyarray,
    initcond = '{}'
);

这里,任意聚集调用的实际状态类型是和元素输入类型相同的数组类型。

下面是使用两个不同实际数据类型作为元素的输出:

SELECT attrelid::regclass, array_accum(attname)
    FROM pg_attribute
    WHERE attnum > 0 AND attrelid = 'pg_tablespace'::regclass
    GROUP BY attrelid;

   attrelid    |              array_accum              
---------------+---------------------------------------
 pg_tablespace | {spcname,spcowner,spclocation,spcacl}
(1 row)

SELECT attrelid::regclass, array_accum(atttypid)
    FROM pg_attribute
    WHERE attnum > 0 AND attrelid = 'pg_tablespace'::regclass
    GROUP BY attrelid;

   attrelid    |   array_accum   
---------------+-----------------
 pg_tablespace | {19,26,25,1034}
(1 row)

一个用 C 写的函数可以判断它是被当作一个聚集转换函数还是终处理函数调用, 方法是看看它在函数调用"环境里"是否被传递给予一个 AggState 结点, 比如,用

        if (fcinfo->context && IsA(fcinfo->context, AggState))

检查这个的一个原因是,在它为真的时候,左手边的输入必须是一个临时的转换值, 因此可以安全地现场修改,而不用分配新的拷贝。(这是函数里唯一地一个可以修改输入的传递引用的地方。) 参阅 int8inc() 获取例子。

更详细的信息请参考 CREATE AGGREGATE 命令。