[Postgres] 规划器的代价估算模型

1. 磁盘

1.1 seq_page_cost

描述：顺序磁盘访问时单个页面的读取开销，默认为1.0

场景说明：在磁盘关系型数据库的代价估算模型中，假定顺序访问磁盘的开销为1，再给出其他操作的相对开销。

1.2 random_page_cost

描述：随机磁盘访问时单个页面的读取开销，默认为4.0

场景说明：默认情况下，随机IO和顺序IO的代价是4：1的关系，这主要是针对于传统的HDD而言的。对于当前广泛使用的SSD，该代价可能需要调整。

2. 处理器

2.1 cpu_tuple_cost

描述：处理每个元组的处理器开销，默认为0.01。对于一个页面中的元组，需要解析其中的字段，进行投影组装出新的元组

2.2 cpu_index_tuple_cost

描述：处理每个索引元组的处理器开销，默认为0.005

2.3 cpu_operator_cost

描述：处理每个运算符或者函数调用的处理器开销，默认为0.0025

场景说明：默认情况下，顺序IO和元组处理的代价是100：1的关系，这主要是针对于传统的HDD和一般的处理器而言的。对于磁阵、SSD等存储设备，或者频率较高的处理器，该代价比例可能需要调整。

3. 内存、磁盘

3.1 effective_cache_size

描述：在一次索引扫描中可用的文件系统内核缓冲区的有效大小

场景说明：该参数当前只用在估计索引扫描的磁盘IO开销，用于计算一次索引扫描需要访问的所有页面在内核缓冲区中已经存在的页面数。该参数的值越大，计算出的索引扫描的开销也越小。

3.2 work_mem

描述：进行内部排序操作和哈希操作的工作空间，在开始使用临时的磁盘文件之前可用的内存大小

场景说明：该参数会用来估计排序和哈希操作的磁盘IO开销，用于计算一次排序或哈希需要处理的所有数据可以缓存在内存中的数据量。该参数的值越大，计算出的排序或哈希的开销也越小。

4. 统计信息

4.1 表相关的统计信息

描述：数据特征：堆表中的页面数、元组数，索引中的页面数，子句选择率等。ANALYZE操作会收集这些统计信息，然后把结果保存到系统表pg_statistic和pg_class里。在系统表pg_statistic中，记录了每个表内容的统计信息，如一个表中某个字段的平均字节数、空值占比等，通过这些信息可以计算出某个条件表达式匹配的记录数目。

场景说明：系统中的autovacuum进程会周期性地运行ANALYZE操作，进行统计信息的收集。频繁删改操作会引起数据发生膨胀，批量插入会使得数据量迅速增长，这些情况都会出现统计信息的变化，最终引起查询的执行计划发生变化，这时候性能很容易出现突变。

5. 总结

在查询的规划阶段，规划器会根据查询语法树创建出所有可能的执行路径，计算出不同路径的执行开销，并选择出总体开销最小的执行路径。每个路径的执行开销就是通过上表的信息计算出来的，主要包括磁盘IO的开销、处理器的开销等。

因为上面的信息和现实情况一般都会存在差别，而且实际运行过程中可能还会存在其他的开销（如资源的争用），所以估算出来的开销不一定非常准确，最终选择出来的执行路径也不一定就是总体开销最小的。

[Postgres] 规划器的代价估算模型

推荐阅读更多精彩内容