[Postgres] 规划器的代价估算模型

1. 磁盘

1.1 seq_page_cost

描述:顺序磁盘访问时单个页面的读取开销,默认为1.0

场景说明:在磁盘关系型数据库的代价估算模型中,假定顺序访问磁盘的开销为1,再给出其他操作的相对开销。

1.2 random_page_cost

描述:随机磁盘访问时单个页面的读取开销,默认为4.0

场景说明:默认情况下,随机IO和顺序IO的代价是4:1的关系,这主要是针对于传统的HDD而言的。对于当前广泛使用的SSD,该代价可能需要调整。

2. 处理器

2.1 cpu_tuple_cost

描述:处理每个元组的处理器开销,默认为0.01。对于一个页面中的元组,需要解析其中的字段,进行投影组装出新的元组

2.2 cpu_index_tuple_cost

描述:处理每个索引元组的处理器开销,默认为0.005

2.3 cpu_operator_cost

描述:处理每个运算符或者函数调用的处理器开销,默认为0.0025

场景说明:默认情况下,顺序IO和元组处理的代价是100:1的关系,这主要是针对于传统的HDD和一般的处理器而言的。对于磁阵、SSD等存储设备,或者频率较高的处理器,该代价比例可能需要调整。

3. 内存、磁盘

3.1 effective_cache_size

描述:在一次索引扫描中可用的文件系统内核缓冲区的有效大小

场景说明:该参数当前只用在估计索引扫描的磁盘IO开销,用于计算一次索引扫描需要访问的所有页面在内核缓冲区中已经存在的页面数。该参数的值越大,计算出的索引扫描的开销也越小。

3.2 work_mem

描述:进行内部排序操作和哈希操作的工作空间,在开始使用临时的磁盘文件之前可用的内存大小

场景说明:该参数会用来估计排序和哈希操作的磁盘IO开销,用于计算一次排序或哈希需要处理的所有数据可以缓存在内存中的数据量。该参数的值越大,计算出的排序或哈希的开销也越小。

4. 统计信息

4.1 表相关的统计信息

描述:数据特征:堆表中的页面数、元组数,索引中的页面数,子句选择率等。ANALYZE操作会收集这些统计信息,然后把结果保存到系统表pg_statistic和pg_class里。在系统表pg_statistic中,记录了每个表内容的统计信息,如一个表中某个字段的平均字节数、空值占比等,通过这些信息可以计算出某个条件表达式匹配的记录数目。

场景说明:系统中的autovacuum进程会周期性地运行ANALYZE操作,进行统计信息的收集。 频繁删改操作会引起数据发生膨胀,批量插入会使得数据量迅速增长,这些情况都会出现统计信息的变化,最终引起查询的执行计划发生变化,这时候性能很容易出现突变。

5. 总结

在查询的规划阶段,规划器会根据查询语法树创建出所有可能的执行路径,计算出不同路径的执行开销,并选择出总体开销最小的执行路径。每个路径的执行开销就是通过上表的信息计算出来的,主要包括磁盘IO的开销、处理器的开销等。

因为上面的信息和现实情况一般都会存在差别,而且实际运行过程中可能还会存在其他的开销(如资源的争用),所以估算出来的开销不一定非常准确,最终选择出来的执行路径也不一定就是总体开销最小的。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,347评论 19 139
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 175,254评论 25 709
  • 引子 对于一条SQL,开发同学最先关心的啥? 我觉得还不到这个SQL在数据库的执行过程,而是这条SQL是否能尽快的...
    大头8086阅读 7,475评论 2 14
  • 1. Java基础部分 基础部分的顺序:基本语法,类相关的语法,内部类的语法,继承相关的语法,异常的语法,线程的语...
    子非鱼_t_阅读 31,906评论 18 399
  • 心靈自由寫作第二篇之“自我介紹” 今天的寫作主題是“自我介紹”,回想起對自己的過往介紹,往往是比较简单,现在一个人...
    喬大衛REIKI阅读 1,937评论 3 5