MySQL的两阶段提交

看到很多MySql事务的两阶段提交的文章,感觉大部分还是八股文,这里记录一下自己心得。

redolog和binlog是什么

具体是什么,以及区别这里不再赘述,可以参见这个:为什么写入redo log和bin log要用两个阶段提交呢
注意,redolog记录的是数据修改(如set count = 18),binlog记录的是sql(如update count = count +1)
显然,从redolog中是恢复不了binlog(sql) 的(只有数据的前后状态,不知中间具体操作)
但是,理论上,从binlog中可以恢复redolog,但是要结合之前的数据状态,这个过程其实就是重现redolog prepare阶段的计算。

两阶段步骤过程

image.png

图来源:为什么写入redo log和bin log要用两个阶段提交呢
如果简单理解,就是对于客户端的一个事务请求:redolog prepare——binlog——redolog commit

为什么要两阶段

其实这个问题更准确的说法应该是——为什么redolog要分两阶段标记?
回答这个问题之前,我们有几个前提要了解一下:
1)我们要保证binlog的完整性
binlog要用于宕机后恢复,和主从复制在slave机上复现master机记录,前文已经提到:从redolog中是恢复不了binlog(sql),这要求“宕机之前的binlog记录要完整”
2)第一步就crash的情况,不用考虑宕机恢复
binlog和redolog都还没开始记录,crash了,不用管。
因为二者都没记录,那么恢复时此次事务没有留下任何记录,满足原子性——要么做完,要么没做,此时这次事务是对应于没做的情况,不影响。
这提示我们,无论是用多少阶段提交,第一步就crash的情况,不用考虑宕机恢复,因为事务完全没有执行

一阶段真的无法保持一致吗

知道了这些前提,让我们再来假设一下如果redolog只用一次标记——直接commit,中间发生crash(宕机/线程挂了)会发生什么。
显然,根据binlog和redolog的操作顺序,有两种情况:

  • 先redolog commit,再写binlog
    如果写binlog过程中发生crash,因为redolog中恢复不了binlog(前面已经说过这种情况),宕机后二者内容不一致,恢复时binlog记录也找不回。
    那么是否意味着二者无法保持一致性了呢?
    并不是,可以考虑这么干:redolog现在就是比binlog多了最新的事务内容而已,删掉对应的不就行了:
    对比redolog和binlog的记录,发现redolog的最新txid比binlog大,说明binlog写一半停机了,所以删掉redolog中这个txid对应的记录,二者又保持了一致性,只是是恢复到该事务之前的状态。
  • 先写binlog,再redolog commit
    如果redolog commit过程中发生crash,理论上是可以从binlog中恢复redolog内容的,然后提交,这就保持了一致性。
    或者对比对比redolog和binlog的记录,将binlog存在但redolog不存在的记录删除,也能恢复一致性。
    前者的一致性是事务执行之后的状态,后者是事务执行之前的状态。

可以看到,无论是哪种方式,都是可以保持二者一致性的,只是恢复时,抹去or填平不一致需要较重的成本——回滚or追加binlog redolog内容。

两阶段提交以极低成本实现了crash-safe

那么两阶段在应对crash情况时的恢复成本如何呢?
redolog prepare——binlog——redolog commit
1)如果在写binlog过程中宕机,重启时发现binlog不完整,直接将redolog prepare的记录删除,恢复了事务执行之前的数据一致性
2)如果在标记redolog commit过程中宕机,重启时发现binlog完整且redolog prepare,那么继续宕机前的工作——标记redolog commit即可。
可以看到,两阶段的策略,“恢复一致性成本”很低,不涉及binlog和真正的redolog(非prepare commit标记)的添加or删除(回滚),仅仅是重新处理redolog flag而已。

总结

一阶段同样可以实现crash-safe,但是成本高昂——要去写binlog/redolog记录,两阶段以极低成本实现了crash-safe,所以是更好的方案。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容