Redis主从复制
在redis中,我们可以通过slaveof命令或配置选项,让一个服务器去复制另一个服务器,我们称被复制的服务器为主服务器,而对主服务器进行复制的服务器为从服务器。
下面是从服务器设置主服务器相关的配置,如果主服务器设置了requirepass 选项,需要在masterauth配置上主服务的密码。
1
2
3
4
5
6
slaveof 127.0.0.1 6379
# If the master is password protected (using the "requirepass" configuration
# directive below) it is possible to tell the slave to authenticate before
# starting the replication synchronization process, otherwise the master will
# refuse the slave request.
masterauth 123456
复制
redis的复制功能分为 同步和命令传播两个操作:
- 同步:从服务器向主服务器发送sync命令,主服务器在收到命令后,会执行bgsave命令在后台生成一个rdb文件,并使用一个缓冲区记录从现在开始执行的所有写命令,当主服务器生成好rdb文件后,会将它发送给从服务器,从服务器接收并载入rdb文件,将数据库状态更新至主服务器执行bgsave命令 时的状态,然后主服务器会将缓冲区记录的所有写命令发送给从服务器,从服务器执行这些命令后,与主服务器当前状态达成一致。
- 命令传播:主从服务器完成同步操作后,主服务器会将后续执行的写命令发送给从服务器,从服务器执行后,就可以与主服务器始终保持数据一致的状态。
断线重连
在2.8之前的版本,主从服务器断线重连后,从服务器会向主服务器发送sync命令,主从服务器间会再次执行一次初次复制时的同步操作以达到主从一致的状态。但是这个方案是低效的,sync命令是一个非常耗费资源的操作,如果主从服务器只是发生短时间的连接断开,它们之间的数据差异其实是很小的,完全可以让主服务器只是将断线期间内执行的写命令发送给从服务器达到相同的效果。
针对上面的问题,redis在2.8版本增加了psync命令替代sync命令来执行复制时的同步操作。
psync命令具有完整重同步和部分重同步两种模式:
- 完整重同步:和sync命令同步的步骤基本相同。
- 部分重同步:用于处理断线重连的复制情况,当从服务器断线重连到主服务器时,如果条件允许,主服务器可以将主从服务器断开期间执行的写命令发送给从服务器,从服务器只要接收并执行这些命令,就可以将数据库更新至主服务器当前所处的状态。
那么需要满足的条件是什么呢?在这里要先提出几个概念:主从服务器的复制偏移量,主服务器的复制积压缓冲区,服务器运行Id。
复制偏移量
- 执行复制的双方,主从服务器会分别维护一个复制偏移量。
- 主服务器每次向从服务器传播n个字节的数据时,就会在自己的复制偏移量的值上加n。
- 从服务器每次收到从主服务器传播来的n个字节的数据时,也会向自己的复制偏移量的值上加n。
- 主从服务器处于一致状态时,主从服务器的复制偏移量应该总是相同的,不同则说明主从服务器处于数据不一致的状态。
复制积压缓冲区
- 复制积压缓冲区是由主服务器维护的一个固定长度先进先出队列,默认大小为1MB(可以通过 repl-backlog-size选项修改)。
- 当主服务器进行命令传播时,它不仅会将写命令发送给所有从服务器,还会将写命令入队到复制积压缓冲区中,因此复制积压缓冲区中会保存着一部分最近传播的写命令,并且复制积压缓冲区会为队列中的每个字节记录相应的复制偏移量。
- 当从服务器断线重连上主服务器后,从服务器会通过psync命令将自己的复制偏移量发送给主服务器,如果这个复制偏移量在主服务器的复制积压缓冲区中,那么主服务器将对从服务器执行部分重同步操作,相反则执行完全重同步操作。
服务器运行Id
- 每个redis服务器都会有自己的运行Id,运行Id在服务器启动时自动生成,由40个随机的十六进制字符组成。
- 从服务器对主服务器进行初次复制时,主服务会将自己的运行Id发送给从服务器,而从服务器会将这个运行Id保存起来。
- 当从服务器断线重连上一个主服务器时,会将之前保存的运行Id发送给主服务器。主服务器会判断这个Id和自己的运行Id是否一致,如果一致,尝试执行部分重同步操作,相反则执行完整重同步操作。
心跳检测
在2.8版本中,redis还新增了心跳检测的功能。在命令传播阶段,从服务器会以每秒一次的频率向主服务器发送命令:REPLCONF ACK
发送REPLCONF ACK命令对于主从服务器有三个作用:
- 检测主从服务器的网络连接状态:向主服务器发送 info replication命令可以看到主从服务器的连接状态,其中lag值表示从服务器最后一次向主服务器发送心跳的时间距离现在过了多少秒,超过1秒,说明主从服务器之间的连接可能出现了故障问题。
1
2
3
role:master
connected_slaves:1
slave0:ip=127.0.0.1,port=6380,state=online,offset=14452,lag=0
- 辅助实现min-slaves选项:min-slaves-to-write和min-slave-max-lag 两个选项可以防止主服务器在不安全的情况下执行写命令。
1
2
3
min-slaves-to-write 3
min-slaves-max-lag 10
# 表示当从服务器的数量少于3个,或3三个从服务器的延迟值都大于等于10s,那么主服务器将拒绝执行写命令。
- 检测命令丢失:由于网络故障,主服务器传播给从服务器的写命令可能在半路丢失。从服务器向主服务器发送REPLCONF ACK
命令后,主服务器会拿replication_offset与自己复制偏移量比较,如果小于自己的复制偏移量,那么主服务器会根据replication_offset在复制积压缓冲区中取出从服务器缺少的数据,并发送给从服务器。
注:还有一点需要注意,redis主从复制,可以提高redis的读写性能,但并不能提高redis的可用性,当主服务器宕机,需要手动启动主服务器,或手动将从服务器升为主服务器。
本文由作者按照 CC BY 4.0 进行授权