Redis 从入门到精通：Redis Sentinel 哨兵

发布时间：2026/6/13 21:39:07

IT策士 10余年一线大厂经验专注 IT 思维、架构、职场进阶。我会在各个平台持续发布最新文章助你少走弯路。上一篇我们搭建了 Redis 主从架构实现了数据冗余和读写分离。但有个致命问题当主节点宕机时必须手动将某个从节点提升为主节点再通知其他从节点和所有应用修改连接地址。这个过程少则几分钟多则半小时对于核心业务来说完全不可接受。Redis Sentinel哨兵就是为解决这个问题而生的。它能自动监控主从节点、自动发现故障、自动完成故障转移让 Redis 真正具备生产级高可用能力。本文带你从原理到实战用 Docker 搭建完整哨兵集群并用 Python 客户端对接感受自动故障转移的丝滑体验。1. Sentinel 是什么解决了什么问题Sentinel 是一套独立的分布式监控系统它由多个哨兵进程组成共同协作完成三个核心任务监控Monitoring持续检查主节点和从节点是否正常运行。通知Notification当节点状态发生变化时通过 API 或脚本通知管理员和其他应用。自动故障转移Automatic Failover当主节点不可用时自动选举一个从节点升级为新主节点并让其他从节点和新主节点同步。架构图┌──────────────┬──────────────┬──────────────┐ │ Sentinel1│ Sentinel2│ Sentinel3│ ← 哨兵集群至少3个 └──────┬───────┴──────┬───────┴──────┬───────┘ │ │ │ ▼ ▼ ▼ ┌──────────┐ ┌──────────┐ ┌──────────┐ │ Master │───│ Slave1│ │ Slave2│ └──────────┘ └──────────┘ └──────────┘ Sentinel 本身不存储数据它是独立于 Redis 数据节点的控制平面。即使没有 SentinelRedis 也能正常工作加上 Sentinel就拥有了自动化的“守护神”。2. 核心原理主观下线与客观下线哨兵判断一个节点是否故障用了两层机制。2.1 主观下线SDOWN每个哨兵进程每隔 1 秒向主节点、从节点、其他哨兵发送PING命令。如果某个节点在down-after-milliseconds配置项默认 30 秒时间内没有有效回复这个哨兵自身就会标记该节点为主观下线Subjectively Down。但单个哨兵的判断可能失误——比如自己的网络出了故障。所以不能仅凭 SDOWN 就发起故障转移。2.2 客观下线ODOWN当某个哨兵发现主节点进入 SDOWN 后它会询问其他哨兵“你们也觉得主节点挂了吗” 当达到quorum法定人数通常为哨兵数量的半数以上个哨兵都认为主节点下线该节点就被标记为客观下线Objectively Down。此时哨兵集群会通过Raft 算法选举出一个哨兵领导者由它来执行故障转移。2.3 故障转移流程哨兵领导者从所有健康的从节点中按优先级、复制偏移量、runid 等规则选出最合适的一个。向被选中的从节点发送SLAVEOF NO ONE将其提升为主节点。向其他从节点发送SLAVEOF 新主IP 新主端口让它们同步新主。将旧主节点的地址更新到哨兵配置中一旦旧主恢复它将成为新主的从节点。整个过程通常在10~30 秒内完成。⚠️ Sentinel 只对主节点做客观下线判断。从节点和哨兵节点只需要主观下线即可做出反应。3. 关键配置参数详解在开始实战之前先理解 Sentinel 的核心配置项# sentinel.conf 核心配置# 监控的主节点名称、IP、端口、quorum法定人数sentinel monitor mymaster127.0.0.163792# 主观下线判定超时毫秒超过此时间无响应则 SDOWNsentinel down-after-milliseconds mymaster5000# 故障转移最大超时毫秒超过此时间未完成则重新选举领导者sentinel failover-timeout mymaster10000# 新主节点同步时允许同时同步的从节点数量越小同步越慢但主节点压力小sentinel parallel-syncs mymaster1# 哨兵端口port26379quorum 建议3 个哨兵设quorum25 个哨兵设quorum3。这保证即使少数哨兵故障也能正常完成故障转移。4. 实战Docker 搭建 Sentinel 集群我们搭建一个“1 主 2 从 3 哨兵”的完整环境。4.1 整体架构Sentinel 集群26379/26380/26381 │ ▼ 主节点 Master6379 │ ┌───┴───┐ ▼ ▼ Slave16380 Slave263814.2 创建网络和主从节点# 创建网络dockernetwork create sentinel-net# 启动主节点dockerrun-d--nameredis-master--networksentinel-net\-p6379:6379 redis:7.2 redis-server--appendonlyyes# 启动从节点 1dockerrun-d--nameredis-slave1--networksentinel-net\-p6380:6379 redis:7.2 redis-server\--appendonlyyes--slaveofredis-master6379# 启动从节点 2dockerrun-d--nameredis-slave2--networksentinel-net\-p6381:6379 redis:7.2 redis-server\--appendonlyyes--slaveofredis-master6379验证主从状态dockerexecredis-master redis-cli INFO replication|grepconnected_slaves# connected_slaves:24.3 配置并启动 3 个哨兵首先在宿主机创建哨兵配置文件3 份# 创建目录mkdir-p~/sentinel/conf# 哨兵配置文件cat~/sentinel/conf/sentinel.confEOF port 26379 dir /data sentinel monitor mymaster redis-master 6379 2 sentinel down-after-milliseconds mymaster 5000 sentinel failover-timeout mymaster 10000 sentinel parallel-syncs mymaster 1 EOF# 复制为 3 份端口不同cp~/sentinel/conf/sentinel.conf ~/sentinel/conf/sentinel1.confcp~/sentinel/conf/sentinel.conf ~/sentinel/conf/sentinel2.confcp~/sentinel/conf/sentinel.conf ~/sentinel/conf/sentinel3.conf⚠️ 实际生产中 3 个哨兵最好部署在不同物理机上这里仅演示原理都放在同一台机器。启动哨兵容器# 哨兵 1 (端口 26379)dockerrun-d--namesentinel1--networksentinel-net\-p26379:26379\-v~/sentinel/conf/sentinel1.conf:/etc/redis/sentinel.conf\redis:7.2 redis-sentinel /etc/redis/sentinel.conf# 哨兵 2 (端口 26380)dockerrun-d--namesentinel2--networksentinel-net\-p26380:26379\-v~/sentinel/conf/sentinel2.conf:/etc/redis/sentinel.conf\redis:7.2 redis-sentinel /etc/redis/sentinel.conf# 哨兵 3 (端口 26381)dockerrun-d--namesentinel3--networksentinel-net\-p26381:26379\-v~/sentinel/conf/sentinel3.conf:/etc/redis/sentinel.conf\redis:7.2 redis-sentinel /etc/redis/sentinel.conf4.4 验证哨兵状态连接到任意哨兵查看信息dockerexec-itsentinel1 redis-cli-p26379127.0.0.1:26379SENTINEL masters1)1)name2)mymaster3)ip4)redis-master5)port6)63797)flags8)master9)num-slaves10)2...127.0.0.1:26379SENTINEL slaves mymaster1)1)name2)172.18.0.3:63793)ip4)172.18.0.3...127.0.0.1:26379SENTINEL sentinels mymaster(列出所有监控 mymaster 的哨兵)看到这些信息说明 3 个哨兵已经成功发现主节点和从节点系统处于健康监控状态。5. 模拟故障转移亲眼见证自动切换5.1 停止主节点等待约 5~10 秒down-after-milliseconds为 5000ms观察哨兵日志dockerlogs sentinel1--tail20关键日志行sdown master mymaster redis-master6379odown master mymaster redis-master6379#quorum 2/2try-failover master mymaster redis-master6379vote-for-leader... elected-leader master mymaster redis-master6379failover-state-select-slave master mymaster redis-master6379selected-slave slave172.18.0.3:6379... redis-slave16379failover-state-send-slaveof-noone slave redis-slave1:6379 failover-state-wait-promotion slave redis-slave1:6379 promoted-slave slave redis-slave1:6379 failover-state-reconf-slaves master mymaster... slave-reconf-sent slave redis-slave2:6379 failover-end master mymaster redis-master6379switch-master mymaster redis-master6379172.18.0.36379日志清晰地展示了完整过程检测主观下线 → 达成客观下线共识 → 选举哨兵领导 → 选择最佳从节点 → 提升为新主 → 重配置其他从节点。5.2 验证新主节点# 查看新主状态dockerexecredis-slave1 redis-cli INFO replication|greprole# role:master# 查看原从节点 2 是否指向新主dockerexecredis-slave2 redis-cli INFO replication|grepmaster_host# master_host:172.18.0.3 (即 redis-slave1)原主节点恢复后会自动变成从节点dockerstart redis-master# 几秒后dockerexecredis-master redis-cli INFO replication|greprole# role:slave6. Python 客户端对接 Sentinel最关键的环节来了应用如何自动感知主节点切换答案是使用 Sentinel 感知的客户端。6.1 安装 redis-py6.2 Sentinel 连接方式redis-py提供了Sentinel类来管理主从发现from redis.sentinelimportSentinelimporttime# 配置所有哨兵地址sentinel_hosts[(localhost,26379),(localhost,26380),(localhost,26381),]# 创建 Sentinel 客户端sentinelSentinel(sentinel_hosts,socket_timeout0.5)# 从哨兵获取当前主节点和从节点mastersentinel.master_for(mymaster,socket_timeout0.5,decode_responsesTrue)slavesentinel.slave_for(mymaster,socket_timeout0.5,decode_responsesTrue)# 写操作走主节点master.set(username,IT策士)master.set(counter,100)print(f写入完成: username{master.get(username)}, counter{master.get(counter)})# 读操作走从节点print(f从节点读取: username{slave.get(username)}, counter{slave.get(counter)})# 获取当前主节点的实际地址master_addrsentinel.discover_master(mymaster)print(f当前主节点地址: {master_addr})slavessentinel.discover_slaves(mymaster)print(f当前从节点列表: {slaves})输出示例写入完成:usernameIT策士,counter100从节点读取:usernameIT策士,counter100当前主节点地址:(172.18.0.3,6379)当前从节点列表:[(172.18.0.4,6379),(172.18.0.2,6379)]6.3 验证故障转移对客户端透明编写一个持续读写的脚本来测试from redis.sentinelimportSentinelimporttimesentinelSentinel([(localhost,26379),(localhost,26380),(localhost,26381),],socket_timeout0.5)mastersentinel.master_for(mymaster,socket_timeout0.5,decode_responsesTrue,retry_on_timeoutTrue)print(开始持续写入...)foriinrange(1000): try: keyfkey:{i % 10}valuefvalue:{i}master.set(key, value)resultmaster.get(key)print(f[{i:03d}] SET/GET {key} {result})time.sleep(0.1)except Exception as e: print(f[{i:03d}] 错误: {e})time.sleep(0.5)# 等待故障转移完成print(测试结束)在脚本运行期间用docker stop redis-slave1停掉当前主节点观察输出[042]SET/GET key:2value:42[043]SET/GET key:3value:43[044]SET/GET key:4value:44[045]错误: Connection refused[046]错误: Connection refused[047]SET/GET key:7value:47 ← 恢复自动连上新主[048]SET/GET key:8value:48客户端在短暂报错后自动恢复无需任何人工干预。这就是 Sentinel 的核心价值。6.4 封装高可用客户端类from redis.sentinelimportSentinel from typingimportList, Tuple class RedisHA:Sentinel 高可用 Redis 客户端 def __init__(self, sentinel_hosts: List[Tuple[str, int]], service_name: strmymaster, socket_timeout: float0.5, decode_responses: boolTrue): self.sentinelSentinel(sentinel_hosts,socket_timeoutsocket_timeout)self.service_nameservice_name self.decode_responsesdecode_responses self._masterNone self._slaveNone property def master(self):获取主节点连接自动发现returnself.sentinel.master_for(self.service_name,socket_timeout0.5,decode_responsesself.decode_responses,retry_on_timeoutTrue)property def slave(self):获取从节点连接轮询returnself.sentinel.slave_for(self.service_name,socket_timeout0.5,decode_responsesself.decode_responses,retry_on_timeoutTrue)def get_master_addr(self):获取当前主节点地址returnself.sentinel.discover_master(self.service_name)def get_slaves(self):获取所有从节点returnself.sentinel.discover_slaves(self.service_name)def set(self, key, value, **kwargs):returnself.master.set(key, value, **kwargs)def get(self, key):returnself.slave.get(key)def delete(self, key):returnself.master.delete(key)# 使用cacheRedisHA(sentinel_hosts[(localhost,26379),(localhost,26380),(localhost,26381)])cache.set(app:version,3.0)print(cache.get(app:version))print(f当前主节点: {cache.get_master_addr()})7. 生产环境最佳实践哨兵数量至少 3 个且部署在不同物理机或可用区。偶数个哨兵会增加投票平局的概率。quorum 设置sentinel_num / 2 1例如 3 哨兵设 25 哨兵设 3。客户端超时和重试设置socket_timeout和retry_on_timeout避免因网络抖动抛异常。监控哨兵本身哨兵也可能挂需要监控哨兵进程的存活和SENTINEL masters的正确性。避免在故障转移期间操作故障转移一般 10~30 秒此期间短暂不可写入是正常现象。不要将哨兵和数据节点混布在同一台机器否则机器宕机时数据节点和哨兵一起挂。8. 动手试试模拟主节点宕机在 Python 持续写入时docker stop主节点观察恢复时间。模拟哨兵宕机停掉 1 个哨兵观察剩下 2 个是否仍能正常完成故障转移quorum2。查看故障转移后配置检查哨兵配置文件看sentinel monitor行是否自动更新为新主地址。网络分区模拟通过 Docker 网络隔离主节点观察哨兵的行为和客户端恢复。预期效果主节点宕机后 10~20 秒自动恢复写入单哨兵宕机不影响集群可用性配置文件自动更新网络分区恢复后旧主变为从。9. 总结Sentinel 让 Redis 从“单点可用”跃升为“真正的自动高可用”。但它无法解决写的横向扩展——所有写入仍然只能走一个主节点。下一篇我们将迎来 Redis 的终极形态Redis Cluster用哈希槽实现数据分片彻底突破单机瓶颈。想了解更多还可以去各个平台搜索「IT策士」一起升级 IT 思维

MC92604接收器配置与冗余链路设计实战解析

1. 项目概述：深入理解MC92604接收器与冗余链路设计在设计和调试高速网络硬件，尤其是交换机、路由器或服务器背板时，工程师们常常会遇到一个核心挑战：如何在极高的数据速率下（例如千兆以太网的1.25 Gbps线速率&#xff…

2026/6/13 21:38:06 阅读更多

MC68040芯片热设计实战：从热阻原理到散热方案选型

1. 项目概述：从一份手册到一套实战散热方案如果你是一位嵌入式硬件工程师，或者正在设计一款基于MC68040这类老牌高性能32位处理器的系统，那么“热设计”这个词对你来说绝对不陌生。我手头这份来自摩托罗拉官方的《M68040用户手册》第11章&…

2026/6/13 21:38:06 阅读更多

深入解析NXP QorIQ SEC的JUMP与MATH命令：硬件描述符的智能控制核心

1. 项目概述：为什么需要深入理解SEC的JUMP与MATH命令在嵌入式安全处理器的世界里，NXP的QorIQ LS1046A Security Engine (SEC) 是一个功能强大的硬件加速器，专门用来卸载主CPU的加解密、哈希、认证等繁重计算任务。但如果你只把它当成一个“黑…

2026/6/13 21:38:06 阅读更多

LLM信息抽取实战：从认知重构到结构化输出的七道关卡

1. 这不是“调用API就完事”的信息抽取——它是一场对LLM底层认知能力的系统性拆解你有没有试过让大模型从一段会议纪要里抽取出“谁在什么时间、向谁、提出了哪项具体建议”？结果模型要么漏掉关键角色，要么把“建议”和“结论”混为一谈，甚至…

2026/6/14 9:57:27 阅读更多

汽车电子架构：ECU的演进之路

汽车电子架构：ECU的演进之路你的车有多少个"大脑"？ 10个？20个？还是100个？现代汽车的电子系统极其复杂，今天我们就来聊聊汽车电子架构的演进。 ECU是什么？ ECU（Electronic Control Unit），电子控制单元。就是汽车的"电脑"，控制某个功能的…

2026/6/14 9:56:21 阅读更多

别再纠结了！模拟IC设计选MOM还是MIM电容？一篇讲透TSMC/UMC工艺下的实战选择

模拟IC设计实战指南：TSMC/UMC工艺下MOM与MIM电容的智能选择策略在28nm以下先进工艺节点中，电容选型往往成为模拟电路设计的第一个分水岭。当我在设计一个5GHz的VCO时，曾因电容选择不当导致相位噪声恶化3dB——这个教训让我意识到，…

2026/6/14 9:51:58 阅读更多

【信息科学与工程学】【管理科学】第四十八篇企业的核心信息合规-商业秘密合规01

用于理解企业运营中的关键要素。编号类型领域问题问题的详细数学分析【含资源/利益/财务/会计/税务/资本/供应链/商业模型/宣传模型/其他】及详细数学方程式算法名称算法逐步推理思考的数学方程式及参数列表及数值边界条件组合约束方程式及参数列表及数值边界条…

2026/6/14 9:51:17 阅读更多

Rust构建用户界面现状：根基尚浅但生态渐丰，多种框架各展其能

Are we GUI Yet?：Rust在构建用户界面方面的现状作为一种底层语言，Rust非常适合以传统方式使用原生API来创建用户界面。然而，在当今世界进行竞争通常意味着要支持多个平台，这使得使用原生API对许多人来说缺乏吸引力。Rust的表达能…

2026/6/14 9:50:56 阅读更多

从单机到云原生：SuperMap iManager在K8S上的硬件配置实战（含资源估算公式）

从单机到云原生：SuperMap iManager在K8S上的硬件配置实战（含资源估算公式）当GIS服务从传统物理机迁移到Kubernetes集群时，资源配置从静态分配转变为动态调度的艺术。本文将以三个真实场景为例，拆解如何根据业务特征推导…

2026/6/14 9:50:56 阅读更多

音乐文件解锁实战指南：3个场景解决你的播放困境

音乐文件解锁实战指南：3个场景解决你的播放困境【免费下载链接】unlock-music 在浏览器中解锁加密的音乐文件。原仓库： 1. https://github.com/unlock-music/unlock-music ；2. https://git.unlock-music.dev/um/web 项目地址: https://git…

2026/6/14 0:00:09 阅读更多

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

遥感卫星数据选型实战指南：从参数解析到场景化应用当面对GEE、PIE-Engine等云平台上数十种遥感数据源时，许多研究者常陷入选择困难——Landsat的历史连续性、Sentinel-2的红边波段优势、高分系列的亚米级分辨率各有千秋。本文将打破常规参数罗列式对比&a…

2026/6/14 0:00:30 阅读更多

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

1. 项目概述：MC68302 AutoBaud技术深度解析在嵌入式系统开发，尤其是那些需要与外部设备进行串口通信的场景里，最让人头疼的环节之一就是波特率匹配。想象一下，你设计了一个数据采集终端，需要连接来自不同厂家、不同年代…

2026/6/14 0:01:11 阅读更多

音乐文件解锁实战指南：3个场景解决你的播放困境

2026/6/14 0:00:09 阅读更多

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

2026/6/14 0:00:30 阅读更多

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

2026/6/14 0:01:11 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/13 10:27:28 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/13 10:01:44 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/13 10:00:44 阅读更多

相关文章

MC92604接收器配置与冗余链路设计实战解析

MC68040芯片热设计实战：从热阻原理到散热方案选型

深入解析NXP QorIQ SEC的JUMP与MATH命令：硬件描述符的智能控制核心

LLM信息抽取实战：从认知重构到结构化输出的七道关卡

汽车电子架构：ECU的演进之路

别再纠结了！模拟IC设计选MOM还是MIM电容？一篇讲透TSMC/UMC工艺下的实战选择

【信息科学与工程学】【管理科学】第四十八篇 企业的核心信息合规-商业秘密合规01

Rust构建用户界面现状：根基尚浅但生态渐丰，多种框架各展其能

从单机到云原生：SuperMap iManager在K8S上的硬件配置实战（含资源估算公式）

音乐文件解锁实战指南：3个场景解决你的播放困境

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

音乐文件解锁实战指南：3个场景解决你的播放困境

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

【信息科学与工程学】【管理科学】第四十八篇企业的核心信息合规-商业秘密合规01