2026年5月20日,UTC时间16:00至17:45期间,GitHub Actions用户遇到运行启动延迟超过5分钟的情况。受影响期间,约4.5%的运行任务出现延迟,其中规模集作业受到的影响尤为严重。规模集作业中有30%出现延迟,4%的作业完全无法启动。
此次事件是由内部服务(负责将任务分配给运行器)的健康检查配置错误引起的。上游依赖项的短暂延迟峰值触发了多个 Pod 的健康检查失败,导致这些 Pod 停止服务,并将负载集中在剩余容量上。额外的负载导致内存压力上升,最终引发一个区域集群的级联故障,使其无法自我恢复。
响应人员通过扩展正常区域集群的容量并将流量从故障集群转移出去,缓解了此次事件,之后运行启动延迟得以恢复。为防止类似事件再次发生,我们正在加强健康检查配置,以避免级联故障,并评估在区域性能下降时自动重新平衡流量的缓解措施。