CC 的 - 事件及应对措施 – 故障详情

所有系统运行中

事件及应对措施

已解决
性能下降
开始于 8 天前持续 大约 3 小时

受到影响

第三方

运行正常 从 4:58 PM 至 4:58 PM, 性能下降 从 4:58 PM 至 5:52 PM, 运行正常 从 5:52 PM 至 8:14 PM

GitHub → Actions

运行正常 从 4:58 PM 至 4:58 PM, 性能下降 从 4:58 PM 至 5:52 PM, 运行正常 从 5:52 PM 至 8:14 PM

更新
  • 已解决
    已解决

    2026年5月20日,UTC时间16:00至17:45期间,GitHub Actions用户遇到运行启动延迟超过5分钟的情况。受影响期间,约4.5%的运行任务出现延迟,其中规模集作业受到的影响尤为严重。规模集作业中有30%出现延迟,4%的作业完全无法启动。

    此次事件是由内部服务(负责将任务分配给运行器)的健康检查配置错误引起的。上游依赖项的短暂延迟峰值触发了多个 Pod 的健康检查失败,导致这些 Pod 停止服务,并将负载集中在剩余容量上。额外的负载导致内存压力上升,最终引发一个区域集群的级联故障,使其无法自我恢复。

    响应人员通过扩展正常区域集群的容量并将流量从故障集群转移出去,缓解了此次事件,之后运行启动延迟得以恢复。为防止类似事件再次发生,我们正在加强健康检查配置,以避免级联故障,并评估在区域性能下降时自动重新平衡流量的缓解措施。

  • 更新
    更新

    客户影响已完全消除。我们正在部署永久性修复方案以防止问题再次发生,因此目前仍维持黄色预警状态。

  • 更新
    更新

    我们已采取缓解措施修复了 Actions 作业排队和运行方面的问题。遥测数据有所改善,我们正在密切监控,以期完全恢复正常。

  • 持续监控中
    持续监控中

    影响 Actions 的性能下降问题已得到缓解。我们正在进行监控以确保系统稳定性。

  • 更新
    更新

    部分运行器连接时间超出预期,这可能会延迟某些作业的执行。我们正在积极努力解决此问题。

  • 调查中
    调查中

    我们正在调查有关 Actions 性能下降的报告。