服务器更新原则参考

一切操作的前提是服务的高可用性,高效性。

  1. 更新操作之前要有应对突发事件的准备(例如:更新失败,网络错误,硬件故障等等意想不到的能导致服务失败的可能性)
  2. 确保相关人员在更新操作后2个小时内能够及时响应。(建议周一—–周四,上午 10.00,下午 15.00,其他时间不推荐更新操作)
  3. 确保服务程序可以回退到更新前的版本,保证高可用性
  4. 多台服务,先更新一台,然后验证功能是否正常,确认无误后可以更新其他服务(要准备相关验证脚本或工具)
  5. 更新操作过程尽可能原子化 (推荐使用更新脚本或其他工具,后台执行,避免操作端出现意外故障导致更新操作处于中间状态)
  6. 要熟悉每个服务的相关指令和参数,加强岗位技能
  7. 只做必要操作(和本次更新无关的操作禁止执行)
  8. 针对每项服务要有更新流程清单。(记录每一步需要的操作和注意事项)