2020《Spring+Cloud与Docker微服务架构实战》

运维号称背锅侠,系统升级出现问题、网络出现问题、系统宕机等都会被推到运维头上,就连各大网络公司平台一旦出现问题,也总是运维人员来背锅,包括前段时间阿里云故障,据说也是运维失误造成的!这些问题说明运维工作的复杂性、重要性以及危险性,稍有不慎就有可能“灾难降临”。我以前的一个运维同事经常说,每次升级的时候都胆战心惊,真应该请尊菩萨来拜拜,而我也何尝不是呢?曾经我们每次升级都不是那么顺利,总会有不同的问题出现,复杂的时候可能会折腾一宿。印象最深刻的一次是因为运维升级的失误差点让我们整个技术团队集体“下课”:那天下午两点当时公司的老板要参加一个互联网大会来宣传我们平台的新产品,而我们由于系统还有一些问题需要临时升级,本来想着挺简单的一次升级,却在升级过程中由于操作不当整个平台被全部宕掉,怎么都无法启动。当时脑子一片混乱、手脚发麻(因为我是技术负责人),却怎么也排查不出问题,我当时都想好了要引咎辞职,幸好在大会开始前半个小时终于查到了原因,顺利的恢复了系统的运行!这次事件给我们所有人都上了一课,一定要重视运维,并且一定要做到全自动化运维,一键部署那种!但是由于当时我们技术的局限性,运维人员也不是太专业,好的运维人员又请不起,我们只能自己研究,自己一点点去完善。

文件信息:

34

发表评论