开发能在多大程度上帮助运维减轻半夜被叫起的负担?

2020-06-09 10:18:12 +08:00
 baiwfg2
我司我组的运维都看着挺辛苦的,经常半夜两三点起来处理故障问题,因为经常有致命告警。他们往往对某些实现上的细节不清楚,所以也很有可能把主导项目的开发 leader 叫起来,于是大家都在深更半夜不太清醒的状态下处理故障。

我一直在想,如果开发把功能做得完备些,特别是在上线前多测试演练,多在可能故障的地方埋点以帮助在意外情况下可以恢复到 一个慢但准确的 Plan B 的执行路径上来,这样哪怕半夜被叫醒,也可以快速迁到 plan B,不至于人为操作半天,毕竟人不在清醒情况下更容易出问题。

所以我总觉得运维如此辛苦,是开发
1 )没有用心把系统做得故障冗余
2 )没有重视上线前测试演练
3 )没有配合和敦促运维一起做好面板监控和自动化处理(于是乎总要通过慢的命令行的人工操作)

的结果。(我自己是开发 ,所以也会审视我们的开发队伍)。大家觉得呢
9263 次点击
所在节点    程序员
95 条回复
1oNflow
2020-06-09 17:46:11 +08:00
有专门运维和 SDE 也管 oncall 的公司比例大概怎样?
dolphintwo
2020-06-09 17:46:22 +08:00
我运维在这还不如🐶
wangkun025
2020-06-09 17:49:24 +08:00
说服你老板晚上和节假日关机。
ppphp
2020-06-09 17:59:35 +08:00
有 sre 就走 sre 流程,没有 sre 就看强势部门的,开发强势就开发来,运维强势就离谱,快逃吧
pushback
2020-06-09 18:28:27 +08:00
@airplayxcom 那种低级业务我才不写,给运维写去吧🐶
Ansen
2020-06-09 19:03:09 +08:00
运维的日常: 一切正常,我们花钱请你来干啥? 服务器异常,我们花钱请你来干啥?


运维路过!个人经验是大多数程序上的问题还是测试流程的问题,极少数情况是确实测不出来,这个没办法,全部操起来解决问题!

至于非程序上的问题,除不可抗力因素之外,基本上都是运维本职工作没有做到位引起的,这锅得运维自己背!
testsun
2020-06-09 22:11:47 +08:00
我觉得开发这么辛苦是因为运维保障不了基础设施的稳定运行。负责运维的领导开会说,一切运维异常情况都可能发生,但你们开发的代码必须考虑到所有运维发生的异常情况,就这样,散会。
kimi0
2020-06-09 22:16:26 +08:00
坐标巨硬,每次做事故分析必有一项是为什么 test 没有发现这个问题。能在上线前挡住的问题,不要拖到线上搞,大家都轻松
Illusionary
2020-06-09 22:38:37 +08:00
经常半夜宕机也得分情况吧,如果是偏向硬件方面的故障,那还是运维本身的锅。如果是偏向程序本身的,比如什么动不动 OOM,假死,慢 SQL 过多这种就是开发的问题了,前者可以考虑高可用,后者应该让 DBA 或者开发大佬优化。
wangyzj
2020-06-09 23:15:29 +08:00
运维这个角色的确很尴尬
解决问题是工作
出现问题要背锅

墨菲定律
测试做的再好也不可能完全避免问题

尤其中国企业都是赶鸭子上架一样的上线
然后开发推责任,运维还没话语权

猜测楼主是非互联网行业
devops 无
无法自己挖坑自己填
so1n
2020-06-09 23:20:40 +08:00
觉得最主要是应该是出问题直接报警到开发这个功能的人 而不是报警到开发这个报警或者运维这个系统的人
heart4lor
2020-06-10 00:36:26 +08:00
感觉 DevOps / SRE 是一门很深的学问
Anshay
2020-06-10 01:20:48 +08:00
我司运维兼技术大佬每天给开发擦屁股。一堆刚毕业 3 年左右的,各种辣眼睛风格的代码。为什么我知道,因为这事就发生在我身上。当然大佬是别人。
ericgui
2020-06-10 01:26:20 +08:00
灰度发布会不会好一点?
XanderChen
2020-06-10 03:57:37 +08:00
你问问你公司的测试部门是干什么吃的,

未经测试的程序为什么允许上线,

为什么经常半夜跳致命警告,

为什么都经常跳了,还不根据致命警告制定更加完善的测试脚本。

以上。
timle1029
2020-06-10 04:34:03 +08:00
@ly4572615 #8 在亚麻你敢不接,30 分钟之后就是你老板接,他要是不接 30 分钟之后就是他老板接,一路往上。你觉得谁敢不接么
sampeng
2020-06-10 07:47:54 +08:00
作为 10 年开发,也是跟楼主一样的疑惑我就转了运维,看看到底怎么回事。然后每天我的日常吐槽就是:

这个接口为啥这么慢?研发干嘛吃的?
这个接口我加了机器还是倒置机器 cpu 这么高?研发干嘛吃的?
这一群服务什么鬼,天天 5xx ?研发干嘛吃的?
晚上有活动,我又被电话打起来了,什么?这么简单的问题怎么暴露到线上去了?
横向纵向扩展呢?数据库读写分离不支持?消息队列又 tm 堵了...机器都没法加了,加了数据还是甭掉…研发干嘛吃的?

emmmmm…现在,我又想去做研发了…
namelosw
2020-06-10 08:16:51 +08:00
凡事都靠 SRE 的团队和凡事靠 QA 的团队一样,都是有问题的。理想情况运维应该只看看基础设施网络问题就好了。

大部分问题应该在开发阶段弄好而不是找个某些角色当垃圾桶兜底。
cmaster
2020-06-10 08:33:09 +08:00
管理问题,换个领导
cheng6563
2020-06-10 08:44:51 +08:00
我司不配笔记本,也不允许公司电脑挂机。下班后处理不了任何问题。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/679896

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX