不要小瞧了监控这件事

2014-11-06 23:48:44 +08:00
 blueking
这个世界上开源和收费的监控系统实在是太多了,而不是太少了。无论是传统的nagios,ganglia,还是所谓的云监控系统。它们的工作方式其实都差不多,安装一个agent,上报数据,然后花花绿绿的图表就显示在web界面上了。无论这些系统如何包装,前端写得多么漂亮,一看截图十有八九图例是“cpu1”,“cpu2”。cpu使用率,内存,磁盘,仿佛把这些东西的曲线画在一个web界面上,监控工作就完成了似的。好吧,你有cpu使用率曲线图了,so what?

监控是多学科交叉非常有深度的课题。其职责一般落在一个部门里的运维身上来落实,比如我这样的人。我们知道技术里一流的人才去做架构师了,二流的人才去做后台开发了,三流的人才比如我这样的就来搞运维了。搞好监控是一项与运维传统技能(能熬夜肯加班,虎背熊腰扛机器)非常不match的工作,它包含四个方面的内容:

1、根据目标选择监控对象和策略
2、数据上报与实时统计
3、异常检测
4、由人或者系统来处理

其中数据上报与实时统计就需要非常综合的工程能力。简单的搞个小脚本往中央的一台开源监控系统定时报个数就行了,表面上很简单。但是大型系统监控往往对应到了jd里的所谓“大数据”经验。你需要从选择hbase还是postgresql,选择storm还是spark,选择metaq开始kafka,选择flume还是logstash这些开始,然后经过一个漫长的学习过程,最终学会了如何fancy而优雅地“数数”。其实我一直很纳闷的是,怎么有这么多牛b的人写这么多牛b的系统来干小学生都会的数数工作。

异常检测是一件表面上非常简单的活。比如给定一颗cpu,平时都是40%的占用率。那好,我配置一个80%的阈值,超过就告警,完事了。但如果你要监控的对象一根一天上下变化非常剧烈的曲线呢?早上可能只有几千,中午和晚上可以到几十万。这个时候去检测异常就不再是一个阈值这么简单的工作了。这项工作的学名叫Outlier Detection,按照分类来说属于机器学习,自打有计算机这门学科以来从简单的自回归到现在的SVM神马的,paper是层出不穷的。简单来说,这是一片有着科学家头衔人群从事的领域。

即便是发条告警消息这么简单的一件事,也事关cognitive bias。有人还研究飞机驾驶舱的告警消息设计是如何导致大西洋坠机事件的。还有花花绿绿的仪表盘,如何设计好以更好利用人眼的认知方式以传达信息,这也是一门很深的学问,叫data visualization。这个领域有一家大名鼎鼎的公司叫tableau,其创始人以前是在好莱坞搞动漫渲染的。凌晨四点需要叫运维起床尿尿的系统,必须重视人机交互这块的。给头脑不清醒的人设计界面一个场景就是club里给醉汉们用的点唱机,另外一个我所知的场景就是接到电话之后愤怒起床来定位问题的运维了。

故障处理就是个擦屁股的活,这话一点没错。那些架构师们设计了一个高可用的架构之后,他们的工作就高大上的完成了。故事是这样的,一台application server挂了,前段nginx检测到自动把这台application server踢掉,用户完全不受影响。然后后台开发们就可以光荣自豪的说,前段机器哈随便挂的说。运维苦哈哈的嘟囔着,尼玛又挂了。一个集群里挂个一两台application server可能是没啥关系的,但是挂多了呢,雪崩了呢?挂掉的机器咋处理,放那晾干么?故障及不还得修,不还是得人来管?运维们就像唐顿庄园里地下室的仆人们一样,做一些卑微但是必要又无人欣赏的工作。更加不要说,没有做高可用的架构了。一台登陆服务器挂了,cao,无论你是在陪女朋友逛街,还是第一次相亲,都得飞奔到有3g信号的地方开始ssh。

好像少了什么。哦,忘记说了。这是篇招聘帖,老板说了再招不来人我就要滚蛋了。如果你对以上工作内容的任何一条感兴趣,请联系我: blueking.jobs@gmail.com。没有薪资范围的招聘都是耍流氓,我就耍了,怎么的?有本事来找我啊,联系地址:腾讯游戏,深圳南山科兴科学园。是的,英雄联盟,穿越火线,天天酷跑就是我们部门负责运维的。经常挂,进不了大区?是的……所以我们要招人好好来搞嘛。anyway,call me,约吗?
16926 次点击
所在节点    酷工作
80 条回复
ipush
2014-11-07 15:27:44 +08:00
其实运维做好了,真的是技术活。
只是成本中心,不像利润中心那么容易让老板觉得出彩而已。
你给公司省了几千万,哦。
你给公司多赚了几百万? 哇塞!
boogiefer
2014-11-07 16:20:56 +08:00
赞!
c0878
2014-11-07 17:11:33 +08:00
招聘贴写成这样也是蛮拼的
yuankui
2014-11-07 17:23:40 +08:00
顶楼主
cocalrush
2014-11-07 18:26:51 +08:00
去去去~~~
gqfBzoLVY3Wl4Tng
2014-11-07 19:09:13 +08:00
你们部门也够负责了,各种断线无法重连,必须重启客户端,各种莫名崩溃,切换桌面必定崩溃,外服就没这个问题
hljjhb
2014-11-07 19:59:21 +08:00
V2上见过的最好的招聘帖
manoon
2014-11-07 20:19:59 +08:00
好的文案胜过妹纸和美食的诱惑
est
2014-11-07 20:20:46 +08:00
很好的文案。
ibillxia
2014-11-07 20:30:24 +08:00
鹅厂的友情bd
Parahexen
2014-11-07 23:14:45 +08:00
很有意思,道的也是实情,真正能把CS里面一些东西学以致用的人太少。
lairdnote
2014-11-08 11:18:17 +08:00
哈哈。 鹅厂牛。。我们正在做这样的平台。 用机器学习去运维。。
lairdnote
2014-11-08 11:19:08 +08:00
架构为 snmp spark 机器学习 elasticsearch aws api salt 自动化
scys
2014-11-08 11:50:43 +08:00
有趣~监控是独立于服务器开发的?有点很蛋疼。应该混合开发才是王道
ashora
2014-11-08 12:10:59 +08:00
顶一个
flied
2014-11-08 14:14:31 +08:00
赞诚意

这样的招聘贴才像个样子。
genffy
2014-11-09 01:03:24 +08:00
前端开发,马。
exuxu
2014-11-10 09:38:03 +08:00
yue
mogging
2014-11-11 13:29:09 +08:00
同为DevOps的人表示干了些年都不想挪窝了,支持楼主校招些有激情的吧
homu
2016-03-25 16:10:24 +08:00
@ipush 说得好

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/144542

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX