后端 / 运维请进,这个工具非常推荐!

2018-12-20 18:23:40 +08:00
 Kilen

假如有过服务器宕机的恐惧的话,肯定很喜欢这个工具。

每当服务异常的时候,我们第一件事就是查找哪个服务挂了,如果你只有一个服务器,也许也还好,不过只有一个服务器的话估计宕机了也不会有什么恐惧感(这个时候用户量一般还不算大)

可是如果你有很多个服务器,N 多服务,要查清哪个服务出问题了,也不是那么简单。除非你的运维系统已经做的很完备,可是尽管这样,在产品飞速迭代的过程中,每周有新的服务更新上来很正常,这个时候要保证监控到位也是一种挑战。

我刚发现这个国外开发者做的 app:Net Status。

这个 app 可以让你一键 check 所有服务的运行状态,一瞬间你就知道哪个服务出问题了:

你也可以单独查看每个服务各个端口的运行状态:

如果对这些功能不感冒的话,至少,你可以用这个 app 装逼:当跟朋友在餐厅吃饭时,朋友抱怨这个 WIFI 好像有点问题的时候,你拿出手机,ping 一下 baidu,然后很淡定的说,“是的,上不了网”

如果对这个 app 好奇,这里有更详细的介绍(有一个视频):Net Status - Server Monitor

最后,心动的话赶紧去下,现在限免中,原价 28 !

4837 次点击
所在节点    程序员
28 条回复
Cooky
2018-12-20 18:32:58 +08:00
zabbix,简单有效
CivAx
2018-12-20 18:33:59 +08:00
……事实上是,当服务器出问题时,在运维反应过来之前,产品 /运营 /开发已经开始叫了
(甚至比 App 灵敏)
Kilen
2018-12-20 18:37:01 +08:00
@CivAx 一般都是用户群里首先尖叫
TangCuYu2333
2018-12-20 18:41:36 +08:00
请问 Android 上有没有类似的 app🤔🤔
raynor2011
2018-12-20 18:41:52 +08:00
现在云主机都有监控的吧
tomczhen
2018-12-20 18:45:21 +08:00
@TangCuYu2333
Android 上有 ping tools pro,或者用 automate。
Kilen
2018-12-20 18:45:37 +08:00
@raynor2011 有的,不过在紧急的情况很不方便,比如阿里云的监控,一次只能看一台服务器的运行状态,如果你有很多台服务器,得疯狂地点~ 一般都得自己用第三方工具做一个所有服务的总览,可是如果服务太多,一页有时候也看不完...
594duck
2018-12-20 18:46:41 +08:00
@CivAx 说的太对了,老板还会每次都说,你们因为怎么最后才知道?
Raymon111111
2018-12-20 18:49:01 +08:00
这个一般有监控的, 定时 ping
xpresslink
2018-12-20 18:59:28 +08:00
@Kilen 阿里云的控制系统非常方便。估计你不太会用。可以自己定义监控项和告警策略。ECS 出现问题直接通过钉钉 /短信 /手机语音发送警告了,自己去盯着?不存在的。
而且可以自己定义监控大盘,把所有 ECS 基本状态放一个图表里。
raynor2011
2018-12-20 19:00:05 +08:00
@Kilen 这种现在基本都会弄成报警短信,报警微信之类的,出问题直接通知,比自己人肉监控方便
Kilen
2018-12-20 19:15:56 +08:00
@xpresslink @raynor2011 我也许说的不是很清楚,这个东西不是为了用来监控服务器,而是一个当服务器出现问题的时候的一个调试工具,可以让你最快速的知道哪个服务出问题了,而不用一个个报警去看(或者如果报警没覆盖全,一个个服务器去看)
Admstor
2018-12-20 19:21:18 +08:00
Net Status is a very simple and very fast network and port checking, testing and monitoring app for iPhone, iPad and iOS.

好吧,楼主应该不是运维...
这个工具对运维来说没啥用,就是个批量端口检测,类似的工具太多了
都出故障了我还需要这端口检测干啥...直接就知道哪个服务器挂了...为啥还会说不知道还要查询哪个挂...

zibbx 之类可以自动添加新加服务,基本上都是半自动处理
早在服务器挂之前就应该有 overload 警告才对
xpresslink
2018-12-20 19:27:05 +08:00
@Kilen 我觉得你的语言逻辑出现了问题,你说的场景不存在的。

实在看不懂你这句:
这个东西不是为了用来监控服务器,而是一个当服务器出现问题的时候的一个调试工具,可以让你最快速的知道哪个服务出问题了

也可能我没有把阿里云监控功能说清楚,监控系统会直接发短信告诉你是哪台服务器出了什么问题了,无需自己定位服务器。
xpresslink
2018-12-20 19:30:18 +08:00
@Admstor 我估计也是这样的,这个小东西在我们专业做运维的眼里连个小玩具都算不上。
jingniao
2018-12-20 19:38:42 +08:00
上架服务器,虚拟机之类的,按照功能命名主机名,然后 zabbix 栽过去也差不多了
superlks
2018-12-20 21:25:20 +08:00
5 分钟不上报进程状况,就是一堆电话,邮件,短信,微信告警
Kilen
2018-12-20 22:02:54 +08:00
@xpresslink
抱歉,那句话确实说的有问题,我想说的是,当网站出问题的时候,通过这个小工具,可以快速定位到哪个进程出问题。

对,确实是,通过监控服务器的 cpu,内存等状态可以覆盖很多问题,而阿里云的报警主要是当这些指标超过阈值才会报警。可是也会有一些情况是尽管服务不正常了,可是却没有引起内存或者 cpu 超过报警的阈值。

比方说,我以为把内存设成超过 80% 报警就很稳妥,可是服务实际上是在 75% 的时候就已经停止服务了怎么办?或者我把内存,cpu 的警报都调优的很好,可是后来用户群炸了,服务不正常了,最后发现漏了监控服务器内网进出带宽?

服务端有趣的点是,每一种语言,每一种架构都有着不同的优劣,当接触到新的技术(比如上了一个 go 服务),会需要继续学习。所以监控的指标也应该是不断迭代的,然后会让自己的监控更准确,甚至预支问题的发生,在用户群炸起来前,已经接到警报,把问题解决。

我确实不是运维,所以也许对于资深运维来说我上面提到的问题不是问题?也许有一套标准化的解决方案?如果是的,很希望看到这个帖子的运维朋友可以给我分享一下。

因为我不是运维,一般来说我不太负责监控,而是当出现网站问题的时候能够快速解决。而我的解决方案很简单,就是遍历每一个服务进程,看看是不是返回一个正常值,或者返回一个正常值的延迟是多少。理论上只要能覆盖每一个服务进程,这个方法就可以 100% 检查出网站哪里出问题了。

而今天看到这个 app,我觉得就是一个更轻量的解决方案了,至少不需要 coding,当然也没有 coding 这么灵活,但也许也是一个很好的小工具了。
TangCuYu2333
2018-12-21 08:04:26 +08:00
@tomczhen 谢谢
4linuxfun
2018-12-21 08:25:11 +08:00
zabbix 用用就差不多了。。。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/519488

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX