前沿数控的云事故，是不是说明云并不安全？

今天看新闻，腾讯云出事故了 https://www.cnbeta.com/articles/tech/754293.htm

文中提到：这次故障中，“前沿数据”也表示目前没有任何本地本分数据用来恢复。

按照字面理解，云上数据应该是很安全的，毕竟行业是这么吹的。从这个事故中，是否可以推断低几率事件的存在，云就肯定不安全呢？

kulove

2018-08-06 14:53:52 +08:00

@jadec0der 买了云服务器，默认送了 20G 系统盘，但是这个系统盘是可以在云硬盘界面看到的。。

bhaltair

2018-08-06 15:01:32 +08:00

本地备份+1

jadec0der

2018-08-06 15:03:14 +08:00

@kulove 我看了一下腾讯云控制台，确实没有做区分，把系统盘和弹性盘都放在云硬盘里，但是我猜应该不是一样的东西。

弹性盘是同可用区内都可以挂载的，机器和系统运行的机器不一定是同一台，可能是通过网络访问硬盘的。系统盘显然没有通过网络访问的道理。

opengps

2018-08-06 15:04:59 +08:00

@kulove 仔细看下，云硬盘在可用地多副本，不是异地，异地容灾说的至少是跨城市级别，腾讯这个三副本只是同机房里存三份数据。类似于 raid1，至不过数量是 3，这三份是同时进行读写的

isCyan

2018-08-06 15:08:04 +08:00

@jadec0der 系统盘也分类型的，现在云上大部分除了本地 SSD 都是云盘啊

liprais

2018-08-06 15:08:21 +08:00

说明以后不做备份的运维直接开除就行了

opengps

2018-08-06 15:09:15 +08:00

借楼解读下：（我也是被人问烦了，技术服务中，总有人问我阿里云有没有 vps，答案是没有！）
VPS：单个物理服务器里的虚拟机（虚拟机硬盘往往用的是母鸡的硬件）
云服务器：物理机集群里的虚拟机（虚拟机硬盘用的往往是共享存储的硬盘）
假设物理机遇到硬盘故障，VPS 跟着母鸡一起死。云服务器可以自动漂移到其他母鸡上继续运行。所以云服务器的可用性就是高于 VPS 的

kulove

2018-08-06 15:09:43 +08:00

@jadec0der 如果没区分的话，认为有灾备的话没问题，毕竟说明页也没说不包括系统盘不是。

@opengps 同机房的三份数据硬盘都坏了..也说不过去吧...

MrCurly

2018-08-06 15:13:53 +08:00

同意二楼，安全建立在冗余上，而云这个概念显然不包括冗余，冗余应该是为了云安全而使用的手段。

YvesX

2018-08-06 15:20:39 +08:00

我就是冲着这些基础建设的服务购买各种云计算产品的。
连容灾都要我自己做，怎么不让我自己部署机房备用网络呢？

opengps

2018-08-06 15:21:15 +08:00

@kulove 我也觉得不应该。按照目前腾讯给出的解释，是硬盘的写入读出不同，这个描述其实有点模糊，三副本毕竟都还是虚拟磁盘文件。
虽然三个副本，正常情况下写入内容相同，但是底层存储由于是不同的物理底层，按理物理磁道说不会相同，可以排除掉是同一批硬盘同时触发这么一个极端情况。
既然事实是同时坏三个副本的数据，那么问题应该归结于镜像存储的软件（软 raid 之类的底层软件），而不是归结给物理硬盘
有存储届的朋友提过，这种情况不会是单个案例，应该还有其他同类情况出现没有被发现，可能是由于这样的原因，腾讯选择下架整个同批次硬盘

lshero

2018-08-06 15:31:34 +08:00

只能说明一些公司的产品经常进行虚假宣传

https://azure.microsoft.com/zh-cn/features/resiliency/
这样详细教育客户怎么构建高可用的业务才敢宣称 99.99%
不知道某些云 99.9999999% 的数据可靠性是怎么算出来的

ladypxy

2018-08-06 15:32:55 +08:00

@YvesX 云只是给你一台虚拟机。。。和容灾没有关系啊。。像我们现在公司上云，所有的服务器全是 aws 一份，azure 一份，互相备份。。

msg7086

2018-08-06 15:58:20 +08:00

云计算原本的定义是利用资源池有效地分配资源，方便地伸缩架构，可以用微小的工作（ API 脚本等）完成资源的申请和释放。
云这个概念本身就没有涉及到数据安全性，而且恰恰相反，云是利用伸缩架构来降低对可用性的要求的。
比如 AWS 上，多个 EC2 节点，多个 LB 节点，分布在多个机房的多个可用区里，其中任何一个节点离线、重启，都不会影响业务正常运行，因为会自动 Failover 到其他节点去。所以对云计算来说，单个虚拟服务器挂掉是很寻常的事情。
我司之前有一个 VPS 放在 AWS EC2 上，结果某一天登录上去发现机器被重启过了。也没有警报也没有通知什么的，他就给你重启了。道理很简单，厂家默认你有几十几百台机器一起跑，重启一台根本不会影响系统正常运行。至于你只有一台，那是你选错了产品罢了。

之前看过一篇说 AWS 的文章，开头上来就是一句：如果你每个服务只开一台机器跑，那就别用 AWS （云计算）！

最后再说一句，云计算是个市场营销术语，强行区分 VPS 和云服务器是没有意义的。VPS 是虚拟专用服务器的缩写。每一台云计算服务器本质上都是「虚拟的」「专用的」「服务器」，也就是 VPS。

ryd994

2018-08-06 16:18:25 +08:00

@lshero 咳咳，其实 azure 的可用性比 AWS 略差
这是内部自己承认的，sla 有满足，但是最后统计下来就是差一点
当然，现在也在不停改进

ryd994

2018-08-06 16:29:06 +08:00

@opengps “云服务器可以自动漂移到其他母鸡上继续运行”
你说的是 live migration 么？
技术上可行，实际上直接给你在另一台 host 上重启比较快
你说的 host 硬盘故障问题不存在。因为计算节点和储存节点是分离的。计算节点不储存用户数据，通过网络挂载。本地 SSD 是有，但是本地 SSD 不保数据
计算节点能故障啥？要么网络要么 CPU，这都不是可以热迁移的情况。唯一有用的就是如果要维护节点，可以把虚拟机迁移走再维护。但是其实现在都有在线升级的能力，必须关机维护的情况非常少（比如去年的 spectre 就是一例）。完全可以等用户自己业务需要关机的时候，逐步退役，最后再把剩下的全部重启一遍。反正 sla 只保 uptime，不保证不重启

opengps

2018-08-06 16:48:03 +08:00

@ryd994 live migration 没听过。
用过 VMware Vsphere 虚拟化平台的知道这个热迁移的意思。可能的故障太多，在小概率也是概率。比如你说计算节点故障不会有，但我轻松可以举反例说主机掉电。计算节点用的任何组件，电容可能击穿，电阻可能变化等等很多不太可能出现但是却一定有的反例。

A 一般故障自动热迁移，（管理员经常手动热迁移下架某台物理服务器）
B 部分无法实现热迁移的故障，会自动迁移后自动重启（为了保证业务不断，这里需要软件设计成跟随系统重启）
C 极少数故障，迁移 cpu 内存资源之后不能重启（灾难级故障，普通人员遇到了无解，手动使用万能重启法解决）

用我的分类 ABC，可以看出，可用性（用时长计算）：
A 足够解决时候是 100%（业务无中断）。
B 方案解决时候是重启和恢复业务压力所需要的时间（业务中断几分钟）。
C 类别则是人工排除掉故障所用的时间（往往是几小时到几天）

night98

2018-08-06 17:46:44 +08:00

自动快照，应该是可以挽救大部分数据的。

但是按照腾讯云给的说明，消费才 3K 多，应该是只有单服务器的价格消费，这样丢了所有数据，也是运气有点好。。

cloudbeyond

2018-08-06 18:05:49 +08:00

@Felldeadbird #12 你理解的有问题，详见 34 楼答复

huanxianghao

2018-08-06 18:40:27 +08:00

@YvesX #30 你这思路也是奇特。那是不是你买车，卖车的应该送你终生的保险？然后顺便给你配个司机？

其实是可以包全套的，只要你给钱，钱给够了，什么都可以让别人给你做。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/477241

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.