前沿数控的云事故,是不是说明云并不安全?

2018-08-06 13:05:44 +08:00
 Felldeadbird
今天看新闻,腾讯云出事故了 https://www.cnbeta.com/articles/tech/754293.htm

文中提到:这次故障中,“前沿数据”也表示目前没有任何本地本分数据用来恢复。

按照字面理解,云上数据应该是很安全的,毕竟行业是这么吹的。从这个事故中,是否可以推断低几率事件的存在,云就肯定不安全呢?
7354 次点击
所在节点    云计算
57 条回复
kulove
2018-08-06 14:53:52 +08:00
@jadec0der 买了云服务器,默认送了 20G 系统盘,但是这个系统盘是可以在云硬盘界面看到的。。
bhaltair
2018-08-06 15:01:32 +08:00
本地备份+1
jadec0der
2018-08-06 15:03:14 +08:00
@kulove 我看了一下腾讯云控制台,确实没有做区分,把系统盘和弹性盘都放在云硬盘里,但是我猜应该不是一样的东西。

弹性盘是同可用区内都可以挂载的,机器和系统运行的机器不一定是同一台,可能是通过网络访问硬盘的。系统盘显然没有通过网络访问的道理。
opengps
2018-08-06 15:04:59 +08:00
@kulove 仔细看下,云硬盘在可用地多副本,不是异地,异地容灾说的至少是跨城市级别,腾讯这个三副本只是同机房里存三份数据。类似于 raid1,至不过数量是 3,这三份是同时进行读写的
isCyan
2018-08-06 15:08:04 +08:00
@jadec0der 系统盘也分类型的,现在云上大部分除了本地 SSD 都是云盘啊
liprais
2018-08-06 15:08:21 +08:00
说明以后不做备份的运维直接开除就行了
opengps
2018-08-06 15:09:15 +08:00
借楼解读下:(我也是被人问烦了,技术服务中,总有人问我阿里云有没有 vps,答案是没有!)
VPS:单个物理服务器里的虚拟机(虚拟机硬盘往往用的是母鸡的硬件)
云服务器:物理机集群里的虚拟机(虚拟机硬盘用的往往是共享存储的硬盘)
假设物理机遇到硬盘故障,VPS 跟着母鸡一起死。云服务器可以自动漂移到其他母鸡上继续运行。所以云服务器的可用性就是高于 VPS 的
kulove
2018-08-06 15:09:43 +08:00
@jadec0der 如果没区分的话,认为有灾备的话没问题,毕竟说明页也没说不包括系统盘不是。

@opengps 同机房的三份数据硬盘都坏了..也说不过去吧...
MrCurly
2018-08-06 15:13:53 +08:00
同意二楼,安全建立在冗余上,而云这个概念显然不包括冗余,冗余应该是为了云安全而使用的手段。
YvesX
2018-08-06 15:20:39 +08:00
我就是冲着这些基础建设的服务购买各种云计算产品的。
连容灾都要我自己做,怎么不让我自己部署机房备用网络呢?
opengps
2018-08-06 15:21:15 +08:00
@kulove 我也觉得不应该。按照目前腾讯给出的解释,是硬盘的写入读出不同,这个描述其实有点模糊,三副本毕竟都还是虚拟磁盘文件。
虽然三个副本,正常情况下写入内容相同,但是底层存储由于是不同的物理底层,按理物理磁道说不会相同,可以排除掉是同一批硬盘同时触发这么一个极端情况。
既然事实是同时坏三个副本的数据,那么问题应该归结于镜像存储的软件(软 raid 之类的底层软件),而不是归结给物理硬盘
有存储届的朋友提过,这种情况不会是单个案例,应该还有其他同类情况出现没有被发现,可能是由于这样的原因,腾讯选择下架整个同批次硬盘
lshero
2018-08-06 15:31:34 +08:00
只能说明一些公司的产品经常进行虚假宣传

https://azure.microsoft.com/zh-cn/features/resiliency/
这样详细教育客户怎么构建高可用的业务才敢宣称 99.99%
不知道某些云 99.9999999% 的数据可靠性是怎么算出来的
ladypxy
2018-08-06 15:32:55 +08:00
@YvesX 云只是给你一台虚拟机。。。和容灾没有关系啊。。像我们现在公司上云,所有的服务器全是 aws 一份,azure 一份,互相备份。。
msg7086
2018-08-06 15:58:20 +08:00
云计算原本的定义是利用资源池有效地分配资源,方便地伸缩架构,可以用微小的工作( API 脚本等)完成资源的申请和释放。
云这个概念本身就没有涉及到数据安全性,而且恰恰相反,云是利用伸缩架构来降低对可用性的要求的。
比如 AWS 上,多个 EC2 节点,多个 LB 节点,分布在多个机房的多个可用区里,其中任何一个节点离线、重启,都不会影响业务正常运行,因为会自动 Failover 到其他节点去。所以对云计算来说,单个虚拟服务器挂掉是很寻常的事情。
我司之前有一个 VPS 放在 AWS EC2 上,结果某一天登录上去发现机器被重启过了。也没有警报也没有通知什么的,他就给你重启了。道理很简单,厂家默认你有几十几百台机器一起跑,重启一台根本不会影响系统正常运行。至于你只有一台,那是你选错了产品罢了。

之前看过一篇说 AWS 的文章,开头上来就是一句:如果你每个服务只开一台机器跑,那就别用 AWS (云计算)!

最后再说一句,云计算是个市场营销术语,强行区分 VPS 和云服务器是没有意义的。VPS 是虚拟专用服务器的缩写。每一台云计算服务器本质上都是「虚拟的」「专用的」「服务器」,也就是 VPS。
ryd994
2018-08-06 16:18:25 +08:00
@lshero 咳咳,其实 azure 的可用性比 AWS 略差
这是内部自己承认的,sla 有满足,但是最后统计下来就是差一点
当然,现在也在不停改进
ryd994
2018-08-06 16:29:06 +08:00
@opengps “云服务器可以自动漂移到其他母鸡上继续运行”
你说的是 live migration 么?
技术上可行,实际上直接给你在另一台 host 上重启比较快
你说的 host 硬盘故障问题不存在。因为计算节点和储存节点是分离的。计算节点不储存用户数据,通过网络挂载。本地 SSD 是有,但是本地 SSD 不保数据
计算节点能故障啥?要么网络要么 CPU,这都不是可以热迁移的情况。唯一有用的就是如果要维护节点,可以把虚拟机迁移走再维护。但是其实现在都有在线升级的能力,必须关机维护的情况非常少(比如去年的 spectre 就是一例)。完全可以等用户自己业务需要关机的时候,逐步退役,最后再把剩下的全部重启一遍。反正 sla 只保 uptime,不保证不重启
opengps
2018-08-06 16:48:03 +08:00
@ryd994 live migration 没听过。
用过 VMware Vsphere 虚拟化平台的知道这个热迁移的意思。可能的故障太多,在小概率也是概率。比如你说计算节点故障不会有,但我轻松可以举反例说主机掉电。计算节点用的任何组件,电容可能击穿,电阻可能变化等等很多不太可能出现但是却一定有的反例。

A 一般故障自动热迁移,(管理员经常手动热迁移下架某台物理服务器)
B 部分无法实现热迁移的故障,会自动迁移后自动重启(为了保证业务不断,这里需要软件设计成跟随系统重启)
C 极少数故障,迁移 cpu 内存资源之后不能重启(灾难级故障,普通人员遇到了无解,手动使用万能重启法解决)

用我的分类 ABC,可以看出,可用性(用时长计算):
A 足够解决时候是 100%(业务无中断)。
B 方案解决时候是重启和恢复业务压力所需要的时间(业务中断几分钟)。
C 类别则是人工排除掉故障所用的时间(往往是几小时到几天)
night98
2018-08-06 17:46:44 +08:00
自动快照,应该是可以挽救大部分数据的。

但是按照腾讯云给的说明,消费才 3K 多,应该是只有单服务器的价格消费,这样丢了所有数据,也是运气有点好。。
cloudbeyond
2018-08-06 18:05:49 +08:00
@Felldeadbird #12 你理解的有问题,详见 34 楼答复
huanxianghao
2018-08-06 18:40:27 +08:00
@YvesX #30 你这思路也是奇特。那是不是你买车,卖车的应该送你终生的保险?然后顺便给你配个司机?

其实是可以包全套的,只要你给钱,钱给够了,什么都可以让别人给你做。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/477241

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX