腾讯云硬盘故障,导致“前沿数控技术”线上「生产数据完全丢失」

2018-08-06 09:44:00 +08:00
 lopetver

https://mp.weixin.qq.com/s/wcjvYpmg45RzlCdV47Cifw

发帖目的不是为了声讨某云的服务态度 or 产品品质。

而是在当下全民上云的时代,如何能更好的保护自己的数据。

35698 次点击
所在节点    云计算
459 条回复
ceclinux
2018-08-06 23:38:55 +08:00
哇,声称 99.9999...(我没数过几个 9 )数据可靠性的腾讯云出故障了,我也声称腾讯云其实根本没有采用“三副本存储策略“,我猜测的可靠性也是 99.9999...9 的数量和腾讯云的可靠性的 9 的数量一样多
sigup
2018-08-06 23:57:29 +08:00
腾讯云的员工疯狂洗地, 不管别人数据价值多少, 你既然承诺 3 个备份, 没做到就是你的问题
3 个备份所在的硬盘同时固件出问题的可能性基本不存在
sylxjtu
2018-08-07 00:09:59 +08:00
鹅厂公关真强,神一般的倒打一耙算是学到了,郭利案还没过去多久,腾讯想当第二个雅士利?
20015jjw
2018-08-07 00:34:11 +08:00
只能表示腾讯 sb.
jhdxr
2018-08-07 00:46:56 +08:00
@CodingNET 好啊好啊,有粉色的猴子来一只么?


@est 这个解释在腾讯公开它的回应前我觉得是有可能的。但腾讯自己给的回应是『因受所在物理硬盘固件版本 bug 导致的静默错误(写入数据和读取出来的不一致)影响,文件系统元数据损坏』。换句话说这个故障应该在相关的备份功能(如果是在软件层面实现的话)之下的。
再看腾讯云的文档( https://cloud.tencent.com/document/product/362/3039 )说明:『在每个存储写入请求返回给用户之前,CBS 就已确保数据已被成功写入三份,且跨机架存储』。按照我的理解, 这应该是将我所提交的需要写入的数据,复写了三份。那也排除掉了先写入一份有问题的,然后再将这个有问题的复制两边的可能性。


@reus 那是因为你洗地手段太低级,上来就先问别人为何不做备份。请动一下你的脑子,当为所谓的云服务付费的时候,我不仅是在购买存储空间,我也在为相关的服务(所宣传的备份当然也包括在内)付费。再强调一次,我为备份付了钱。要是你聘请了一个员工帮你备份数据,出了事情那个员工告诉你备份也都没了,还反问你怎么不自己再去做一次备份。你觉得合理吗?
再有,关于赔偿,根据我找到的资料( https://cloud.tencent.com/document/product/301/9515 )怎么看也应该是百倍赔偿?虽然只是没人会去用的代金券。


无论如何,这一波过后,还敢用腾讯云的企业也真的是自己心大找死了。
coderdusk
2018-08-07 01:29:41 +08:00
由前面回复的出租车撞树比喻和这帖子下的一些回复想到的:

- 我叫 XX,是某公司高层管理。昨天我乘坐公交公司运营的出租车,司机驾驶失误导致了车祸。现在我在省医院就医,不能确定治疗后的恢复情况。这件事直接给我身体带来严重伤害,而且影响我目前和以后的工作和生活,希望大家支持我的索赔行动。

- 绑安全带了吗?自己傻逼怪不得出租车...
- 公交公司也表示赔偿了,如果对赔偿数额不满意,可以起诉,而不是哭诉。
- 还某公司高管呢,买份保险都不知道?这点风险意识都没有还好意思说什么心血?
- 公司高管就坐这档次出租车?还索赔这么多,您值这价吗,讹诈吧!
- 那也是,本来就不占理,起诉岂不是自讨没趣,哭诉还能搏同情。
- 路上每天那么多车来车往,事故发生的概率才多少?这事在统计上是百分比,可是摊到你头上就是 1 了。所以还是得做好出行 /人生规划啊。

我再来替水军出个思路:
·路上那么多车,怎么就你的车出车祸了,是不是你犯贱和司机聊天才让他走神的,还是你坏事做多了老天爷要惩罚你
iPhone8
2018-08-07 01:41:57 +08:00
@livid 1 楼 8 楼骂人
ryd994
2018-08-07 03:04:12 +08:00
@coderdusk 你这个比喻不合适
承运人有保障乘客安全的义务,这是运管所规定的
但是云服务没有保证你数据安全的义务,就像你买辆车瞎 JB 开,怪车怎么不保障安全。你怎么不要求硬盘厂赔钱呢?有 mtbf 的保证的,实际上达不到又怎样?看看 backblaze 的统计
jmk92
2018-08-07 03:09:58 +08:00
让我想起当初 IT 之家宕机事件,阿里表示是就买了一台机器。。
jmk92
2018-08-07 03:13:51 +08:00
让我想起当初 IT 之家宕机事件,阿里表示是就买了一台机器。。
而这次这篇文章,通篇都在讲腾讯怎么怎么处理,没有提自己的那边的本身有没有备份,这么大级别,不可能连简单的备份都没有吧?如果有,那到底是云盘的故障,还是牵扯到了多少设备的故障?这点一直是个疑问。
ryd994
2018-08-07 03:14:51 +08:00
只能说 pm 傻逼,瞎 JB 吹(我数了,9 个 9 )
正规做法应该是虚拟磁盘只保证 uptime 和性能
要数据安全请扔到离线储存服务
你看看 aws ebs 有没有 data resilience 的 sla ?
ryd994
2018-08-07 03:15:39 +08:00
@jmk92 备份是要加钱的,你买 snapshot,买 s3,买 glacier,就没这破事了
ryd994
2018-08-07 03:21:14 +08:00
mmm,刚才看漏了
Amazon EBS volumes are designed for an annual failure rate (AFR) of between 0.1% - 0.2%, where failure refers to a complete or partial loss of the volume, depending on the size and performance of the volume. This makes EBS volumes 20 times more reliable than typical commodity disk drives, which fail with an AFR of around 4%. For example, if you have 1,000 EBS volumes running for 1 year, you should expect 1 to 2 will have a failure. EBS also supports a snapshot feature, which is a good way to take point-in-time backups of your data.
jmk92
2018-08-07 03:21:29 +08:00
@ryd994 腾讯云的快照不贵吧?
ryd994
2018-08-07 03:24:27 +08:00
@jmk92 那也不是免费送啊
既然有这个服务,那就是要加钱才有的
coderdusk
2018-08-07 04:01:08 +08:00
@ryd994

那我也觉得你这个比喻不恰当。

买云服务器买的是使用权,是一种租赁,类似于租房。
如果是租房者做饭忘了关火导致屋里东西烧了,或者把钥匙藏在垫子底下被人发现直接进屋偷东西,这当然是租客的过错,需要租客自己承担。可是房屋本身质量问题呢?比如水管爆裂家里东西全淹了,房顶掉下来砸坏人或东西,这就是房主的问题了。如果是您遇到了这种问题,您是找房东解决,还是找开发商呢?

还有你“就像你买辆车瞎 JB 开”的说法也不合适。
硬盘并不是用户损坏的。在丢数据这件事上用户并没有过错。
不管自己买车,还是租来的车,不遵守交通规则、乱冲乱撞导致的损失当然得驾驶员自己承担,而且给别人造成的伤害也该赔得赔。
可这事是平台的错,类比的应该是汽车故障,比如突然刹不住车。如果是设计问题,肯定是厂家的主要责任;如果是租来的车保养问题,还是得找租车公司。

诚然没有做好备份,是网站规划的问题。
就像在车站这样小偷多的地方,我会提醒自己和身边熟人看管好财物,可万一真的发生了被偷的情况,难道要指责被偷的人招摇过市、自己的东西不好好看着吗?
指责一个人因为没有安全意识而遭受损失,这不成了受害者有罪论了吗?



腾讯云当初把自己的责任和用户的责任摘的一干二净,现在平台出了问题,还要继续推卸责任吗?

https://mc.qcloudimg.com/static/pdf/132296755c1dd18a5eb83f827577abc7/docfile.pdf
qiukong
2018-08-07 05:16:01 +08:00
@cydian 那可不一定,越大的公司越不注重网站这块,我以前上市公司那破账务系统还必须用 IE6 以下版本登录呢,那数据丢了后患无穷。
ryd994
2018-08-07 05:17:59 +08:00
@coderdusk 我的意思是:
问题在于腾讯云瞎 JB 宣传,你宣传了就要做到,做不到就要赔钱
其他云并没有这样宣传,aws 直接说 failure rate 在 0.1-0.2%,但注意这只是文档,sla 里并没有。
没有 sla,没有广告宣传,就不必负责
你不能说这个事情用户没有责任吧?腾讯云往地上一坐:对,你就是那 10^-10 的倒霉的。
到时候你的数据呢?
又能说什么呢?证明它实际上没有达到 9 个 9 么?
证明了又能怎样呢?给你十倍赔偿呗

是不能搞受害者归因,但是还有一句话叫君子不立于危墙之下。加害者是承担责任了,然而受伤的还是受害者。自我保护不是为了打赢官司,而是为了保护自己。
ryd994
2018-08-07 05:19:24 +08:00
@coderdusk 用户对故障没有责任
但是你对自己的系统,自己的数据,还是要上点心的
qiukong
2018-08-07 05:50:23 +08:00
@ryd994 高可靠性保障

CBS 数据自动地在可用区内跨机架三副本存储,保障单点的磁盘故障不会影响您数据的可靠性;腾讯云为应对跨资源池容灾的问题,将云硬盘系统与快照系统相互独立,部署于不同机房,且外网不可访问,隔绝黑客攻击。在同一个机房内,云硬盘及快照的数据将跨机架存储,避免了同一个机架由于掉电、风冷故障等中断业务。即使在极端情况下 CBS 系统的多份数据冗余全部丢失时,也可以保障从快照系统恢复数据。

人家买之前就保证有备份服务,这公众号又不是互联网相关的,凭什么要懂那么多备份啥的?买来的服务理应已经包括备份,损失当然应该由腾讯承担。至于估价多少这个另说

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/477152

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX