东芝硬盘是垃圾,奉劝各位不要买。求帮助!

2024-01-18 17:38:16 +08:00
 wuyadaxian

我在日本某动画公司工作,因为公司业务需要,需要弄一台大点的 SAMBA 共享服务器。

于是去年年底购入了 16 块,16TB 的 toshiba ,型号 MN08ACA16T/jp 。

日本国内质保 3 年,免费换新。

售后挺好的。但是噩梦来了。


去年 9 月购入,然后装机,上机架,系统设置,一气呵成。

15 盘 RAID10 ,+1 备用盘。合计 109T 可用空间。

然后做了 1 个月测试,没发现问题。

然后将业务数据移动到新服务器上。

正常开始跑业务。

也就是公司内部的作画 psd ,摄影 ae 做影片到处 mov 等数据在传输。


接下来 11 月开始卡了。

各种卡,表现为 smbd 或者 flush 进程 100%。

硬盘 io 全为 0.

甚至 dmesg 都出现内核恐慌了。

分析了下就是写入硬盘,然后没了。

等待 30-300s 随机时间,硬盘写入恢复。

怀疑写入遇到坏块了。

smartctl 测试走起。

好家伙,16 块盘,有 6 块报坏块。


不得不说,日本经销商态度可以。

马上 [私密马赛,私密马赛,私密马赛]

我们给你换。

换货邮费还是经销商全包。

甚至提供先发货,我再退货的服务。


换货之后

陆续小卡,恢复时间很短,基本上 10s 内。

而且 SMART 也不报错,smartctl -t long 测试也能无错通过。

我就放置了。


24 年 1 月 12 日,

又开始了,超级大卡。

这次恢复时间居然超出了 600s ,

所有含写入的进程都在内核恐慌。

dmesg 拉了 300 多行.

关键是这个一卡,公司业务全部要暂停,

硬盘写入读取完全无响应。

同事翘脚抱怨,我就只能打哈哈调试。


之后从 12 日开始到今天 18 日,

每天都有十来次卡顿,

30s-120s 才能恢复。

关键是 SMART 不报错。

日嘛,头都大了。

你要是报错,我就把你提出来找经销商换新啊。

你啥错误都不报,smartctl test 还能正常无错通过。

但是就是卡,简直要了我的狗命。


老板问,为啥服务器又卡了。

我,硬盘可能又坏块,要坏了。

老板,那找厂家换吧。

我,硬盘没报错,暂时还不能保修换新。

老板,你 TM 拿我开心啊,给我去解决这个问题。

我,打工人乖乖退下。


mb 东芝硬盘,

现在虽然偶尔卡顿,但是每天业务还在进行。

我又不能现在卸载硬盘来跑个完整的写入测试。


求问各路大佬有没有什么办法。

任何方法都可以尝试。

真心求问。

8846 次点击
所在节点    硬件
79 条回复
liuzimin
2024-01-19 09:07:40 +08:00
只有我在好奇你是怎么找的赴日工作的吗?
villivateur
2024-01-19 09:11:41 +08:00
我觉得可能是你电源或者机柜温度、震动之类的导致的,不然故障率不可能这么离谱
yukiww233
2024-01-19 09:44:07 +08:00

8 块都是捡的矿盘 MG ,最长的已经用了 2 年+了,暂时都还挺好的
Torpedo
2024-01-19 10:39:21 +08:00
概率上来说,同品牌换货还不行概率比较低。也有可能是别的问题引起的
wk333
2024-01-19 11:19:13 +08:00
@Actrace #53 16*16T 怎么都不会考虑吧
laminux29
2024-01-19 12:15:44 +08:00
哥们没经验啊...其实买之前应该去论坛或 NAS 群问问的。

世界上质量最好的硬盘是日立,没有之一。质量好到把自己的厂子给整垮了,现在买不到了。

最垃圾的是哪个牌子,我不知道,但东芝,是我遇到过,唯一的一款,京东自营全新,用了半年就坏道了的。

企业级的做法是,希捷企业盘与西数企业盘,间隔着用,而且异物理机+异硬件+异 OS 共 3 副本。
sorsens
2024-01-19 13:15:51 +08:00
@wuyadaxian #3 你自己测一下硬盘的读写性能,官方写的 cmr 也可能是 smr 的性能。
测完硬盘性能,就排除一个
janpun
2024-01-19 13:18:18 +08:00
上大学的时候买东芝笔记本,前两个月连续坏了两次,都是因为内置的东芝硬盘
zundamon
2024-01-19 14:10:14 +08:00
看 backblaze 硬盘报告,企业盘的话东芝 MG08 、西数 UltraStar 故障率都不高,希捷有几款高的要避雷。MN 应该是民用降级款,但是这个故障率还是有点高,检查下是否是电源的问题吧
geniussoft
2024-01-19 14:17:00 +08:00
除了硬盘的问题之外,系统的选择也是大问题。

这种应该直接选择群晖。
我知道 smartctl 人工也能看,但是谁能坚持每天检查呢?忙起来可能直到崩了才想起检查。
以及设置每月 Smart 完全检测,以及 Raid Scrub 。

另外,硬盘目前还是 HGST 牛逼。
zundamon
2024-01-19 14:22:09 +08:00
@geniussoft HGST 已经变 WDC 咯,认准 ultrastar 就行了
litguy
2024-01-19 15:07:38 +08:00
@totoro625 是的,ZFS 更合适
mokiki
2024-01-19 16:09:33 +08:00
@lizhengbo #41 web 界面看着有点繁杂,但是还是比手敲那一套命令简单吧。
zzboat0422
2024-01-19 16:52:46 +08:00
最近五年管理过一万块以上大容量 HDD ,只有东芝盘让我们遇到了大坑。现在招投标的要求中已经明确禁止用东芝盘了。
dog82
2024-01-19 17:09:48 +08:00
跟电源有关系,供电不足硬盘很容易坏
lizhengbo
2024-01-19 17:25:46 +08:00
@mokiki
小公司, 个人直接上 WinServer 是最强方案, 没有之一.

更别提还有 Hyper-V 强力支援.

大公司其实折腾这种开源或者社区版方案其实算土方法, 不深入研究出问题很难把控, 深入又投入成本太大, 对个人发展其实没啥帮助, 存粹浪费生命.
lizhengbo
2024-01-19 17:30:45 +08:00
@mokiki

文件共享, 权限管理等基本需求完全没必要整其他, 就 WinServer 就好了.

除了历史查看, 修改这个需求, 我想不到有比 WinServer 更稳定, 更省心的操作.

WinServer 还可以部署在线 Office 预览, 编辑, 兼容性和稳定性不是秒杀 99+的在线办公.
kkk9
2024-01-19 21:01:39 +08:00
@wuyadaxian #31 9211 刷了 IT 固件,IOPS 上限也只有 18 万左右。考虑换个卡,你也许有新的发现
wuyadaxian
2024-01-22 12:29:42 +08:00
基本确认了问题原因,详情看新帖
https://v2ex.com/t/1010610

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/1009748

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX