东芝硬盘是垃圾,奉劝各位不要买。求帮助!

2024-01-18 17:38:16 +08:00
 wuyadaxian

我在日本某动画公司工作,因为公司业务需要,需要弄一台大点的 SAMBA 共享服务器。

于是去年年底购入了 16 块,16TB 的 toshiba ,型号 MN08ACA16T/jp 。

日本国内质保 3 年,免费换新。

售后挺好的。但是噩梦来了。


去年 9 月购入,然后装机,上机架,系统设置,一气呵成。

15 盘 RAID10 ,+1 备用盘。合计 109T 可用空间。

然后做了 1 个月测试,没发现问题。

然后将业务数据移动到新服务器上。

正常开始跑业务。

也就是公司内部的作画 psd ,摄影 ae 做影片到处 mov 等数据在传输。


接下来 11 月开始卡了。

各种卡,表现为 smbd 或者 flush 进程 100%。

硬盘 io 全为 0.

甚至 dmesg 都出现内核恐慌了。

分析了下就是写入硬盘,然后没了。

等待 30-300s 随机时间,硬盘写入恢复。

怀疑写入遇到坏块了。

smartctl 测试走起。

好家伙,16 块盘,有 6 块报坏块。


不得不说,日本经销商态度可以。

马上 [私密马赛,私密马赛,私密马赛]

我们给你换。

换货邮费还是经销商全包。

甚至提供先发货,我再退货的服务。


换货之后

陆续小卡,恢复时间很短,基本上 10s 内。

而且 SMART 也不报错,smartctl -t long 测试也能无错通过。

我就放置了。


24 年 1 月 12 日,

又开始了,超级大卡。

这次恢复时间居然超出了 600s ,

所有含写入的进程都在内核恐慌。

dmesg 拉了 300 多行.

关键是这个一卡,公司业务全部要暂停,

硬盘写入读取完全无响应。

同事翘脚抱怨,我就只能打哈哈调试。


之后从 12 日开始到今天 18 日,

每天都有十来次卡顿,

30s-120s 才能恢复。

关键是 SMART 不报错。

日嘛,头都大了。

你要是报错,我就把你提出来找经销商换新啊。

你啥错误都不报,smartctl test 还能正常无错通过。

但是就是卡,简直要了我的狗命。


老板问,为啥服务器又卡了。

我,硬盘可能又坏块,要坏了。

老板,那找厂家换吧。

我,硬盘没报错,暂时还不能保修换新。

老板,你 TM 拿我开心啊,给我去解决这个问题。

我,打工人乖乖退下。


mb 东芝硬盘,

现在虽然偶尔卡顿,但是每天业务还在进行。

我又不能现在卸载硬盘来跑个完整的写入测试。


求问各路大佬有没有什么办法。

任何方法都可以尝试。

真心求问。

8843 次点击
所在节点    硬件
79 条回复
leonme
2024-01-18 20:30:06 +08:00
@northbrunv 其实都半斤八两,这玩意儿又没啥技术含量,拼的就是价格和售后
wuyadaxian
2024-01-18 20:35:46 +08:00
@gamexg 第一批返回去的 6 块厂家都确认了就是硬盘问题。
这边上的 4U 机箱,前板和电源之前就测试过了,没有问题。
估计要换西数了。
wuyadaxian
2024-01-18 20:39:50 +08:00
@MoeWang 这个没测过,想了解下
wuyadaxian
2024-01-18 20:48:07 +08:00
@hGaHLRyC
是的。一开始是这么想的。
考虑过 RAID 卡,前板,电源等问题。
RAID 卡是两块,前板也是多块,供电至少电力没问题。
温度适度震动应该都没问题。毕竟机房不是他一台机器。
另外还考虑过 linux 软件内核等问题。
最后测试下来,至少硬盘概率最大。

当然我不能说绝对,至少上面 v 友提到的电源纹波没做过。
wuyadaxian
2024-01-18 20:49:08 +08:00
@datou 下次认准了。大容量硬盘真是坑多。
wuyadaxian
2024-01-18 20:52:23 +08:00
@dasenlin 估计要启用老服务器,然后进行测试了。但是老服务器是 windows 家庭版。samba 限制 20 人接入。(没听错,windows 家庭版,不是我负责的,前人的智慧
wuyadaxian
2024-01-18 20:55:09 +08:00
@msg7086 学到了。有一说一,现在老服务器还有 3TB * 12 的希捷普通盘在 4U 机箱里面跑,听说已经服役了 5 年了,虽然已经挂了 2 块盘,但是稳定性比这个新的还好。
kkk9
2024-01-18 21:22:38 +08:00
啥牌子啥型号的阵列卡,曾经遇到过一些很魔幻的,除了某一个品牌的盘,其他牌子的都各种出问题😅
lizhengbo
2024-01-18 21:24:20 +08:00
@wuyadaxian

Windows 还是稳定, 操作简单, 重新迁移到 Windows Server 就好了.

而且 WinServer 的域权限可以和其他很多文件服务联动, 客户端加不加域都行.

WinServer 的文件服务还提供很多强大便携的功能, 权限管理又直观.

例如每创建一个用户, 自动在共享目录下生成该用户的共享目录.

开源的坑太多.
lesismal
2024-01-18 21:26:10 +08:00
公司里用,RAID 也不稳,还是多搞一组、一个常用另一个定期备份下好些

看样子我买的几块二手企业级还是很划算的。。
wuyadaxian
2024-01-18 21:26:25 +08:00
@kkk9 lsi 9211-8i 芯片,IT mode ,直通 linux ,mdadm 软 raid
I3tZ9NgHU44xmaA4
2024-01-18 21:28:32 +08:00
我觉得你这个问题吧,反正你都不可能再用东芝的了,也肯定要换硬盘的了,那你就去买几个同级别的其他牌子硬盘试试好了。
如果其他牌子的没问题,就全换那个牌子。
如果有,就是你们使用上的问题了,要么硬件问题,要么是这个层次的硬盘达不到你们工作强度的需求?
但你如果直接全部上更高级别的硬盘,那不一定有答案,可能有,可能没,反正自己决定了。
wuyadaxian
2024-01-18 21:29:21 +08:00
@lizhengbo 日本公司,winserver 可是需要大价钱购买的。可不是随便就敢用的,查到就罚几千万。不然为什么前人要用 windows 家庭版做 samba 共享服务,因为 windows 家庭版随机附送,约等于免费。
6a82aa9bfe
2024-01-18 21:31:22 +08:00
硬盘最好不要同个厂商同个批次的,这样就算坏了也不至于同时坏
wuyadaxian
2024-01-18 21:31:34 +08:00
@testonly 是的,所以我在想启用老服务器,先把资料转移回去,持续业务的情况下重新测试新服务器。等测试结果再决定。
wuyadaxian
2024-01-18 21:32:53 +08:00
@6a82aa9bfe 那批就是同厂,同批次,至少我觉得被坑了。
mokiki
2024-01-18 21:41:19 +08:00
了解一下 TrueNAS 吧,不仅共享权限设置简单,而且还有邮件报警功能。得益于 OpenZFS 提供的 RAIDZ ,使阵列恢复的用时更少。
你还在等什么,赶快打开你的浏览器下载吧: https://www.truenas.com/truenas-scale/
yyzh
2024-01-18 22:12:43 +08:00
?你们没备份的么?像我们公司都是用 Barracuda 做本地备份然后每天下班后上传 Barracuda 云做远程备份的,就算服务器硬盘全挂都能很快恢复.
jdqingm
2024-01-18 22:31:28 +08:00
会不会是网络冲突什么的
xcodeghost
2024-01-18 23:01:07 +08:00
我们服务器几乎都是东芝的企业级硬盘,感觉质量还可以啊,好像从来都没出现过问题

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/1009748

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX