平时需要抓取大量数据,想入台刀片机放在家里,求 V 友推荐

2017-01-29 13:49:21 +08:00
 plantparknet
云主机已经有两台,国内一台,跑着 wordpress ,香港一台目前闲置,但国内 ssh 连延时比较明显。两台主机都是入门级配置,“ CPU:2 核,内存:2.0 GB ,磁盘类型:普通磁盘,磁盘:20 GB ,带宽:7 Mbps ,操作系统:CentOS 6.4 64 位"

国内云主机连接方便但跑着 Wordpress ,虽然流量不大,但担心跑的程序或修改的配置对其造成影响,不想花太多精力维护。

主要是平时数据抓取的需求比较大,高峰期一天几百 G 的流量,目前在 Mac 上跑虚拟机,但程序一运行,风扇就开始疯狂的转,最近还出现过几次虚拟机崩溃的情况,虽然分配了 6G 内存,并没有多少改善。多少有些心疼现在的 Mac 。

有朋友推荐 Gen3 ,但发现国内新机配置也较一般,价格似乎有些偏高。淘宝发现有许多二手刀片机,是一个不错的选择, cpu 高达 32 核也才两千左右的价格。

对服务器的需求顺序如下:
CPU : 16 核以上
内存: 6G 以上
硬盘: 500G 以上,最高可到 1T-2T ,现有几块机械的 USB 外接硬盘,不知是否可以使用。

家里还存有几块树莓派,从一代到二代都有几块,还有几块 Intel Galileo ,但这性能似乎很难满足我的需求吧,懒得折腾了,当然有时间可以搭个小集群玩玩。

目前淘宝找到如下的服务器

1.游戏工作室首选 插大显卡 24 核 服务器 静音 HP Proliant DL380 G7
https://item.taobao.com/item.htm?spm=a1z0k.7385961.1997985097.d4918997.9FV5W0&id=38413656832&_u=t2dmg8j26111

2.新到货 新款 2011 针 32 核 E5-2670 C2 CPU 32G PK DELL R620 服务器
https://item.taobao.com/item.htm?spm=a1z2k.6997417.0.0.t6s6WG&scm=12306.1.0.0&id=543998142884

3.原装 IBM X3650 M3 X5650 X5660*2 24 核 云计算 虚拟化平台 服务器
https://item.taobao.com/item.htm?spm=a1z2k.6997417.0.0.t6s6WG&scm=12306.1.0.0&id=523720271697

此外,此类刀片机放在家中,可有好的防尘静音措施么?

先行谢谢各位 V 友了~~

祝各位鸡年都有更多的好机机~~
15001 次点击
所在节点    Linux
116 条回复
Terenc3
2017-01-30 12:17:20 +08:00
@plantparknet 我倒不担心灰尘的问题,用了将近一年半,灰尘是有,但很难被吸到里面。

我最近拆开服务器维护的时候发现散热风扇并没有很明显的灰尘,因为 DL380 G6 的面板结构,绝大部分的灰尘都被硬盘和前面板给挡下了。

在风扇后面的 CPU 、内存部分基本看不到灰尘,而再后面的拓展区几乎和买回来一样,灰尘少之又少。

我比较担心家里来了熊孩子或一些好奇心大的人把我硬盘拔出来或按了电源键,我下一台服务器会选择戴尔的服务器,因为它带有前面的挡板,把硬盘和按键都锁在里面了。
laoyuan
2017-01-30 12:24:49 +08:00
几百个 G 的 json 爬下来不费多少 CPU ,主要费在解析上,不知道 LZ 用的什么语言,最近不是出了个狠快狠快的 json 库么
Shazoo
2017-01-30 12:50:25 +08:00
这个我有心得~~:)

Dell R410 : E5645 *2 8G*4 1T*2(raid1) , 2600 左右。开机的时候很吵,不过进入 os 后,大概相当于国产电风扇的 2~3 档音量。放到阁楼,完全没有影响。

celery 全负载运行 imagemagick 图片处理 task 和 phantomjs 的话,大概和开机的时候一样,爆吵。不过,这个和电钻是有很大区别的,这个没有震动,所以,隔音 OK 即可。

(不过,爬虫理论上如果没有附带索引任务,没啥开销的……)

介意声音,建议使用塔式水冷。


防尘是浮云,这种价位的主机,谈不上如何保养了。家庭那点灰尘,还真是没啥关系。半年清理清理就好了。
plantparknet
2017-01-30 12:50:53 +08:00
@03511110 soga ,原来是第一个链接对比的产品

@gamexg 家里空净基本全天 24 小时开机,几个月一换成本还算比较低了。

@Terenc3 目前条件只能放在卧室了,想着玩顺了,再购置一台放在老家,然后配置好 DDNS 。 UPS 暂时没想到用处,北京住处除了偶尔忘记电费充值断电外,相对还是稳定的。如果只有一台机子,机柜必要性还大么?还有 RAID5 和 10 的区别大么?相比 10 似乎要稳定些。
plantparknet
2017-01-30 13:01:21 +08:00
@laoyuan python ,一直使用自带的 json 库。
@Shazoo 几乎不用 phantomjs ,能用自带库搞定的尽量用,也就是抓包分析稍微花些时间。感觉比用 phantomjs 速度会快些,当然没做细致分析,只是想当然认为。隔音想用附言中的泡沫或隔音板处理,但和散热似乎冲突,通风口之类的位置可有好的处理方式么。 考虑过塔式,但没找到二手机,第一台主要考虑到性价比,先尝试一番,入个二手。当然如果有合适的也非常感谢推荐。等玩顺了,把散热、防尘、隔音之类的好好考虑下。有样本了也好下手分析。

在北京,空净 24 小时开机,但一周左右桌面还是多少有一层灰,多少有些担心。那如果不大影响寿命,定期清理也可。
billwang
2017-01-30 13:05:55 +08:00
这种的服务器是机架服务器吧。不建议楼主放家里,我们办公室放了一台 h3c 的交换机,那声音酸爽的很。
Terenc3
2017-01-30 13:18:14 +08:00
@plantparknet 要是有两台以上的服务器,就买个机柜吧,我也打算买一个,总觉得竖着放在鞋柜上好别扭。

RAID 5 的硬盘使用率要高,而 RAID 10 会少一半容量用于镜像。但是 RAID 10 的读写速度稍高于 RAID 5 。

整列配置看个人和数据敏感度,但我觉得任何数据对于运维来说都是无比珍贵的,所以我选择 RAID 10 。

但是我的服务器有个问题,我的硬盘笼的 1 号盘接口有点松,有时候碰到会使硬盘掉线。掉线之后我很怕另一块镜像也掉线,那我的数据就完了。

为了应对硬盘掉线的问题,我最近要在下面两个解决方案中选出一个可靠的方案:
1. 计划多买一个硬盘笼和整列卡,配置为 RAID 5
2. 计划多买一台服务器用于存储

另外给你推荐一个 YouTube 频道,我大学是先进制造系的,就是看了这个频道才决定走服务器运维这条路:

My PlayHouse : https://www.youtube.com/user/SirNetrom1

我从这个频道建立之初就关注了,他的服务器虽然有点旧,但视频都是精华。
zhaoxiting1997
2017-01-30 13:22:47 +08:00
@plantparknet 楼主我建议你先选好平台,是选双路 1366 还是选双路 2011 ,这两个平台性能,价格,新旧都差蛮多的。选好以后买对应平台的主板或者准系统,准系统淘宝上有刀片的也有二手工作站。如果对静音要求高,就不要上刀片或者机架,这些服务器在设计上就没有考虑家用的噪音。。。
外面包隔音板或者防尘棉其实不是一个好主意,特别是对于冷却要求高的服务器来说,很多刀片和机架服务器 cpu 都是被动散热,靠一排暴力扇提供一个方向的冷缺气流,外面包一层会影响风量然后影响散热的。。。
plantparknet
2017-01-30 14:07:11 +08:00
@zhaoxiting1997 服务器小白,暂时没有太明白两套平台之间的区别。从目前现有情况来看,使用场景和需求与 @Terenc3 最为相似,因此目前较为可行的方案是参照 @Terenc3 的配置。

@Terenc3 目前来看,对数据的敏感不太高,一半容量用于镜像确实蛮高。目前 RAID5 似乎已经满足我的需求。甚至想把现有的各种 USB 硬盘挂载服务器上做数据存储或备份使用,不知是否可行。

已关注这个频道,没想到做视频处理居然需要这么多服务器!

另博客中有关于 kibana 的文章,甚是惊喜,居然有如此之棒的数据可视化工具,多多向您学习~~
zhaoxiting1997
2017-01-30 14:35:54 +08:00
@plantparknet LGA1366 是 xeon 5500 和 5600 那一代的平台,相对较老, 10 年左右的, cpu 和主板便宜,但是未来没有升级空间,功耗较大,单个 cpu 最高 6 核 12 线程。
LGA2011 是 E5 v1 和 v2 的平台,现在主板较贵,相对新一点, 13 年左右的, E5 v1 cpu 现在比较便宜, E5 v2 二手的还没有淘汰下来,未来等 E5 v2 便宜了还有一定升级空间,单个 cpu 最高 10 核 20 线程。

如果你选择双路 1366 的平台, xeon 5500 那一代的 cpu 不值钱, 50 元以下,但是是 45nm 的完全不建议选择,只建议考虑 5600 那一代。
如果你选择双路 2011 的平台,现在 E5 2660 以上的 cpu 价格被炒的很高了,不建议选择。 E5 v2 现在只有工程测试版的 cpu 便宜,也不建议选择。

然后选择服务器主板,自己搭台式机,使用台式机 cpu 风扇,主动散热噪音比较小,就是要选对应的机箱。实际上你帖子中选的机架式服务器全部是 cpu 被动散热的,静音就不要指望了。

另外不建议 USB 硬盘挂载服务器上做数据存储或备份使用,要也是把外面的硬盘壳拆了,把里面的 sata 硬盘直接挂上去。组建 raid ,需要多块大小相等的硬盘(最好读写速度也差不多),不建议用大小混杂的硬盘组建。
Terenc3
2017-01-30 14:52:29 +08:00
@plantparknet 哈哈,互相学习,我也是刚入门,哈哈。

其实购买服务器,先定一个预算,根据预算去买机子就好了。

淘宝上买的时候要注意配置,商家写的价格并不是最终的价格,更换 CPU 、增加内存和硬盘都是要增加费用的哦。

备份的话,我推荐你安装 freenas ,把 USB 硬盘映射到 freenas 中,通过脚本或定时任务建立快照或同步即可。我网站中没有相关的信息,你要自己找找资料了。另外使用 freenas 还能创建各种各样的共享盘,还可以建立 time machine (我家里用 Mac 系列产品)。

你可以在服务器上装个 vSphere 、 KVM 或其他虚拟化程序(我用 KVM ),这样可以让服务器展现他的实用性。

下面是我对于存储的实践:

因为我没有独立服务器用于存储,只能另找办法。

我通过 freenas 建立共享服务, KVM 虚拟机再挂载这个共享文件夹,然后将重要的数据都写到这个文件夹中。这样一来,就算虚拟机挂了,数据还在,只需要重建虚拟机和相关服务即可恢复。

因为 freenas 的磁盘具有可移植性,拓展和紧缩磁盘也非常方便( web-base GUI )。

也正因为如此,当凌晨各种定时任务启动的时候, freenas 的 CPU 使用率和 IO 会非常高。
plantparknet
2017-01-30 16:02:41 +08:00
@zhaoxiting1997 学习了,非常详细。目前计划是采用链接一中的配置, CPU 选 X5675 ,算是清单中的顶配,价格貌似一块 450 ,不知是否合适。关于你邮件中的服务器,一大担心是没有外壳,主板暴露在外,如果做防护恐怕比较困难,还需另购机箱,但目前第一台服务器的主要目的是在有比较高的性价比同时尽快解决已有需求,待后续升级或购买时再行考虑自主攒机的可能性。非常感谢你的详细解答。

@Terenc3 并没有一个很明晰的预算,按链接一中和博客中服务器的描述, 2000 左右实现即可,上限到 5000 。家里有台小米路由器,做过一段时间的 time machine , 500G 的 Mac ,平时空间占用也就 200G 左右,而 Time machine 很快便把 1T 的小米路由空间占满。已经停用好长时间了。几个 USB 硬盘也是若干年前购买,当时是有收集各种资料的癖好,到今天已经吃灰好几年。想着再重新利用下,发挥点预热,即使不常挂机,偶尔接在服务器,手动备份下也可以接受。

KVM 等入了服务器后好好研究一番。
Shazoo
2017-01-30 16:56:33 +08:00
@plantparknet 你如果放卧室,我觉得还是算了。噪音无可避免的,影响休息。隔音 OK ,代表散热完戏;散热好,隔音就不太可行。

ps : phantomjs+imagemagick 不是爬虫应用哦。
Arcus
2017-01-30 17:18:55 +08:00
羡慕这么快的网速
plantparknet
2017-01-30 20:42:39 +08:00
@Shazoo 那就考虑放在厨房的阳台,可以把窗户打开,辅助降温。 phantomjs+imagemagick 不是爬虫应用那是什么呢 /好奇
eDeeraiD0thei6Oh
2017-01-30 21:49:44 +08:00
买得起刀片服务器,楼主的收入颇丰啊!
https://item.jd.com/11257370206.html
hadoop
2017-01-30 22:17:30 +08:00
@plantparknet imagemagic 在爬虫上有啥用?
20015jjw
2017-01-31 01:32:42 +08:00
x99+e5 ?
msg7086
2017-01-31 01:50:19 +08:00
看了标题和楼上一票人的回答我就慌了。

售价十几万几十万的刀片柜都已经到了随便买了扔家里的程度了吗?

想想隔壁 C7000 的刀片箱子,放上 128 核心 256 线程的 E5 和 4TB 内存以后,开起来功耗就要 6000W 了,你们电表受得了嘛 →_→
justyy
2017-01-31 02:19:52 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/337321

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX