@
swulling 共享存储替换已经是非常美妙的事情了,之前我在公有云工作, 宕机压力也很大, 问题有以下几点
1. 宿主机上的虚机不全是远端存储, 所以即使只有一个本地存储的, 你也要起来处理, 做备机替换(拔掉硬盘, 插到另外一台完全相同配置的主机上,然后在机架位替换掉这台故障机, 然后启动机器, 恢复服务并热迁(部分需要冷迁), 结束之后, 逆向备机替换过程. 避免机架位错乱影响资产管理)
2. 底层 qemu/kvm 版本没有打平, 所以迁移,重建经常失败.
3. 业务限制非常多, 比如:远端存储的虚机购买了本地 SSD 临时盘, 这种是没法迁移的
4. bug 超多, 使用 qcow2, 一个用户的 base 映像被拉到了本地, diff 文件在远端, 很遗憾, 限制用户快照链长度, 把之前的 base 镜像在对象存储里删掉了, 现在只有一个 diff, 没法启动.解法是,禁止这种 base 被删的虚机重建
5.作为一个分布式系统, 业务完全没有处理宕机问题, 所有宕机都是手动处理,包括筛选出哪些可以迁移, 发起迁移, 确认迁移成功业务恢复, 发送故障报告和赔偿报告, 都是依赖手工处理, 我把这部分工作自动化掉然后就离开了.