中文文档

硬件故障和恢复办法

分布式 MinIO 部署依赖于 Erasure Coding(纠删码) 来提供内置的容错能力,以应对多个驱动器或节点的故障。 根据部署拓扑和选择的纠删码冗余度,MinIO 可以在部署中容忍多达一半的驱动器或节点丢失, 同时保持对对象的读取访问(“读取安全”)。

以下表格列出了 MinIO 部署中典型的故障类型,并链接到从每种故障恢复的步骤:

Failure Type

描述

磁盘损坏

MinIO支持使用新的健康驱动器热交换失败的驱动器。

节点损坏

当MinIO检测到一个节点重新加入部署时,它会在节点重新加入集群后的短时间内开始主动执行 healing,修复之前存储在该节点上的数据。

站点损坏

MinIO 站点复制支持在完全站点丢失后,对桶、对象和复制符合条件的配置设置进行完整的重新同步。

由于 MinIO 可以在性能损失不显著的情况下在降级状态下运行,管理员可以根据硬件故障的速度安排硬件更换。 正常的故障率(单个驱动器或节点故障)可能允许有更合理的更换时间,而关键的故障率(多个驱动器或节点)可能需要更快的响应。

对于拥有一个或多个部分故障或处于降级状态(增加的驱动器错误、SMART 警告、MinIO 日志中的超时等)的节点, 如果集群有足够的剩余健康驱动器来维持 读取和写入多数,你可以安全地卸载驱动器。 与持续产生读取和读取的驱动器相比,对部署具有破坏性写入错误。

Exclusive access to drives

MinIO 要求 专有 对提供给对象存储的驱动器或卷的访问。 其他任何进程、软件、脚本或人员都不得直接对提供给MinIO的驱动器或卷执行 任何 操作,也不得对MinIO放置在其上的对象或文件执行操作。

除非由MinIO工程部门指导,否则不要使用脚本或工具直接修改、删除或移动提供给MinIO的驱动器上的任何数据片段、校验片段或元数据文件,包括从一个驱动器或节点移动到另一个驱动器或节点。 这些操作很可能会导致广泛的数据损坏和丢失,超出了MinIO的修复能力。

MinIO 专业支持

你可以联系MinIO中国团队,帮助你解决遇到的困难和技术风险。

社区用户可以在 MinIO 社区 Slack <https://slack.min.io> 上寻求支持。 社区支持是尽最大努力提供帮助的,对于响应速度没有 SLA(服务级别协议)的要求。

Join Slack 商业支持购买咨询