使用 InfluxDB进行监控和报警
MinIO 使用 Prometheus 数据模型 发布集群和节点指标。 InfluxDB 支持抓取 MinIO 指标数据以进行监控和警报。
本页面的过程记录了以下内容:
- 配置InfluxDB服务以从MinIO部署中抓取和显示指标。 
- 配置MinIO指标的警报。 
先决条件
此过程需要以下内容:
- 已配置了一个现有的InfluxDB部署,其中包含一个或多个 通知端点。 
- 已存在具有网络访问InfluxDB部署的MinIO部署。 
- 本地主机上已安装了 - mc,并配置了对MinIO部署的 访问 。
这些指令使用 version 2 指标。 有关度量 API 版本的更多信息,请参阅 度量和警报。
配置InfluxDB以使用MinIO指标进行收集和警报。
重要
此过程特别使用InfluxDB UI创建一个抓取端点。
InfluxDB UI并不能提供与使用 Telegraf 和相应的 Prometheus插件 相同级别的配置。 具体来说:
- 您不能通过InfluxDB UI启用对MinIO指标端点的身份验证访问。 
- 您不能为收集的指标(例如 - url_tag)设置一个标签,以唯一地识别给定MinIO部署的指标。
在此过程中配置Telegraf不在范围内。 您可以将此过程用作配置Telegraf进行抓取MinIO指标的一般指南。.
- 配置MinIO指标的公共访问 - 将 - MINIO_PROMETHEUS_AUTH_TYPE环境变量设置为- public,以适用于MinIO部署中的所有节点。 然后,您可以重新启动部署以允许公共访问MinIO指标。- 您可以通过尝试使用 - curl访问指标端点来验证更改:- curl https://HOSTNAME/minio/v2/metrics/cluster- 将 - HOSTNAME替换为您访问MinIO部署的负载均衡器或反向代理的URL。 您可以选择将任何单个节点指定为- HOSTNAME:PORT,除了节点主机名外,还需指定MinIO服务器API端口。- 响应正文应包括收集的MinIO指标列表。 
- 登录InfluxDB UI并创建一个Bucket - 选择您想要存储MinIO指标的 组织。 - 创建一个 新Bucket,用于存储MinIO部署的指标。 
- 创建一个新的抓取源(Scraping Source)。 - 创建一个 新的InfluxDB Scraper。 - 请指定MinIO部署的完整URL,包括指标终端节点(metrics endpoint): - https://HOSTNAME/minio/v2/metrics/cluster - 将 - HOSTNAME替换为您访问MinIO部署的负载均衡器或反向代理的URL。 您可以选择将任何单个节点指定为- HOSTNAME:PORT,除了节点主机名外,还需指定MinIO服务器API端口。
- 验证数据 - 使用 DataExplorer 来可视化收集的MinIO数据。 - 例如,您可以在 - minio_cluster_capacity_usable_total_bytes和- minio_cluster_capacity_usable_free_bytes上设置过滤器,以比较 MinIO 部署中的总可用空间和总免费空间。
- 检查配置 - 在 MinIO 指标上创建一个 新检查。 - 以下示例检查规则为 MinIO 部署提供了警报的基线。 您可以修改或以其他方式使用这些示例,以指导构建自己的检查。 - 创建一个名为 - MINIO_NODE_DOWN的 Threshold Check。- 设置 - minio_cluster_nodes_offline_total键的过滤器。- 设置 Thresholds,当值大于 1 时设置为 WARN。 
- 创建一个名为 - MINIO_QUORUM_WARNING的 Threshold Check。- 为 - minio_cluster_disk_offline_total键设置过滤器。- 当值比您配置的 纠删码奇偶校验 设置小于1时,将 Thresholds 设置为 CRITICAL。 - 例如,使用 EC:4 的部署应将此值设置为 - 3。
 
