使用 InfluxDB进行监控和报警
MinIO 使用 Prometheus 数据模型 发布集群和节点指标。 InfluxDB 支持抓取 MinIO 指标数据以进行监控和警报。
本页面的过程记录了以下内容:
配置InfluxDB服务以从MinIO部署中抓取和显示指标。
配置MinIO指标的警报。
配置InfluxDB以使用MinIO指标进行收集和警报。
重要
此过程特别使用InfluxDB UI创建一个抓取端点。
InfluxDB UI并不能提供与使用 Telegraf 和相应的 Prometheus插件 相同级别的配置。 具体来说:
您不能通过InfluxDB UI启用对MinIO指标端点的身份验证访问。
您不能为收集的指标(例如
url_tag
)设置一个标签,以唯一地识别给定MinIO部署的指标。
在此过程中配置Telegraf不在范围内。 您可以将此过程用作配置Telegraf进行抓取MinIO指标的一般指南。.
配置MinIO指标的公共访问
将
MINIO_PROMETHEUS_AUTH_TYPE
环境变量设置为public
,以适用于MinIO部署中的所有节点。 然后,您可以重新启动部署以允许公共访问MinIO指标。您可以通过尝试使用
curl
访问指标端点来验证更改:curl https://HOSTNAME/minio/v2/metrics/cluster
将
HOSTNAME
替换为您访问MinIO部署的负载均衡器或反向代理的URL。 您可以选择将任何单个节点指定为HOSTNAME:PORT
,除了节点主机名外,还需指定MinIO服务器API端口。响应正文应包括收集的MinIO指标列表。
登录InfluxDB UI并创建一个Bucket
选择您想要存储MinIO指标的 组织。
创建一个 新Bucket,用于存储MinIO部署的指标。
创建一个新的抓取源(Scraping Source)。
创建一个 新的InfluxDB Scraper。
请指定MinIO部署的完整URL,包括指标终端节点(metrics endpoint):
https://HOSTNAME/minio/v2/metrics/cluster
将
HOSTNAME
替换为您访问MinIO部署的负载均衡器或反向代理的URL。 您可以选择将任何单个节点指定为HOSTNAME:PORT
,除了节点主机名外,还需指定MinIO服务器API端口。验证数据
使用 DataExplorer 来可视化收集的MinIO数据。
例如,您可以在
minio_cluster_capacity_usable_total_bytes
和minio_cluster_capacity_usable_free_bytes
上设置过滤器,以比较 MinIO 部署中的总可用空间和总免费空间。检查配置
在 MinIO 指标上创建一个 新检查。
以下示例检查规则为 MinIO 部署提供了警报的基线。 您可以修改或以其他方式使用这些示例,以指导构建自己的检查。
创建一个名为
MINIO_NODE_DOWN
的 Threshold Check。设置
minio_cluster_nodes_offline_total
键的过滤器。设置 Thresholds,当值大于 1 时设置为 WARN。
创建一个名为
MINIO_QUORUM_WARNING
的 Threshold Check。为
minio_cluster_disk_offline_total
键设置过滤器。当值比您配置的 纠删码奇偶校验 设置小于1时,将 Thresholds 设置为 CRITICAL。
例如,使用 EC:4 的部署应将此值设置为
3
。