中文文档

使用 InfluxDB进行监控和报警

MinIO 使用 Prometheus 数据模型 发布集群和节点指标。 InfluxDB 支持抓取 MinIO 指标数据以进行监控和警报。

本页面的过程记录了以下内容:

  • 配置InfluxDB服务以从MinIO部署中抓取和显示指标。

  • 配置MinIO指标的警报。

先决条件

此过程需要以下内容:

  • 已配置了一个现有的InfluxDB部署,其中包含一个或多个 通知端点

  • 已存在具有网络访问InfluxDB部署的MinIO部署。

  • 本地主机上已安装了 mc ,并配置了对MinIO部署的 访问

这些指令使用 version 2 指标。 有关度量 API 版本的更多信息,请参阅 度量和警报。

配置InfluxDB以使用MinIO指标进行收集和警报。

重要

此过程特别使用InfluxDB UI创建一个抓取端点。

InfluxDB UI并不能提供与使用 Telegraf 和相应的 Prometheus插件 相同级别的配置。 具体来说:

  • 您不能通过InfluxDB UI启用对MinIO指标端点的身份验证访问。

  • 您不能为收集的指标(例如 url_tag )设置一个标签,以唯一地识别给定MinIO部署的指标。

在此过程中配置Telegraf不在范围内。 您可以将此过程用作配置Telegraf进行抓取MinIO指标的一般指南。.

  1. 配置MinIO指标的公共访问

    MINIO_PROMETHEUS_AUTH_TYPE 环境变量设置为 public ,以适用于MinIO部署中的所有节点。 然后,您可以重新启动部署以允许公共访问MinIO指标。

    您可以通过尝试使用 curl 访问指标端点来验证更改:

    curl https://HOSTNAME/minio/v2/metrics/cluster
    

    HOSTNAME 替换为您访问MinIO部署的负载均衡器或反向代理的URL。 您可以选择将任何单个节点指定为 HOSTNAME:PORT ,除了节点主机名外,还需指定MinIO服务器API端口。

    响应正文应包括收集的MinIO指标列表。

  2. 登录InfluxDB UI并创建一个Bucket

    选择您想要存储MinIO指标的 组织

    创建一个 新Bucket,用于存储MinIO部署的指标。

  3. 创建一个新的抓取源(Scraping Source)。

    创建一个 新的InfluxDB Scraper

    请指定MinIO部署的完整URL,包括指标终端节点(metrics endpoint):

    https://HOSTNAME/minio/v2/metrics/cluster
    

    HOSTNAME 替换为您访问MinIO部署的负载均衡器或反向代理的URL。 您可以选择将任何单个节点指定为 HOSTNAME:PORT ,除了节点主机名外,还需指定MinIO服务器API端口。

  4. 验证数据

    使用 DataExplorer 来可视化收集的MinIO数据。

    例如,您可以在 minio_cluster_capacity_usable_total_bytesminio_cluster_capacity_usable_free_bytes 上设置过滤器,以比较 MinIO 部署中的总可用空间和总免费空间。

  5. 检查配置

    在 MinIO 指标上创建一个 新检查

    以下示例检查规则为 MinIO 部署提供了警报的基线。 您可以修改或以其他方式使用这些示例,以指导构建自己的检查。

    • 创建一个名为 MINIO_NODE_DOWNThreshold Check

      设置 minio_cluster_nodes_offline_total 键的过滤器。

      设置 Thresholds,当值大于 1 时设置为 WARN

    • 创建一个名为 MINIO_QUORUM_WARNINGThreshold Check

      minio_cluster_disk_offline_total 键设置过滤器。

      当值比您配置的 纠删码奇偶校验 设置小于1时,将 Thresholds 设置为 CRITICAL

      例如,使用 EC:4 的部署应将此值设置为 3

    配置您的 通知端点通知规则 ,以便对每种类型的检查触发适当的响应。

Join Slack 商业支持购买咨询