当前位置：首页 > Centos > 正文

Centos集群监控告警实战指南（手把手教你搭建高效运维告警系统）

主机测评网
Centos
2025-12-22
849

在现代 IT 运维中，Centos集群监控是保障业务高可用性和系统稳定性的关键环节。当服务器数量增多、服务架构复杂化后，单靠人工巡检已远远不够。此时，一套可靠的服务器告警系统就显得尤为重要。本文将从零开始，手把手教你如何在 CentOS 环境下搭建基于 Prometheus + Alertmanager 的监控告警平台，即使是运维小白也能轻松上手。

Centos集群监控告警实战指南（手把手教你搭建高效运维告警系统） Centos集群监控服务器告警系统运维监控工具 Prometheus监控第1张

一、为什么需要集群监控告警？

随着业务规模扩大，服务器数量可能从几台增长到几十甚至上百台。如果没有自动化监控，你将面临以下问题：

无法及时发现 CPU、内存、磁盘等资源异常
服务宕机后用户先于你发现问题
故障排查耗时长，影响用户体验

通过部署 Prometheus监控 和告警组件，你可以实现：实时指标采集、可视化展示、阈值触发告警、自动通知（邮件/钉钉/微信等）。

二、环境准备

本教程假设你有以下基础环境：

至少一台 CentOS 7/8 服务器（作为监控服务器）
多台被监控的 CentOS 节点（可为虚拟机或物理机）
网络互通，防火墙开放必要端口（如 9090、9100）

三、安装 Node Exporter（数据采集器）

Node Exporter 是 Prometheus 官方提供的主机指标采集工具，用于收集 CPU、内存、磁盘、网络等系统指标。

在每一台被监控的 CentOS 服务器上执行以下命令：

# 下载并解压 Node Exportercd /optwget https://github.com/prometheus/node_exporter/releases/download/v1.7.0/node_exporter-1.7.0.linux-amd64.tar.gztar -xzf node_exporter-1.7.0.linux-amd64.tar.gzmv node_exporter-1.7.0.linux-amd64 node_exporter# 创建 systemd 服务cat > /etc/systemd/system/node_exporter.service <<EOF[Unit]Description=Node ExporterAfter=network.target[Service]User=rootExecStart=/opt/node_exporter/node_exporterRestart=on-failure[Install]WantedBy=multi-user.targetEOF# 启动服务systemctl daemon-reloadsystemctl start node_exportersystemctl enable node_exporter# 验证是否运行（应返回指标数据）curl http://localhost:9100/metrics

四、安装 Prometheus（监控核心）

在监控服务器上安装 Prometheus：

# 下载 Prometheuscd /optwget https://github.com/prometheus/prometheus/releases/download/v2.45.0/prometheus-2.45.0.linux-amd64.tar.gztar -xzf prometheus-2.45.0.linux-amd64.tar.gzmv prometheus-2.45.0.linux-amd64 prometheus# 配置监控目标（编辑 prometheus.yml）cat > /opt/prometheus/prometheus.yml <<EOFglobal:  scrape_interval: 15sscrape_configs:  - job_name: 'centos-nodes'    static_configs:      - targets: ['192.168.1.10:9100', '192.168.1.11:9100', '192.168.1.12:9100']EOF# 启动 Prometheus/opt/prometheus/prometheus --config.file=/opt/prometheus/prometheus.yml --web.listen-address=:9090 &

打开浏览器访问 http://你的监控服务器IP:9090，即可看到 Prometheus Web UI。

五、配置告警规则与 Alertmanager

Prometheus 本身不发送告警，需配合 Alertmanager。首先创建告警规则文件：

# 创建 rules 目录和告警规则mkdir -p /opt/prometheus/rulescat > /opt/prometheus/rules/alert.rules.yml <<EOFgroups:- name: instance-health  rules:  - alert: InstanceDown    expr: up == 0    for: 1m    labels:      severity: critical    annotations:      summary: "Instance {{ $labels.instance }} down"      description: "{{ $labels.instance }} of job {{ $labels.job }} has been down for more than 1 minute."  - alert: HighCpuUsage    expr: 100 - (avg by(instance) (irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 80    for: 2m    labels:      severity: warning    annotations:      summary: "High CPU usage on {{ $labels.instance }}"      description: "CPU usage is above 80% for more than 2 minutes."EOF

然后修改 prometheus.yml 引入规则并配置 Alertmanager 地址：

rule_files:  - "rules/alert.rules.yml"alerting:  alertmanagers:    - static_configs:        - targets: ['localhost:9093']

接着安装并启动 Alertmanager：

cd /optwget https://github.com/prometheus/alertmanager/releases/download/v0.26.0/alertmanager-0.26.0.linux-amd64.tar.gztar -xzf alertmanager-0.26.0.linux-amd64.tar.gzmv alertmanager-0.26.0.linux-amd64 alertmanager# 启动 Alertmanager（默认端口 9093）/opt/alertmanager/alertmanager --config.file=/opt/alertmanager/alertmanager.yml &