当前位置：首页 > Debian > 正文

Debian集群监控告警设置（手把手教你搭建高效稳定的服务器监控与告警系统）

主机测评网
Debian
2025-12-18
992

在现代 IT 运维中，Debian集群监控 是保障服务高可用性和快速故障响应的关键环节。本文将面向初学者，详细讲解如何在 Debian 系统上搭建一套完整的系统告警设置方案，使用开源工具 Prometheus + Alertmanager + Node Exporter 实现对多台服务器的实时监控与智能告警。

Debian集群监控告警设置（手把手教你搭建高效稳定的服务器监控与告警系统） Debian集群监控系统告警设置服务器监控工具 Prometheus告警配置第1张

一、准备工作

假设你已有以下环境：

至少一台 Debian 11（Bullseye）或更新版本的服务器作为监控主机
若干台需要被监控的 Debian 节点（可为物理机或虚拟机）
所有机器网络互通，且开放必要端口（如 9090、9100、9093）

二、安装 Node Exporter（数据采集器）

首先，在每台需要被监控的 Debian 服务器上安装 Node Exporter，它负责收集 CPU、内存、磁盘、网络等系统指标。

# 下载并解压 Node Exporter（以 v1.7.0 为例）cd /tmpwget https://github.com/prometheus/node_exporter/releases/download/v1.7.0/node_exporter-1.7.0.linux-amd64.tar.gztar xvfz node_exporter-1.7.0.linux-amd64.tar.gz# 移动到系统目录sudo mv node_exporter-1.7.0.linux-amd64/node_exporter /usr/local/bin/# 创建 systemd 服务sudo tee /etc/systemd/system/node_exporter.service << EOF[Unit]Description=Node ExporterWants=network-online.targetAfter=network-online.target[Service]User=prometheusExecStart=/usr/local/bin/node_exporterRestart=always[Install]WantedBy=default.targetEOF# 创建专用用户sudo useradd --no-create-home --shell /bin/false prometheus# 启动服务sudo systemctl daemon-reexecsudo systemctl enable node_exportersudo systemctl start node_exporter

完成后，访问 http://<节点IP>:9100/metrics 应能看到原始指标数据，说明 Node Exporter 已正常运行。

三、部署 Prometheus（监控核心）

在监控主机上安装 Prometheus，用于拉取各节点的指标数据并存储。

# 下载 Prometheuscd /tmpwget https://github.com/prometheus/prometheus/releases/download/v2.45.0/prometheus-2.45.0.linux-amd64.tar.gztar xvfz prometheus-2.45.0.linux-amd64.tar.gz# 移动文件sudo mv prometheus-2.45.0.linux-amd64 /opt/prometheus# 创建配置文件 /opt/prometheus/prometheus.ymlsudo tee /opt/prometheus/prometheus.yml << EOFglobal:  scrape_interval: 15sscrape_configs:  - job_name: 'node'    static_configs:      - targets: ['192.168.1.10:9100', '192.168.1.11:9100']  # 替换为你的节点 IPEOF# 创建 systemd 服务sudo tee /etc/systemd/system/prometheus.service << EOF[Unit]Description=PrometheusWants=network-online.targetAfter=network-online.target[Service]User=prometheusExecStart=/opt/prometheus/prometheus \  --config.file=/opt/prometheus/prometheus.yml \  --storage.tsdb.path=/opt/prometheus/dataRestart=always[Install]WantedBy=default.targetEOF# 创建用户并授权sudo useradd --no-create-home --shell /bin/false prometheussudo chown -R prometheus:prometheus /opt/prometheus# 启动sudo systemctl daemon-reexecsudo systemctl enable prometheussudo systemctl start prometheus

启动后，访问 http://<监控主机IP>:9090 即可进入 Prometheus Web UI，验证 Targets 是否全部 UP。

四、配置 Alertmanager（告警中心）

Alertmanager 负责处理 Prometheus 发出的告警，并通过邮件、Webhook 等方式通知运维人员。这是实现服务器监控工具闭环的关键一步。

# 下载 Alertmanagercd /tmpwget https://github.com/prometheus/alertmanager/releases/download/v0.26.0/alertmanager-0.26.0.linux-amd64.tar.gztar xvfz alertmanager-0.26.0.linux-amd64.tar.gz# 移动目录sudo mv alertmanager-0.26.0.linux-amd64 /opt/alertmanager# 创建简单配置 /opt/alertmanager/alertmanager.ymlsudo tee /opt/alertmanager/alertmanager.yml << EOFglobal:  resolve_timeout: 5mroute:  group_by: ['alertname']  group_wait: 10s  group_interval: 10s  repeat_interval: 1h  receiver: 'email'receivers:  - name: 'email'    email_configs:      - to: 'admin@example.com'        from: 'alertmanager@example.com'        smarthost: 'smtp.example.com:587'        auth_username: 'alertmanager@example.com'        auth_password: 'your_email_password'        send_resolved: trueEOF# 创建 systemd 服务sudo tee /etc/systemd/system/alertmanager.service << EOF[Unit]Description=AlertmanagerWants=network-online.targetAfter=network-online.target[Service]User=prometheusExecStart=/opt/alertmanager/alertmanager \  --config.file=/opt/alertmanager/alertmanager.yml \  --storage.path=/opt/alertmanager/dataRestart=always[Install]WantedBy=default.targetEOF# 授权并启动sudo chown -R prometheus:prometheus /opt/alertmanagersudo systemctl daemon-reexecsudo systemctl enable alertmanagersudo systemctl start alertmanager

五、在 Prometheus 中集成 Alertmanager 并设置告警规则

编辑 Prometheus 配置文件，添加 Alertmanager 地址和告警规则文件。

# 修改 /opt/prometheus/prometheus.yml，追加以下内容alerting:  alertmanagers:    - static_configs:        - targets: ['localhost:9093']rule_files:  - "rules.yml"

创建告警规则文件 /opt/prometheus/rules.yml：

groups:- name: instance-health  rules:  - alert: InstanceDown    expr: up == 0    for: 1m    labels:      severity: critical    annotations:      summary: "Instance {{ $labels.instance }} down"      description: "{{ $labels.instance }} of job {{ $labels.job }} has been down for more than 1 minute."- name: system-load  rules:  - alert: HighCpuLoad    expr: 100 - (avg by (instance) (irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 80    for: 2m    labels:      severity: warning    annotations:      summary: "High CPU load on {{ $labels.instance }}"      description: "CPU usage is above 80% for more than 2 minutes."

重启 Prometheus 使配置生效：