在现代 IT 运维中,Centos集群监控是保障业务高可用性和系统稳定性的关键环节。当服务器数量增多、服务架构复杂化后,单靠人工巡检已远远不够。此时,一套可靠的服务器告警系统就显得尤为重要。本文将从零开始,手把手教你如何在 CentOS 环境下搭建基于 Prometheus + Alertmanager 的监控告警平台,即使是运维小白也能轻松上手。
随着业务规模扩大,服务器数量可能从几台增长到几十甚至上百台。如果没有自动化监控,你将面临以下问题:
通过部署 Prometheus监控 和告警组件,你可以实现:实时指标采集、可视化展示、阈值触发告警、自动通知(邮件/钉钉/微信等)。
本教程假设你有以下基础环境:
Node Exporter 是 Prometheus 官方提供的主机指标采集工具,用于收集 CPU、内存、磁盘、网络等系统指标。
在每一台被监控的 CentOS 服务器上执行以下命令:
# 下载并解压 Node Exportercd /optwget https://github.com/prometheus/node_exporter/releases/download/v1.7.0/node_exporter-1.7.0.linux-amd64.tar.gztar -xzf node_exporter-1.7.0.linux-amd64.tar.gzmv node_exporter-1.7.0.linux-amd64 node_exporter# 创建 systemd 服务cat > /etc/systemd/system/node_exporter.service <<EOF[Unit]Description=Node ExporterAfter=network.target[Service]User=rootExecStart=/opt/node_exporter/node_exporterRestart=on-failure[Install]WantedBy=multi-user.targetEOF# 启动服务systemctl daemon-reloadsystemctl start node_exportersystemctl enable node_exporter# 验证是否运行(应返回指标数据)curl http://localhost:9100/metrics
在监控服务器上安装 Prometheus:
# 下载 Prometheuscd /optwget https://github.com/prometheus/prometheus/releases/download/v2.45.0/prometheus-2.45.0.linux-amd64.tar.gztar -xzf prometheus-2.45.0.linux-amd64.tar.gzmv prometheus-2.45.0.linux-amd64 prometheus# 配置监控目标(编辑 prometheus.yml)cat > /opt/prometheus/prometheus.yml <<EOFglobal: scrape_interval: 15sscrape_configs: - job_name: 'centos-nodes' static_configs: - targets: ['192.168.1.10:9100', '192.168.1.11:9100', '192.168.1.12:9100']EOF# 启动 Prometheus/opt/prometheus/prometheus --config.file=/opt/prometheus/prometheus.yml --web.listen-address=:9090 &
打开浏览器访问 http://你的监控服务器IP:9090,即可看到 Prometheus Web UI。
Prometheus 本身不发送告警,需配合 Alertmanager。首先创建告警规则文件:
# 创建 rules 目录和告警规则mkdir -p /opt/prometheus/rulescat > /opt/prometheus/rules/alert.rules.yml <<EOFgroups:- name: instance-health rules: - alert: InstanceDown expr: up == 0 for: 1m labels: severity: critical annotations: summary: "Instance {{ $labels.instance }} down" description: "{{ $labels.instance }} of job {{ $labels.job }} has been down for more than 1 minute." - alert: HighCpuUsage expr: 100 - (avg by(instance) (irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 80 for: 2m labels: severity: warning annotations: summary: "High CPU usage on {{ $labels.instance }}" description: "CPU usage is above 80% for more than 2 minutes."EOF 然后修改 prometheus.yml 引入规则并配置 Alertmanager 地址:
rule_files: - "rules/alert.rules.yml"alerting: alertmanagers: - static_configs: - targets: ['localhost:9093']
接着安装并启动 Alertmanager:
cd /optwget https://github.com/prometheus/alertmanager/releases/download/v0.26.0/alertmanager-0.26.0.linux-amd64.tar.gztar -xzf alertmanager-0.26.0.linux-amd64.tar.gzmv alertmanager-0.26.0.linux-amd64 alertmanager# 启动 Alertmanager(默认端口 9093)/opt/alertmanager/alertmanager --config.file=/opt/alertmanager/alertmanager.yml & 重启 Prometheus 后,在 Web UI 的 “Alerts” 页面即可看到定义的告警规则。当条件触发时,Alertmanager 会根据配置发送通知(如邮件)。你还可以集成企业微信、钉钉等,实现更高效的 运维监控工具联动。
通过本文,你已经掌握了在 CentOS 集群中搭建完整监控告警系统的全流程。这套方案基于开源生态,稳定可靠,适用于中小型企业及个人项目。记住,Centos集群监控不是一次性的任务,而是持续优化的过程。建议定期审查告警阈值,避免“告警疲劳”。
关键词回顾:
本文涉及的核心 SEO 关键词包括:Centos集群监控、服务器告警系统、运维监控工具、Prometheus监控。
祝你运维顺利,系统永不停机!
本文由主机测评网于2025-12-22发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20251211339.html