在现代IT运维中,对服务器状态进行实时监控和及时告警是保障系统稳定运行的关键。本文将详细指导你如何在RockyLinux上部署一套完整的监控告警系统,使用业界主流的开源工具组合:Prometheus(数据采集与告警) + Grafana(可视化面板)。即使你是Linux小白,也能轻松完成配置。
首先确保你的RockyLinux系统已更新并具备以下条件:
执行系统更新:
sudo dnf update -ysudo dnf install -y wget curl git Node Exporter 是 Prometheus 官方提供的用于采集主机系统指标(CPU、内存、磁盘、网络等)的工具。
1. 下载并解压 Node Exporter:
wget https://github.com/prometheus/node_exporter/releases/download/v1.7.0/node_exporter-1.7.0.linux-amd64.tar.gztar xvfz node_exporter-1.7.0.linux-amd64.tar.gzsudo mv node_exporter-1.7.0.linux-amd64/node_exporter /usr/local/bin/ 2. 创建 systemd 服务文件:
sudo tee /etc/systemd/system/node_exporter.service < 3. 启动并启用服务:
sudo systemctl daemon-reloadsudo systemctl start node_exportersudo systemctl enable node_exporter 此时,访问 http://你的服务器IP:9100/metrics 应能看到系统指标数据。
Prometheus 负责从 Node Exporter 拉取数据,并提供告警功能。
1. 创建 prometheus 用户并下载安装包:
sudo useradd --no-create-home --shell /bin/false prometheuswget https://github.com/prometheus/prometheus/releases/download/v2.45.0/prometheus-2.45.0.linux-amd64.tar.gztar xvfz prometheus-2.45.0.linux-amd64.tar.gzsudo mv prometheus-2.45.0.linux-amd64 /opt/prometheus 2. 创建配置目录和配置文件:
sudo mkdir /etc/prometheus /var/lib/prometheussudo chown prometheus:prometheus /var/lib/prometheus 编辑主配置文件 /etc/prometheus/prometheus.yml:
global: scrape_interval: 15sscrape_configs: - job_name: 'node' static_configs: - targets: ['localhost:9100'] 3. 创建 systemd 服务:
sudo tee /etc/systemd/system/prometheus.service < 4. 启动 Prometheus:
sudo systemctl daemon-reloadsudo systemctl start prometheussudo systemctl enable prometheus 现在可通过 http://你的服务器IP:9090 访问 Prometheus Web 界面。
Grafana 提供美观的仪表盘,用于展示 Prometheus 收集的数据。
1. 添加 Grafana 官方仓库并安装:
sudo tee /etc/yum.repos.d/grafana.repo < 2. 启动 Grafana 服务:
sudo systemctl start grafana-serversudo systemctl enable grafana-server 访问 http://你的服务器IP:3000,默认账号密码为 admin/admin,首次登录会提示修改密码。
3. 在 Grafana 中添加 Prometheus 数据源:
4. 导入现成的监控面板(推荐使用ID:1860):
我们先用 Prometheus 内置的告警功能实现简单通知(如 CPU 使用率 > 80%)。
1. 创建告警规则文件 /etc/prometheus/alert.rules.yml:
groups:- name: system_alerts rules: - alert: HighCpuUsage expr: 100 - (avg by(instance) (irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 80 for: 2m labels: severity: warning annotations: summary: "High CPU usage on {{ $labels.instance }}" description: "CPU usage is above 80% for more than 2 minutes." 2. 修改 /etc/prometheus/prometheus.yml,加入 rule_files:
rule_files: - "alert.rules.yml"# 其他配置保持不变... 3. 重载 Prometheus 配置:
sudo systemctl reload prometheus 进入 Prometheus Web 界面 → Alerts,即可看到定义的告警规则状态。
通过本教程,你已在 RockyLinux 上成功部署了一套完整的 RockyLinux监控告警配置 系统,涵盖了 Prometheus监控部署、Grafana可视化监控 和基础的 Linux系统告警设置。这套方案免费、开源、可扩展,适合个人开发者、中小企业乃至大型生产环境使用。
后续你可以进一步集成 Alertmanager 实现邮件、企业微信、钉钉等多渠道告警,或添加更多 Exporter 监控数据库、应用服务等。
温馨提示:生产环境中请务必配置防火墙规则,限制 Prometheus 和 Grafana 的访问来源,保障系统安全。
本文由主机测评网于2025-12-24发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20251212187.html