当前位置：首页 > 服务器技术 > 正文

Nginx报警资源监控（手把手教你搭建实时监控与告警系统）

在现代 Web 服务架构中，Nginx 作为高性能的反向代理和 Web 服务器被广泛使用。然而，随着业务流量的增长，如何及时发现 Nginx 的异常状态、资源瓶颈或潜在故障变得至关重要。本文将带你从零开始，搭建一套简单但实用的 Nginx 报警资源监控 系统，即使你是运维小白也能轻松上手！

为什么需要 Nginx 资源监控？

当你的网站或 API 服务依赖 Nginx 时，一旦出现以下情况，若无监控系统，你可能毫不知情：

CPU 或内存使用率飙升
连接数达到上限导致新用户无法访问
错误日志频繁出现 5xx 错误
磁盘空间不足影响日志写入

通过配置 Nginx 资源监控 和报警机制，你可以在问题发生前或刚发生时就收到通知，从而快速响应，保障服务稳定性。

Nginx报警资源监控（手把手教你搭建实时监控与告警系统） Nginx报警 Nginx资源监控服务器监控 Nginx性能优化第1张

第一步：启用 Nginx 的状态模块（stub_status）

Nginx 自带一个轻量级的状态模块 ngx_http_stub_status_module，可以暴露基本的运行指标。首先确认你的 Nginx 是否已编译该模块：

nginx -V 2>&1 | grep -o with-http_stub_status_module

如果有输出，说明支持。接下来在 Nginx 配置文件中添加状态接口：

server {    listen 80;    server_name localhost;    location /nginx_status {        stub_status on;        access_log off;        allow 127.0.0.1;      # 仅允许本地访问        allow your_monitor_ip; # 替换为你的监控服务器 IP        deny all;    }}

保存后重载 Nginx：

sudo nginx -s reload

访问 http://your-server-ip/nginx_status，你会看到类似如下输出：

Active connections: 10 server accepts handled requests 100 100 250 Reading: 0 Writing: 1 Waiting: 9

第二步：使用 Prometheus + Node Exporter 采集指标

为了实现更全面的 服务器监控，我们引入开源监控工具 Prometheus 和 Node Exporter。

在 Nginx 服务器上安装 Node Exporter（用于采集 CPU、内存、磁盘等系统指标）
安装 nginx-prometheus-exporter（用于将 stub_status 转换为 Prometheus 格式）

以 Ubuntu 为例：

# 安装 Node Exportercurl -LO https://github.com/prometheus/node_exporter/releases/latest/download/node_exporter-*.linux-amd64.tar.gztar xvfz node_exporter-*.linux-amd64.tar.gzcd node_exporter-*./node_exporter &# 安装 Nginx Prometheus Exporter（需 Go 环境或使用预编译二进制）./nginx-prometheus-exporter -nginx.scrape-uri http://localhost/nginx_status &

此时，Node Exporter 默认监听 9100 端口，Nginx Exporter 监听 9113 端口。

第三步：配置 Prometheus 抓取数据

在你的监控服务器上安装 Prometheus，并编辑 prometheus.yml：

scrape_configs:  - job_name: 'nginx'    static_configs:      - targets: ['your-nginx-server-ip:9113']  - job_name: 'node'    static_configs:      - targets: ['your-nginx-server-ip:9100']

重启 Prometheus 后，即可在 Web 界面（默认 9090 端口）查询 Nginx 和系统指标。

第四步：设置报警规则（Alertmanager）

Prometheus 支持基于规则的告警。例如，当 Nginx 活跃连接数超过 1000 时触发告警：

# alert.rules.ymlgroups:- name: nginx-alerts  rules:  - alert: HighNginxConnections    expr: nginx_connections_active > 1000    for: 2m    labels:      severity: warning    annotations:      summary: "High active connections on Nginx"      description: "Nginx has more than 1000 active connections for more than 2 minutes."

将此规则加入 Prometheus 配置，并启动 Alertmanager，即可通过邮件、企业微信、钉钉等方式接收 Nginx 报警。