prometheus 和 Alertmanager跨网段问题

Blade 已结 2 1386
dp9212
dp9212 剑圣 2021-04-21 11:56

一、该问题的重现步骤是什么?

1. prometheus 和 Node、Mysql 插件一切正常,后面有效果图

2. Nacos监控也能正常显示数据

3.Alertmanager中有7台服务器 报 FIRING,后面的第一张图,PENDING是我主动停止了一台服务器的node插件演示

4.Alertmanager和prometheus都是部署在 172.24.12 网段的服务器上,这个网段的服务器预警是正常的,如第一张图演示的,但是另外7台服务器在172.24.51网段上,一直显示FIRING,重启Alertmanager、prometheus、node_exporter无用,服务器是阿里云ECS,12和51网段确认是互通的,无限制,不想使用公网IP,有没有办法解决跨网段监测不到服务器状态的问题呢?配置文件已附上

5. biz改的项目,请问需要加入哪个包,才能收集数据呢(/actuator/prometheus)?还是说需要自己实现?


二、你期待的结果是什么?实际看到的又是什么?

   怎么解决 网段不一致,监控不到的问题?


三、你正在使用的是什么产品,什么版本?在什么操作系统上?

 baldex 2.8.0 ,centos 7.9

配置文件:

配置文件.zip


四、请提供详细的错误堆栈信息,这很重要。

第一个问题的图

image.png

image.png


第二个问题图

image.png


prometheus 效果

image.png

五、若有更多详细信息,请在下面提供。




2条回答
  •  admin
    admin (最佳回答者)
    2021-04-21 16:00

    一、 biz项目与bladex项目采集都是一样的,只需要保证服务有如下依赖

    <dependency>
        <groupId>org.springblade</groupId>
        <artifactId>blade-starter-metrics</artifactId>
    </dependency>

    有依赖后启动就可以访问 /actuator/prometheus 端点来采集数据


    二、看你的截图,是51网段的 /actuator/prometheus 返回了404,那应该就是这个问题了,你加一下依赖然后重新打包再启动试试,确保可以访问到


    三、prometheus监控判断是否为down,其实就是prometheus服务所在服务器去访问你配置的服务地址的 /actuator/prometheus 端点,如果能连通就说明可以了。为了验证部署,你可以在prometheus所在的服务器手动 curl一下这个地址看看是否有正确返回

    0 讨论(1)
  • 2021-04-21 12:57

    alerting: alertmanagers

       - static_configs: # alertmanager服务地址 

          - targets: ['11x.xx.x.7:9093']



    这个配置已经加上了,企业也能收到消息

    0 讨论(0)
提交回复