一、该问题的重现步骤是什么?
bladex系统连接nacos,我们这个nacos经常周末会莫名奇妙的不让连接。nacos属于运维部门管 运维部门不给力 他们也不知道为什么不让连接了,nacos没挂,是连接失败的太多了 启动了什么保护机制,不让所有ip连接了,重启下nacos就好了。
因为这个经常发生在周末,我们不用系统又发现不了这个问题,只有能用户发现了反馈给我们,这样用户体验很不好,有没有什么方法可以监控到 我们系统连接nacos是否还正常。
2.
3.
二、你期待的结果是什么?实际看到的又是什么?
三、你正在使用的是什么产品,什么版本?在什么操作系统上?
四、请提供详细的错误堆栈信息,这很重要。
五、若有更多详细信息,请在下面提供。
正规做法是部署prometheus,然后接入nacos面板,这样就可以设置错误推送,但是这样成本太高,难度也有点大。
简单点你们可以单独启动一个java服务,写一个定时任务(可以用spring自带,不需要xxljob,怎么简单怎么来),每分钟执行一次,定时任务里用HttpUtil去调用nacos的开放api去注册一个测试服务,比如 blade-nacos-test,如果注册成功后记录日志到数据库。如果注册失败,把错误日志也记录到数据库,并且调用钉钉、短信、邮件通知。这样你们就能及时获取情况了。
至于这个功能,你们找gpt或者cursor可以一键生成出来稍微改改就行了,难度不大,开发也快。
扫一扫访问 Blade技术社区 移动端