仓库源文站点原文


title: 对系统链路问题排查的一些看法 description: 整个链路的自动化检测思路。 warning: true categories:


页面上发现几个模块展示比较缓慢,白了大约 5s 之后展示兜底,显然,是接口请求超时了,打开控制台一看,果然,接口挂了。看了下相关页面,因为大量用到这个接口,模块也都加载超时了。换一台电脑看了下,存在一样的问题,确认是接口挂了。

<!--more-->

10 min 左右后接口却又恢复正常。于是出现下面系列流程:

继续溯源,

当然,问题在这里已经找到了。如果这一步还没有找到,就需要继续溯源,看看域名解析是否有问题,DNS 解析是否有问题了。

自动化的检测

当用户发现网页模块超时加载后,

而这条链路也可以在平时正向冒烟测试,定期检查是否存在问题,提早发现问题,这样才能发挥监控的价值。