如何快速定位问题

这周碰到一个问题:客户在 C 端下单后,打印机延迟打印甚至不打印。很是让人头疼,耗费了大把时间结果发现只是因为手机 B 端 APP 处于后台无法自动更新。

整个链路流程大致是这样,用户在小程序上下单后通过消息通道发消息给客户端,客户端再去调用打印机打印,然后再去更新打印状态。

排查了很久发现是客户端接收不到消息,客户端同学也表示不知所措,问了消息通道那边的同学后发现安卓客户端在这之前就断开连接了,重新连接后立马就接收到了消息。一度怀疑是消息通道的问题,后来才发现客户端一直运行在后台,且自动刷新是关闭的。

因整个排查浪费了太多时间故在此做个复盘
整个链路很长,任何环节都有可能出现问题。

  1. 先尽可能排除用户误操作产生的影响
  2. 有些地方不好排查(如消息通道),排查必须得有侧重点
  3. 需要有一个负责人协调多位项目相关人,依次推进进度,提高效率