跳转到主要内容
所谓新奇故障,即在过去的一段时间内从未发生过的故障。如果一个故障被识别为新奇故障,那么故障响应者应该感到警惕。这对于 On-call 工程师非常重要,因为新奇故障带来的影响可能是未知的,其处置步骤可能也需要临时决断。而有一些工程师,可能只关心那些新奇故障,他们会为解决此类故障制定标准化流程或者 SOP。

查看新奇故障

  1. 在故障列表页面,新奇故障将提供明显的 新奇 标识
  2. 在故障详情页面,新奇故障将在最上方提供明显的 新奇 标识和解释
控制台新奇故障标识

如何识别

系统使用机器学习模型来判定故障之间的相似程度,当相似度大于 90% 时,我们认为两条故障之间是相似的。 我们在判断相似度时,主要考虑以下因素:
因素说明
故障的标题标题文本的语义相似度
故障的详细描述描述内容的语义相似度
故障所影响的服务一般提取自 service 标签
故障中包含告警对象一般提取自 resource 标签
当系统检测到过去 30 天内都没有发生过相似故障,系统将故障标记为新奇故障。

开启与关闭

新奇故障检测在协作空间级别进行配置:
1

进入空间设置

前往 协作空间 → 选择目标空间 → 基础设置
2

配置检测开关

找到 新奇故障检测 选项,开启或关闭该功能
开启后,故障列表及通知内容中将带有”新奇”标识,便于快速识别。详见 创建与管理协作空间

常见问题

无需设置和开启,默认所有专业版及以上订阅版本,系统都会触发新奇故障识别。

延伸阅读