核心概念
Loki 的查询语言 LogQL 分为两类:| 类型 | 说明 |
|---|---|
| 日志查询 (Log Queries) | 返回日志行内容(Stream) |
| 指标查询 (Metric Queries) | 对日志进行计数或聚合,如 count_over_time 返回数值(Vector) |
1. 阈值判定模式 (Threshold)
此模式适用于需要对日志聚合值进行多级阈值判定(如 Info/Warning/Critical)的场景。配置方式
- 查询语句 (LogQL):编写返回数值向量的 LogQL(查询模式选择”做统计”)
mysql 任务中包含 error 关键字的日志条数:
- 阈值条件:
- Critical:
$A > 50(5分钟内错误日志超过 50 条) - Warning:
$A > 10(5分钟内错误日志超过 10 条)
- Critical:
工作原理
引擎执行 LogQL 查询,获取带有标签的时间序列数据(Vector)。引擎遍历每个序列,提取数值与配置的阈值表达式进行比对。恢复逻辑
| 策略 | 说明 |
|---|---|
| 自动恢复 | 当查询结果数值回落到阈值以下时,自动恢复 |
| 特定恢复条件 | 可配置如 $A < 5,避免在阈值附近震荡 |
| 恢复查询 | 支持独立 LogQL 用于恢复判定 |
2. 数据存在模式 (Data Exists)
此模式适用于习惯在 LogQL 中直接写过滤条件,或者只关心”是否有异常数据”的场景。推荐使用此模式做日志异常检测告警。配置方式
- 查询语句 (LogQL):编写包含比较操作符的 LogQL,仅返回满足条件的数据
- 判定规则:只要 LogQL 查询返回了数据,即触发告警
优缺点分析
| 类型 | 说明 |
|---|---|
| 优点 | 计算逻辑下推至 Loki 服务端,减少数据传输 |
| 缺点 | 无法区分告警级别,只能触发单一级别的告警 |
恢复逻辑
- 数据消失即恢复:当 LogQL 查询结果为空时,判定恢复
- 恢复查询:支持配置额外的查询语句用于辅助判断恢复状态
3. 数据缺失模式 (No Data)
此模式用于监控日志上报链路是否中断,或者预期应该持续产生的日志是否停止了。配置方式
- 查询语句 (LogQL):编写预期应该一直有数据的查询
- 判定规则:如果某个 Series(由标签唯一标识,如
instance="host-1")在之前的周期中存在,但在当前及连续 N 个周期中查不到数据,则触发”数据缺失”告警
典型应用
- 监控 Promtail/Fluentd 等采集 Agent 是否停止工作
- 监控关键业务日志(如订单创建日志)是否异常中断
4. 获取告警时日志原文
告警时可以通过关联查询获取日志原文。但通常不建议获取太多,只获取 1 条作为日志样例放置到告警消息中。
关联查询的结果可以渲染在”备注描述”中,示例: