Files
ai-customer-service/docs/GRAY_DASHBOARD_MINIMUM.md

91 lines
2.2 KiB
Markdown
Raw Permalink Normal View History

# 灰度阶段最小 Dashboard
> 状态:已定义
> 用途:灰度 5% / 20% / 50% / 100% 放量时,值班工程师和 TechLead 必须看的单页观察面
---
## 1. 必须展示的 8 个指标
1. `Webhook 5xx 比例`
2. `Webhook reject 数`
3. `Ticket 创建量`
4. `Handoff 比率`
5. `Audit 写入失败数`
6. `Readiness down 次数`
7. `PostgreSQL 连接异常`
8. `单实例重启次数`
---
## 2. 推荐布局
### 第一行:放量门禁
- Webhook 5xx 比例
- Audit 写入失败数
- PostgreSQL 连接异常
- Readiness down 次数
这些指标用于判断:**是否必须停止放量或立即回滚**
### 第二行:业务链路健康
- Ticket 创建量
- Handoff 比率
- Webhook reject 数
这些指标用于判断:**是否出现隐性降级或业务异常漂移**
### 第三行:实例稳定性
- 单实例重启次数
- 当前灰度比例
- 当前版本
- 最近一次 Gate B / 回滚演练记录链接
---
## 3. 颜色规则
| 指标 | 绿色 | 黄色 | 红色 |
|------|------|------|------|
| Webhook 5xx | `<= 0.5%` | `0.5% ~ 1%` | `> 1%` |
| Webhook reject 数 | 在预期基线内 | 高于基线但 <20% | `>= 20%` |
| Ticket 创建量 | 与 handoff 基本匹配 | 明显下降 | handoff 存在但 ticket 持续为 0 |
| Handoff 比率 | `<= 15%` 或接近基线 | `15% ~ 25%` | `> 25%` 或高于基线 `2x` |
| Audit 写入失败数 | `0` | 短时抖动 | `> 0` 持续 5 分钟 |
| Readiness down 次数 | `0` | 偶发 | 连续 3 次 |
| PostgreSQL 连接异常 | `0` | 短时抖动 | 持续异常 |
| 单实例重启次数 | `0` | `1~2 / 10min` | `>2 / 10min` |
---
## 4. Dashboard 直接用途
值班期间,只允许做三类决策:
1. **继续放量**
前提:所有门禁指标为绿色,且观察窗口已满足
2. **冻结当前档位**
前提:出现黄色趋势,但未触发红色门禁
3. **立即回滚**
前提:任一核心门禁指标变红
---
## 5. 当前状态
这份 dashboard 文档已经定义完成,但真实共享预生产/灰度环境还需要补:
- 指标来源接线
- 展示面板
- 告警路由
在这些接线完成前,只能说:
> **Dashboard 设计已完成,运行时观察面尚未真正上线。**