304 lines
8.9 KiB
Markdown
304 lines
8.9 KiB
Markdown
|
|
# 🦟 蚊子项目 - 稳定性SLA文档
|
|||
|
|
|
|||
|
|
**文档版本**: v2.0
|
|||
|
|
**创建日期**: 2026-01-21
|
|||
|
|
**适用范围**: 生产环境服务
|
|||
|
|
**SLA周期**: 2026年Q1
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## 📋 SLA概览
|
|||
|
|
|
|||
|
|
### 服务定义
|
|||
|
|
|
|||
|
|
| 服务名称 | 服务描述 | 服务等级 |
|
|||
|
|
|----------|----------|----------|
|
|||
|
|
| 蚊子营销平台API | 提供裂变营销API服务 | Platinum |
|
|||
|
|
| 管理后台 | 活动管理和数据可视化 | Platinum |
|
|||
|
|
| 用户端H5 | 用户分享和参与界面 | Gold |
|
|||
|
|
| 数据分析 | 实时业务数据分析 | Platinum |
|
|||
|
|
|
|||
|
|
### SLA目标
|
|||
|
|
|
|||
|
|
| 指标 | 目标值 | 测量标准 |
|
|||
|
|
|------|--------|----------|
|
|||
|
|
| 可用性 | 99.9% | (总时间 - 停机时间)/总时间 |
|
|||
|
|
| 响应时间 | P95 < 200ms | API接口响应时间95分位 |
|
|||
|
|
| 吞吐量 | 1000 QPS | 每秒请求数 |
|
|||
|
|
| 错误率 | < 0.1% | 错误请求数/总请求数 |
|
|||
|
|
| 恢复时间 | P95 < 30分钟 | 故障恢复时间95分位 |
|
|||
|
|
| 数据完整性 | 99.99% | 数据一致性保证 |
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## ⏱️ 一、可用性SLA
|
|||
|
|
|
|||
|
|
### 1.1 可用性定义
|
|||
|
|
|
|||
|
|
**可用性计算公式**: `(总服务时间 - 计划停机时间 - 非计划停机时间) / 总服务时间 × 100%`
|
|||
|
|
|
|||
|
|
### 1.2 可用性目标
|
|||
|
|
|
|||
|
|
| 服务等级 | 月度目标 | 季度目标 | 年度目标 |
|
|||
|
|
|----------|----------|----------|----------|
|
|||
|
|
| Platinum | 99.95% | 99.90% | 99.95% |
|
|||
|
|
| Gold | 99.9% | 99.85% | 99.9% |
|
|||
|
|
| Silver | 99.5% | 99.5% | 99.5% |
|
|||
|
|
| Bronze | 99.0% | 99.0% | 99.0% |
|
|||
|
|
|
|||
|
|
### 1.3 停机定义
|
|||
|
|
|
|||
|
|
| 类型 | 说明 | 是否包含在停机时间内 |
|
|||
|
|
|------|------|------------------|
|
|||
|
|
| **计划停机** | 预先维护的停机时间 | ❌ 不包含 |
|
|||
|
|
| **非计划停机** | 意外故障导致的停机时间 | ✅ 包含 |
|
|||
|
|
| **部分停机** | 影响部分用户或功能的停机 | ✅ 包含 |
|
|||
|
|
|
|||
|
|
### 1.4 停机豁免情况
|
|||
|
|
|
|||
|
|
以下情况不计入停机时间:
|
|||
|
|
- 客户端网络问题
|
|||
|
|
- 第三方依赖服务故障(在外部控制范围内)
|
|||
|
|
- 计划内的系统维护
|
|||
|
|
- 用户提供错误的操作
|
|||
|
|
- 不可抗力的自然灾难
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## ⚡ 二、性能SLA
|
|||
|
|
|
|||
|
|
### 2.1 响应时间SLA
|
|||
|
|
|
|||
|
|
| 接口类型 | 响应时间目标 | 测量方法 |
|
|||
|
|
|----------|--------------|----------|
|
|||
|
|
| **核心API** | P95 < 200ms | 监控系统统计 |
|
|||
|
|
| **管理API** | P95 < 500ms | 监控系统统计 |
|
|||
|
|
| **数据查询API** | P95 < 300ms | 监控系统统计 |
|
|||
|
|
| **文件上传API** | P95 < 2s | 监控系统统计 |
|
|||
|
|
| **文件下载API** | P95 < 1s | 监控系统统计 |
|
|||
|
|
|
|||
|
|
### 2.2 吞吐量SLA
|
|||
|
|
|
|||
|
|
| 服务组件 | 吞吐量目标 | 并发用户数 |
|
|||
|
|
|--------------|--------------|-------------|
|
|||
|
|
| **API网关** | 1000 QPS | 500 并发 |
|
|||
|
|
| **业务逻辑层** | 800 QPS | 400 并发 |
|
|||
|
|
| **数据访问层** | 600 QPS | 300 并发 |
|
|||
|
|
| **缓存层** | 2000 QPS | 1000 并发 |
|
|||
|
|
|
|||
|
|
### 2.3 错误率SLA
|
|||
|
|
|
|||
|
|
| 错误类型 | 错误率目标 | 说明 |
|
|||
|
|
|----------|----------|------|
|
|||
|
|
| **5xx错误** | < 0.05% | 服务器内部错误 |
|
|||
|
|
| **4xx错误** | < 0.05% | 客户端错误 |
|
|||
|
|
| **总计错误率** | < 0.1% | 所有错误 |
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## 🔧 三、恢复时间SLA
|
|||
|
|
|
|||
|
|
### 3.1 故障等级定义
|
|||
|
|
|
|||
|
|
| 等级 | 描述 | 影响范围 | 目标恢复时间 |
|
|||
|
|
|------|------|----------|--------------|
|
|||
|
|
| **P0-严重** | 核心服务完全不可用 | 所有用户 | < 15分钟 |
|
|||
|
|
| **P1-重要** | 主要功能受影响 | 大部分用户 | < 30分钟 |
|
|||
|
|
| **P2-一般** | 部分功能受影响 | 部分用户 | < 2小时 |
|
|||
|
|
| **P3-轻微** | 非核心功能受影响 | 少数用户 | < 4小时 |
|
|||
|
|
|
|||
|
|
### 3.2 恢复时间目标
|
|||
|
|
|
|||
|
|
| 故障等级 | P50恢复时间 | P95恢复时间 | 最大恢复时间 |
|
|||
|
|
|------|----------------|----------------|--------------|
|
|||
|
|
| **P0-严重** | 10分钟 | 20分钟 | 30分钟 |
|
|||
|
|
| **P1-重要** | 20分钟 | 40分钟 | 1小时 |
|
|||
|
|
| **P2-一般** | 1小时 | 2小时 | 4小时 |
|
|||
|
|
| **P3-轻微** | 2小时 | 4小时 | 8小时 |
|
|||
|
|
|
|||
|
|
### 3.3 恢复时间计算
|
|||
|
|
|
|||
|
|
- **开始时间**: 故障首次检测时间
|
|||
|
|
- **响应时间**: 开始处理故障的时间
|
|||
|
|
- **解决时间**: 服务恢复正常的时间
|
|||
|
|
- **恢复时间**: 服务恢复正常并验证完成的时间
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## 📊 四、监控和测量
|
|||
|
|
|
|||
|
|
### 4.1 监控指标
|
|||
|
|
|
|||
|
|
| 类别 | 指标 | 目标值 | 报警阈值 |
|
|||
|
|
|------|------|--------|----------|
|
|||
|
|
| **可用性** | 服务可用性 | ≥ 99.9% | < 99.5% |
|
|||
|
|
| **性能** | API响应时间 | P95 < 200ms | > 300ms |
|
|||
|
|
| **吞吐量** | API请求率 | > 1000 QPS | < 800 QPS |
|
|||
|
|
| **错误率** | HTTP错误率 | < 0.1% | > 0.2% |
|
|||
|
|
| **资源** | CPU使用率 | < 70% | > 85% |
|
|||
|
|
| **资源** | 内存使用率 | < 80% | > 90% |
|
|||
|
|
| **资源** | 磁盘使用率 | < 80% | > 90% |
|
|||
|
|
|
|||
|
|
### 4.2 测量工具
|
|||
|
|
|
|||
|
|
| 工具 | 用途 | 监控指标 |
|
|||
|
|
|------|------|----------|
|
|||
|
|
| **Prometheus** | 指标采集 | 所有技术指标 |
|
|||
|
|
| **Grafana** | 可视化监控 | 仪表盘展示 |
|
|||
|
|
| **Alertmanager** | 告警通知 | 告警规则引擎 |
|
|||
|
|
| **Jaeger** | 分布式追踪 | 调用链追踪 |
|
|||
|
|
| **ELK Stack** | 日志分析 | 错误日志分析 |
|
|||
|
|
| **Pingdom** | 外部监控 | 用户视角监控 |
|
|||
|
|
|
|||
|
|
### 4.3 报告机制
|
|||
|
|
|
|||
|
|
| 通知渠道 | 适用场景 | 响应时间 |
|
|||
|
|
|----------|----------|----------|
|
|||
|
|
| **短信** | P0-P1级故障 | 5分钟内 |
|
|||
|
|
| **电话** | P0级故障 | 15分钟内 |
|
|||
|
|
| **邮件** | P1-P2级故障 | 15分钟内 |
|
|||
|
|
| **钉钉/微信** | 所有故障 | 10分钟内 |
|
|||
|
|
| **监控面板** | 实时监控 | 持续更新 |
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## 🔄 五、服务支持时间
|
|||
|
|
|
|||
|
|
### 5.1 标准支持时间
|
|||
|
|
|
|||
|
|
| 时间段 | 支持范围 | 响应时间 |
|
|||
|
|
|----------|----------|----------|
|
|||
|
|
| **工作日** | 周一至周五 | 9:00-18:00 | 30分钟内 |
|
|||
|
|
| **周末** | 周六、周日 | 10:00-16:00 | 1小时内 |
|
|||
|
|
| **节假日** | 法定节假日 | 10:00-16:00 | 2小时内 |
|
|||
|
|
| **非工作时间** | 其他时间 | 2小时内 |
|
|||
|
|
|
|||
|
|
### 5.2 紧急支持
|
|||
|
|
|
|||
|
|
| 紧急级别 | 定义 | 联系方式 | 响应时间 |
|
|||
|
|
|----------|------|----------|----------|
|
|||
|
|
| **Level 1** | 生产系统完全不可用 | 电话 + 短信 | 15分钟内 |
|
|||
|
|
| **Level 2** | 核心功能不可用 | 电话 + 邮件 | 1小时内 |
|
|||
|
|
| **Level 3** | 部分功能不可用 | 邮件 + 即时通讯 | 4小时内 |
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## 📈 六、SLA违反处理
|
|||
|
|
|
|||
|
|
### 6.1 违反通知
|
|||
|
|
|
|||
|
|
当SLA未达成时,将触发以下通知:
|
|||
|
|
|
|||
|
|
1. **立即通知**: 发送告警给所有相关人员
|
|||
|
|
2. **详细报告**: 包含违反详情、影响分析、改进措施
|
|||
|
|
3. **定期报告**: 周度提交SLA达成情况报告
|
|||
|
|
4. **管理层通报**: 向管理层汇报SLA达成情况
|
|||
|
|
|
|||
|
|
### 6.2 补偿机制
|
|||
|
|
|
|||
|
|
| 补偿类型 | 适用场景 | 补偿方式 |
|
|||
|
|
|----------|----------|----------|
|
|||
|
|
| **服务信用延期** | 违反可用性SLA | 按停机时间延长服务期限 |
|
|||
|
|
| **服务费用减免** | 违反性能SLA | 按违反比例减免费用 |
|
|||
|
|
| **技术支持升级** | 持续违反SLA | 提供优先支持 |
|
|||
|
|
|
|||
|
|
### 6.3 连续违反处理
|
|||
|
|
|
|||
|
|
- **单次违反**: 口头警告 + 改进计划
|
|||
|
|
- **连续2次**: 书面警告 + 补偿措施
|
|||
|
|
- **连续3次**: 服务降级 + 紧急改进会议
|
|||
|
|
- **长期违规**: 服务终止或合同重新协商
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## 📊 七、SLA报告
|
|||
|
|
|
|||
|
|
### 7.1 月度SLA报告
|
|||
|
|
|
|||
|
|
每月5日前发布上月SLA达成情况,包含:
|
|||
|
|
|
|||
|
|
| 报告项 | 内容 |
|
|||
|
|
|--------|------|
|
|||
|
|
| **总体概览** | SLA达成率统计 |
|
|||
|
|
| **可用性分析** | 停机原因分析 |
|
|||
|
|
| **性能分析** | 响应时间和吞吐量统计 |
|
|||
|
|
| **故障分析** | 故障分类和处理结果 |
|
|||
|
|
| **改进措施** | 已采取和计划中的改进措施 |
|
|||
|
|
|
|||
|
|
### 7.2 实时SLA仪表板
|
|||
|
|
|
|||
|
|
提供实时SLA监控仪表板,包含:
|
|||
|
|
- 当前SLA达成率
|
|||
|
|
- 实时可用性状态
|
|||
|
|
- 性能指标实时图表
|
|||
|
|
- 故障事件时间线
|
|||
|
|
- 历史SLA趋势
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## 🎯 八、SLA管理
|
|||
|
|
|
|||
|
|
### 8.1 SLA审查
|
|||
|
|
|
|||
|
|
每季度进行SLA审查,内容包含:
|
|||
|
|
|
|||
|
|
- SLA目标合理性评估
|
|||
|
|
- 实际达成情况分析
|
|||
|
|
- 改进措施效果评估
|
|||
|
|
- 下季度SLA调整建议
|
|||
|
|
|
|||
|
|
### 8.2 SLA修订
|
|||
|
|
|
|||
|
|
以下情况可以修订SLA:
|
|||
|
|
|
|||
|
|
- 业务需求重大变化
|
|||
|
|
- 技术架构重大调整
|
|||
|
|
- 客户服务要求变更
|
|||
|
|
- 法律法规要求变化
|
|||
|
|
|
|||
|
|
### 8.3 SLA争议解决
|
|||
|
|
|
|||
|
|
1. **友好协商**: 首先通过友好协商解决
|
|||
|
|
2. **正式仲裁**: 协商不成时提交仲裁
|
|||
|
|
3. **法律程序**: 仲裁不成时启动法律程序
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## 📋 九、联系信息
|
|||
|
|
|
|||
|
|
### 9.1 SLA管理团队
|
|||
|
|
|
|||
|
|
| 角色 | 姓名 | 联系方式 | 在线时间 |
|
|||
|
|
|------|------|----------|----------|
|
|||
|
|
| **SLA经理** | [姓名] | [邮箱] | 工作日 |
|
|||
|
|
| **技术负责人** | [姓名] | [电话] | 7x24 |
|
|||
|
|
| **运维负责人** | [姓名] | [电话] | 7x24 |
|
|||
|
|
| **产品负责人** | [姓名] | [邮箱] | 工作日 |
|
|||
|
|
|
|||
|
|
### 9.2 紧急联系
|
|||
|
|
|
|||
|
|
| 情况 | 联系方式 | 响应时间 |
|
|||
|
|
|------|----------|----------|
|
|||
|
|
| **P0紧急故障** | [电话] | 立即 |
|
|||
|
|
| **P1重要故障** | [电话] | 15分钟内 |
|
|||
|
|
| **P2一般故障** | [钉钉] | 1小时内 |
|
|||
|
|
| **SLA咨询** | [邮箱] | 4小时内 |
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
## 📄 十、文档变更历史
|
|||
|
|
|
|||
|
|
| 版本 | 修订日期 | 修订内容 | 修订人 |
|
|||
|
|
|------|----------|----------|--------|
|
|||
|
|
| **v1.0** | 2026-01-21 | 初始版本 | DevOps团队 |
|
|||
|
|
| **v2.0** | 2026-01-21 | 基于产品审查报告更新 | DevOps团队 |
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
**文档生效日期**: 2026-01-21
|
|||
|
|
**下次审查日期**: 2026-04-21
|
|||
|
|
**文档负责人**: SLA管理团队
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
*此SLA文档是服务水平协议的重要组成部分,客户和双方均应严格遵守。如有疑问,请联系SLA管理团队。*
|