Files
supply-intelligence/tech/PRODUCTION_LAUNCH_CLOSURE_BOARD_2026-05-08.md
2026-05-12 18:49:52 +08:00

4.8 KiB
Raw Permalink Blame History

Supply-Intelligence 生产上线收口执行板2026-05-08

状态:当前有效 目标:把“可上线证据包”之后的剩余阻塞项,拆成 PM / TechLead / QA / Engineer 的可执行收口板,推动进入真实上线实施。 仓库:/home/long/project/立交桥/projects/supply-intelligence 当前门控:REQUEST_CHANGES

0. 当前判断

当前不是“继续写报告”的阶段,而是“按阻塞项执行”的阶段。

已验证事实:

  • 最小主链路代码与自动化测试已通过
  • PostgreSQL E2E 已建立
  • 发布 / ack / admission-state / consumer 约束已有证据

仍需执行的剩余上线阻塞项:

  1. 定义并实现真实 gateway 契约与失败重试策略
  2. 产出可执行的灰度 / 回滚 runbook
  3. 补齐观测与上线后巡检门禁

1. 实施总原则

  • 先补执行板,再分派执行
  • 先定义契约,再做实现
  • 先做可回滚,再做可放量
  • 先补观测,再放行上线
  • 任何“已完成”都必须落到文件、命令、证据

2. 角色化执行链

2.1 PM

职责:把剩余上线阻塞项写成可验收、可上线、可回滚的产品/运营定义。

必须输出:

  • gateway 契约边界:内部消费 / 外部真实 gateway 的能力与非能力
  • 重试策略口径:哪些失败可重试、重试上限、终态定义
  • 灰度/回滚 runbook 的业务判定线
  • 上线后巡检项:首日、首周、异常回退触发条件

验收标准:

  • 每条都可直接被 TechLead 转成实现任务
  • 没有模糊词
  • 明确上线成功 / 失败判定线

2.2 TechLead

职责:把 PM 的口径转成真实工程方案与文件级任务。

必须输出:

  • gateway 契约实现边界与状态机
  • 失败重试策略(含终态 / 重试 / 回退)
  • rollout / rollback runbook 的技术执行步骤
  • 观测指标、告警、巡检门禁的落点
  • 文件级任务拆解

验收标准:

  • 每个任务有具体文件路径
  • 每个关键能力有真实调用链路
  • 每个风险点有保护或降级策略

2.3 QA

职责:前置审查设计,后置检查实现漂移与上线门禁是否足够。

必须输出:

  • 设计审查结论:是否可进入实现
  • 关键调用链路核查:定义→装配→调用→入口
  • 灰度 / 回滚 / 观测门禁是否可执行
  • 关键缺陷清单critical / important

验收标准:

  • 结论必须基于真实文件或命令
  • 不能只看定义,不看实际调用点
  • 不能把“有文档”当成“能上线”

2.4 Engineer

职责:按设计落地真实实现、测试与验证。

必须输出:

  • 修改文件清单(绝对路径)
  • 实现代码
  • 测试代码
  • 验证命令与输出
  • 剩余风险与阻塞声明

验收标准:

  • 代码 / 测试 / 验证三件套齐全
  • 不得只改文档不改代码

3. 当前三项收口任务

3.1 任务 A真实 gateway 契约与失败重试策略

OwnerPM -> TechLead -> Engineer -> QA

交付物:

  • gateway 契约说明
  • 失败重试策略说明
  • 相关代码与测试

完成标准:

  • 明确哪些 ack / consume / event 状态是可重试的
  • 明确哪些错误是终态,不再重试
  • 明确外部真实 gateway 与当前本地 consumer 的边界
  • 相关 HTTP / repo / consumer 语义一致

验证方式:

  • 设计审查通过
  • 实现测试通过
  • 至少一条真实调用链路被核查

3.2 任务 B灰度 / 回滚 runbook

OwnerPM -> TechLead -> DevOps(必要时) -> QA

交付物:

  • 可执行 runbook
  • 灰度步骤
  • 回滚步骤
  • 失败判定与止损条件

完成标准:

  • 至少有“上线前检查 / 灰度观察 / 失败回滚 / 回滚后确认”四段
  • 每一步有明确负责人和触发条件
  • 能直接用于演练

验证方式:

  • 文档审查通过
  • 至少一次桌面演练或脚本化验证

3.3 任务 C观测与上线后巡检门禁

OwnerTechLead -> Engineer -> QA -> DevOps(必要时)

交付物:

  • 指标清单
  • 告警清单
  • 巡检清单
  • 上线后 24h / 72h 检查项

完成标准:

  • 关键链路有最小指标面
  • 有异常时的止损与升级路径
  • 巡检项与回滚条件挂钩

验证方式:

  • 代码 / 配置 / 文档一致
  • QA 核查指标是否真的接入

4. 执行顺序

  1. PM 定义三项的业务/运营口径
  2. TechLead 转成文件级设计与任务拆解
  3. QA 做设计审查,确认可进入实现
  4. Engineer 落地实现与测试
  5. QA 做实现后审查与漂移检测
  6. XL 汇总,更新上线结论

5. 明确禁止的错误结论

  • 不得把“已有证据包”当成“已经可上线”
  • 不得把“有 runbook 草稿”当成“可执行 runbook”
  • 不得把“已有 metrics 文件”当成“观测已接入”
  • 不得把“系统能跑”当成“上线条件已满足”

6. 当前下一步

立即进入任务 A 的 PM/TechLead 拆解,然后并行推进任务 B / C 的设计。