From b6fbc8c5cbdaea9122cd730975e4244714d08eb1 Mon Sep 17 00:00:00 2001 From: phamnazage-jpg Date: Fri, 22 May 2026 07:33:52 +0800 Subject: [PATCH] docs: update plan catalog inventory and capability backlog - PLAN_CATALOG_INVENTORY.md: refresh plan catalog data - OPENCLAW_CAPABILITY_BACKLOG.md: update backlog status - plan_catalog_inventory_seed_cn_relays_top20plus.json: update seed data --- docs/PLAN_CATALOG_INVENTORY.md | 22 +- .../openclaw/OPENCLAW_CAPABILITY_BACKLOG.md | 244 +++++++++++------- ...og_inventory_seed_cn_relays_top20plus.json | 10 +- 3 files changed, 167 insertions(+), 109 deletions(-) diff --git a/docs/PLAN_CATALOG_INVENTORY.md b/docs/PLAN_CATALOG_INVENTORY.md index 36f679c..e07bbc4 100644 --- a/docs/PLAN_CATALOG_INVENTORY.md +++ b/docs/PLAN_CATALOG_INVENTORY.md @@ -209,12 +209,13 @@ 3. `import_siliconflow_pricing.go` 4. `import_ppio_pricing.go` 5. `import_ucloud_pricing.go` -6. `import_cloudflare_pricing.go` -7. `import_perplexity_pricing.go` -8. `import_vertex_pricing.go` -9. `import_bedrock_pricing.go` -10. `import_azure_openai_pricing.go` -11. `import_minimax_subscription.go` +6. `import_coreshub_pricing.go` +7. `import_cloudflare_pricing.go` +8. `import_perplexity_pricing.go` +9. `import_vertex_pricing.go` +10. `import_bedrock_pricing.go` +11. `import_azure_openai_pricing.go` +12. `import_minimax_subscription.go` 这些平台统一按 `pay_as_you_go -> region_pricing` 处理,直接抓取官方公开模型价格,不再停留在 `future_official_pricing`。 其中 `SiliconFlow` 当前优先尝试官方价格入口;若入口返回站点落地页或临时不可用,则回退到仓库内最近核验的官方快照,避免日跑流水线因前端路由问题中断。 @@ -227,8 +228,7 @@ 下一步建议优先级: -1. `QingCloud / CoresHub` -2. `火山方舟按量模型价格官方页` -3. `华为云 MaaS 按量模型价格页` -4. `移动云更细颗粒度的模型 API 价格` -5. `联通云更细颗粒度的模型 API 价格` +1. `火山方舟按量模型价格官方页` +2. `华为云 MaaS 按量模型价格页` +3. `移动云更细颗粒度的模型 API 价格` +4. `联通云更细颗粒度的模型 API 价格` diff --git a/reports/openclaw/OPENCLAW_CAPABILITY_BACKLOG.md b/reports/openclaw/OPENCLAW_CAPABILITY_BACKLOG.md index 57a827c..35327af 100644 --- a/reports/openclaw/OPENCLAW_CAPABILITY_BACKLOG.md +++ b/reports/openclaw/OPENCLAW_CAPABILITY_BACKLOG.md @@ -10,132 +10,190 @@ --- -## 当前未修复问题速查表(截至 2026-05-15 21:31) +## 当前未修复问题速查表(截至 2026-05-20 21:30) | # | 问题 | 优先级 | 首次暴露 | 修复状态 | 影响次数 | |---|------|--------|----------|----------|----------| -| 1 | 验证器 `rg` 依赖误报 | P0 | 05-07 22:50 | ✅ **已修复**(05-10 14:30 确认 `grep` 替换完成) | 10 次 | -| 2 | 验证器退出码设计 | P0 | 05-07 22:50 | ⚠️ 部分(`rg` 误报消除,但三级状态仍未实现) | 10 次 | -| 3 | session 历史工具/业务错误区分 | P1 | 05-07 22:50 | ❌ 未修复 | 11 次 | -| 4 | cron 无主动状态报告机制 | P1 | 05-07 22:50 | ❌ 未修复 | 11 次 | -| 5 | subagent spawn 未传递 workspace | P1 | 05-07 22:50 | ❌ 未修复 | 11 次 | -| 6 | 验收脚本无法检测构建 | P1 | 05-08 09:05 | ❌ 未修复 | 10 次 | -| 7 | 环境变量/API Key 缺失未自动检测 | P1 | 05-08 09:05 | ⚠️ 部分(已写入 review 标准步骤,但未固化到 prompt) | 11 次 | -| 8 | 文件修改后未触发 commit 提示 | P2→P1 | 05-08 09:05 | ❌ 未修复 | 12 次 | -| 9 | cron review 无 delta 时空转 | P1 | 05-08 09:12 | ❌ 未修复 | 12 次 | -| 10 | 验证模式伪进展(artifact_present 局限) | P1 | 05-08 14:30 | ❌ 未修复 | 9 次 | -| 11 | **项目提交停滞(commit stagnation)** | **P0** | **05-08 21:30** | **❌ 未修复(虽有新 commit,但工作区长期非干净问题仍在)** | **14 次** | -| 12 | review 报告未触发修复动作 | P2→P1 | 05-08 21:30 | ❌ 未修复 | 9 次 | -| 13 | BACKLOG 文件膨胀导致 review 成本递增 | P1 | 05-09 09:30 | ⚠️ 部分(已实施分层归档,但主文件仍在增长) | 7 次 | -| 14 | **untracked 核心代码未入版本控制** | **P0** | **05-10 21:30** | **❌ 未修复(本轮仍有大量 untracked 文件)** | **10 次** | -| 15 | **CI 配置存在但未验证运行** | **P1** | **05-10 21:30** | **✅ 已修复(05-14 16:23 已补齐 `.github/workflows/ci.yml` 且 `verify_phase5.sh` PASS)** | **8 次** | -| 16 | **Phase 6+ 范围未定义** | **P1** | **05-10 21:30** | **❌ 未修复** | **5 次** | -| 17 | collection_stats vs collector_stats 表名不一致 | P2 | 05-11 09:30 | ✅ **已澄清为误报**(05-11 14:30 确认 verify_phase2.sh 与 schema 一致) | 1 次 | -| 18 | **无 .gitignore 文件** | **P1** | **05-11 14:30** | **❌ 未修复** | **3 次** | -| 19 | **review 误报传播** | **P1** | **05-11 14:30** | **❌ 未修复** | **7 次** | -| 20 | **untracked 文件统计遗漏** | **P1** | **05-11 14:30** | **❌ 未修复** | **5 次** | -| 21 | **验收脚本瞬时回归缺少稳定性标记** | **P1** | **05-12 22:46** | **❌ 未修复(仍缺 transient / repeated / reproducible 标记)** | **5 次** | -| 22 | **无 delta 场景缺少老化风险优先策略** | **P2** | **05-12 22:46** | **❌ 未修复** | **3 次** | -| 23 | **日报归档路径门禁失配** | **P0** | **05-13 00:15** | **✅ 已复核(05-14 16:23 再验证未复现,`verify_phase3.sh` PASS)** | **1 次** | -| 24 | **综合验收错误聚合误导根因判断** | **P1** | **05-13 00:15** | **❌ 未修复** | **3 次** | -| 25 | **snapshot truth 与 current truth 漂移未被显式提示** | **P1** | **05-14 09:31** | **❌ 未修复** | **5 次** | -| 26 | **Phase 6 稳定性门禁失败缺少样本窗口摘要** | **P1** | **05-14 15:10** | **❌ 未修复** | **4 次** | -| 27 | **Phase 6 稳定性门禁未区分前置条件缺失 vs 真实采集失败** | **P1** | **05-14 21:30** | **❌ 未修复** | **3 次** | -| 28 | **脚本型 Go 仓库缺少可测试入口发现能力** | **P1** | **05-15 15:11** | **❌ 未修复** | **2 次** | -| 29 | **长命令部分回传时缺少保守结论模板** | **P1** | **05-15 21:31** | **❌ 未修复** | **1 次** | +| 1 | 验证器退出码设计 | P0 | 05-07 22:50 | ⚠️ 部分(`rg` 误报已消除,但三级状态仍未实现) | 11 次 | +| 2 | session 历史工具/业务错误区分 | P1 | 05-07 22:50 | ❌ 未修复 | 12 次 | +| 3 | cron 无主动状态报告机制 | P1 | 05-07 22:50 | ❌ 未修复 | 12 次 | +| 4 | subagent spawn 未传递 workspace | P1 | 05-07 22:50 | ❌ 未修复 | 12 次 | +| 5 | 验收脚本无法检测构建 | P1 | 05-08 09:05 | ❌ 未修复 | 11 次 | +| 6 | 环境变量/API Key 缺失未自动检测 | P1 | 05-08 09:05 | ⚠️ 部分(脚本已有分类,但 review prompt 仍未强制把前置条件失败与代码失败分层叙述) | 12 次 | +| 7 | 文件修改后未触发 commit 提示 | P2→P1 | 05-08 09:05 | ❌ 未修复 | 14 次 | +| 8 | cron review 无 delta 时空转 | P1 | 05-08 09:12 | ❌ 未修复 | 13 次 | +| 9 | 验证模式伪进展(artifact_present 局限) | P1 | 05-08 14:30 | ❌ 未修复 | 10 次 | +| 10 | 项目提交停滞(commit stagnation) | P0 | 05-08 21:30 | ⚠️ 重新活跃(工作区变更量已增至 19 文件 +933 行,核心组件改动未入版本控制) | 21 次 | +| 11 | review 报告未触发修复动作 | P2→P1 | 05-08 21:30 | ❌ 未修复 | 10 次 | +| 12 | BACKLOG 文件膨胀导致 review 成本递增 | P1 | 05-09 09:30 | ⚠️ 部分(已分层归档,但 current 表仍持续膨胀) | 8 次 | +| 13 | untracked 核心代码未入版本控制 | P0 | 05-10 21:30 | ⚠️ 重新活跃(CoreHub 相关未跟踪代码已缓解,但仍有长期未治理的非业务 untracked 项) | 13 次 | +| 14 | Phase 6+ 范围未定义 | P1 | 05-10 21:30 | ❌ 未修复 | 6 次 | +| 15 | review 误报传播 | P1 | 05-11 14:30 | ❌ 未修复 | 10 次 | +| 16 | untracked 文件统计遗漏 | P1 | 05-11 14:30 | ⚠️ 部分(本轮已更精确核对 git status,但能力未固化) | 6 次 | +| 17 | 验收脚本瞬时回归缺少稳定性标记 | P1 | 05-12 22:46 | ⚠️ 部分(已有 precondition / collector / unknown 分类,但 release 语义仍不足) | 6 次 | +| 18 | 无 delta 场景缺少老化风险优先策略 | P2 | 05-12 22:46 | ❌ 未修复 | 7 次 | +| 19 | 综合验收错误聚合误导根因判断 | P1 | 05-13 00:15 | ❌ 未修复 | 5 次 | +| 20 | snapshot truth 与 current truth 漂移未被显式提示 | P1 | 05-14 09:31 | ❌ 未修复 | 6 次 | +| 21 | Phase 6 稳定性门禁失败缺少样本窗口摘要 | P1 | 05-14 15:10 | ✅ 已修复(当前输出已含 window_size / success_rate / 样本明细) | 5 次 | +| 22 | Phase 6 稳定性门禁未区分前置条件缺失 vs 真实采集失败 | P1 | 05-14 21:30 | ⚠️ 部分(脚本已输出分类,但 review 与 release 解释层仍不足) | 8 次 | +| 23 | 脚本型 Go 仓库缺少可测试入口发现能力 | P1 | 05-15 15:11 | ⚠️ 部分(本轮已优先使用仓库声明入口,但仍依赖 reviewer 主动判断) | 4 次 | +| 24 | 长命令部分回传时缺少保守结论模板 | P1 | 05-15 21:31 | ⚠️ 部分(本轮通过 process 拿到完整输出,但策略尚未固化) | 2 次 | +| 25 | backlog current truth 老化未自动撤销 | P2 | 05-16 09:30 | ❌ 未修复 | 2 次 | +| 26 | 外部 provider 失败与主链路失败聚合过粗 | P1 | 05-16 09:30 | ❌ 未修复 | 6 次 | +| 27 | 稳定性窗口虽已分类但缺 release 级解释语义 | P1 | 05-16 09:30 | ❌ 未修复 | 7 次 | +| 28 | 新增导入器缺少进入综合验收前的 smoke gate | P0 | 05-16 15:10 | ✅ 已缓解(仓库已存在 `verify_importer_smoke.sh`,且持续通过) | 4 次 | +| 29 | 同日 review blocker 切换缺少自动老化提醒 | P1 | 05-16 15:10 | ❌ 未修复 | 2 次 | +| 30 | 历史 precondition 样本持续老化拖低 release 成功率 | P1 | 05-17 09:31 | ❌ 未修复 | 6 次 | +| 31 | 同日无主结论 delta 时缺少风险老化优先策略 | P2 | 05-17 15:10 | ❌ 未修复 | 3 次 | +| 32 | 同日 blocker 切换后 backlog current truth 缺少 freshness 提示 | P1 | 05-17 21:30 | ❌ 未修复 | 2 次 | +| 33 | 已证伪 blocker 缺少自动降级/撤销机制 | P1 | 05-18 09:30 | ❌ 未修复 | 2 次 | +| 34 | 局部 smoke 已通过后缺少全局 blocker 切换提示 | P1 | 05-18 15:10 | ❌ 未修复 | 1 次 | +| 35 | smoke gate 测试脚本老化未跟上 runtime truth | P1 | 05-19 09:32 | ❌ 未修复 | 5 次 | +| 36 | 稳定性窗口持续回落(85.71% → 71.43%) | P1 | 05-20 21:06 | ⚠️ 已回升(本轮窗口从 71.43% 回到 85.71%,precondition_missing 从 2 降回 1) | 2 次 | --- ## Review 日志 -### 2026-05-15 21:31(第 25 次 review,night-review) +### 2026-05-20 21:30(第 37 次 review,night-review cron) -> **前置说明**:距上一次 review(05-15 15:11)约 **6 小时 18 分钟**。本轮没有拿到足够新证据去推翻 afternoon 的主判断:Phase 1~5 当前仍 PASS,但 Phase 6 不能在证据不足的情况下直接改写成 PASS。与此同时,工作区持续堆积 tracked/untracked 变更而最新 commit 未前进,说明版本化收口继续老化。 +> **前置说明**:距上一次 review(05-20 21:06)约 **24 分钟**。本轮属于"有 runtime delta 但无主结论 delta":最新 commit 仍未变化、working tree 仍脏且变更量略有增长(+933/-240 vs +900/-247),`verify_phase6.sh` 的 live blocker 继续是 Perplexity 外部文档签名校验超时。关键 delta:稳定性窗口从 `71.43%` 回升到 `85.71%`,precondition_missing 从 2 降回 1。 #### 本次新增发现 -- **Phase 1~5 当前继续 PASS**:`verify_pre_phase6.sh` 本轮再次完整通过。 -- **night 时点无证据证明主 blocker 已消失**:`verify_phase6.sh` 本轮只回传到前半段 PASS,未拿到完整结束输出,因此不能把历史活跃 blocker 直接宣告解除。 -- **工作区非干净风险继续老化**:tracked 修改和 untracked 新文件仍然很多,但最近提交未前进。 -- **仓库已明确给出推荐验证入口**:`Makefile`、`README.md`、`scripts/verify_phase*.sh` 都提供了更可信入口,说明 agent 默认策略需要更主动地发现这些入口。 +- **稳定性窗口回升**:本轮 `verify_phase6.sh` 输出 `success_count=6 failure_count=1 success_rate=85.71`,较 21:06 的 71.43% 有所改善。原因是本轮 review 触发的新一次 verify 运行产生了最新成功样本(`2026-05-20 21:33:29`),滚动窗口替换掉一个旧失败样本。 +- **当前 Phase 6 继续 FAIL,主 live blocker 未变化**:`live_run_result=FAIL` 仍由 `perplexity_pricing_signature_guard` 拉取 `https://docs.perplexity.ai/docs/agent-api/models.md` 超时触发。 +- **新增导入器 smoke gate 继续通过**:`coreshub-fixture`、`coreshub-live`、`ctyun-fixture`、`ctyun-live` 全部 PASS。 +- **工作区变更量略有增长**:+933/-240 行 vs 上轮 +900/-247 行,19 文件仍未提交。 +- **smoke gate 测试脚本老化仍未消除**:`importer_smoke_gate_test.sh` 仍断言 ctyun live smoke 应失败,与 runtime 冲突持续(同问题 35)。 -#### 问题 28(P1,再次确认):脚本型 Go 仓库缺少可测试入口发现能力 +#### 问题 36 状态更新:稳定性窗口回升 -- **21:31 状态**:本轮继续确认本仓库的可信入口是 `verify_pre_phase6` / `verify_phase6` / `run_daily.sh` 等项目脚本,而不是通用语言惯性命令。 -- **问题影响**: - - reviewer 或 agent 若先跑错误入口,会得到假阴性或低价值结果 - - review 成本上升,因为需要再次回到仓库声明的真实入口 - - 同类脚本型仓库会重复暴露相同问题 -- **优化建议**: - 1. review/verification 默认先搜 `Makefile`、verify 脚本、README 中的“常用命令/门禁入口” - 2. 若仓库显式声明入口,优先使用声明入口而不是语言通用命令 - 3. 将“入口不适配”与“测试失败”分开标注 +- **21:30 状态**:窗口从 71.43% 回到 85.71%,与 05-19 各轮一致。21:06 的 71.43% 是短期波动而非持续恶化趋势。 +- **问题影响**:窗口门禁仍 FAIL(85.71% < 95%),但不再恶化;precondition_missing 样本回到 1 个。 +- **优化建议**:继续观察下轮是否稳定在 85.71% 或继续波动;若持续低于 95%,需考虑窗口策略调整(如排除 precondition_missing 类样本单独报告)。 - **优先级**:P1 -- **建议验证方法**:后续在脚本型 Go 仓库中,先读取 `Makefile`/README,再检查 agent 是否直接选择仓库声明入口,而不是默认 `go test ./...` +- **建议验证方法**:下轮 review 观察窗口成功率是否稳定或继续波动。 -#### 问题 29(P1):长命令部分回传时缺少保守结论模板 +#### 问题 10 持续活跃:项目提交停滞 -- **21:31 状态**:本轮 `verify_phase6.sh` 已回传多条 PASS,但未在当前对话拿到完整结束输出;如果没有明确模板,review 很容易在“部分好消息”下过度乐观,或反过来因为等待完整输出而卡死。 -- **问题影响**: - - 容易把“部分通过”错误表述为“全部通过” - - 也可能因为追求完整输出导致 cron review 超时 - - 对低频 review 任务尤其危险,因为一轮结论可能被后续长期复用 -- **优化建议**: - 1. 当长命令只返回部分输出时,模板强制要求写明 `partial runtime evidence` 与 `old blocker not disproven` - 2. 为 review 类 cron 任务增加“最小证据阈值”:超过阈值就允许先落保守结论,不必无限等待 - 3. 在 backlog / review 模板中增加“完整结束输出是否已获得”字段 -- **优先级**:P1 -- **建议验证方法**:在长命令故意延迟或只部分回传的场景下,检查 agent 是否能稳定写出“部分通过、旧 blocker 未证伪”的保守结论,而不是误报 PASS 或无期限阻塞 +- **21:30 状态**:工作区变更量从 +900 行增长到 +933 行,19 文件仍未提交。 +- **问题影响**:同 21:06 review;versioned truth 与 runtime truth 持续漂移,且漂移量在增大。 +- **优化建议**:同 21:06 review;尽快按逻辑拆分为 2~3 个 commit。 +- **优先级**:P0 +- **建议验证方法**:提交后检查 `git log --oneline` 出现新提交,`git diff --stat HEAD` 大幅收缩。 -### 2026-05-15 15:11(第 24 次 review,afternoon-review) +### 2026-05-20 21:06(第 36 次 review,morning-review cron) -> **前置说明**:距上一次 review(05-15 09:30)约 **5 小时 41 分钟**。本轮没有出现新的主 blocker,但稳定性窗口比 morning 更差:最新 7 条 `collector_stats` 中仅 **4 条成功、3 条失败**,成功率约 **57.14%**。3 条失败全部是 **严格真实模式缺 API Key**,说明 Phase 6 仍在被前置条件缺失污染,而且问题在老化。 +> **前置说明**:距上一次 review(05-19 21:30)约 **23.5 小时**。本轮有 runtime delta:稳定性窗口从 `85.71%` 回落到 `71.43%`,新增一次 precondition_missing 失败样本。工作区变更量显著增大(19 文件、+900 行),涉及 CoreHub 导入器全套实现、天翼云订阅库扩展、日报生成器改进、验证脚本增强等,但全部未提交收敛。 #### 本次新增发现 -- **Phase 1~5 当前继续 PASS**:`verify_pre_phase6.sh` 仍全绿,说明主链路与前置门禁未回退。 -- **Phase 6 唯一 live blocker 仍是稳定性门禁**:`verify_phase6.sh` 继续表现为 `pass=15 fail=1`。 -- **稳定性窗口较 morning 进一步恶化**:从 `5/7` 成功下降到 `4/7` 成功,不能再沿用上午窗口数字。 -- **失败样本仍全部指向前置条件缺失**:最近 3 条失败都为 `严格真实模式下必须提供 API Key`。 -- **通用 `go test ./scripts/...` 在本仓库给出假阴性**:命令返回 `matched no packages` / `no packages to test`,但仓库声明的 `verify_phase*.sh` 却能提供有效验证结果。 +- **稳定性窗口进一步回落**:`verify_phase6.sh` 输出 `success_count=5 failure_count=2 success_rate=71.43 threshold=95 precondition_missing=2`,相比上轮(6/7=85.71%)新增一次 precondition_missing 失败(`2026-05-20 08:00:01` 严格真实模式下未提供 API Key)。 +- **工作区变更量显著增大**:`git diff --stat HEAD` 显示 19 文件、+900/-247 行变更,涉及 CoreHub 导入器(`coreshub_pricing_lib.go` +81、`import_coreshub_pricing.go` +88、`import_coreshub_pricing_test.go` +64、`coreshub_pricing_sample.txt` +10)、天翼云订阅库(`ctyun_subscription_lib.go` +201)、日报生成器(`generate_daily_report.go` +78/-)、验证脚本(`verify_phase6.sh` +115/-)等核心组件。 +- **当前 Phase 6 继续 FAIL,主 live blocker 未变化**:`live_run_result=FAIL` 仍由 `perplexity_pricing_signature_guard` 外部超时触发。 +- **新增导入器 smoke gate 继续通过**:`coreshub-fixture`、`coreshub-live`、`ctyun-fixture`、`ctyun-live` 全部 PASS。 +- **smoke gate 测试脚本老化仍未消除**:`importer_smoke_gate_test.sh` 仍断言 ctyun live smoke 应失败,与 runtime 冲突持续。 -#### 问题 25(P1,再次确认):snapshot truth 与 current truth 漂移未被显式提示 +#### 问题 10 重新活跃:项目提交停滞(commit stagnation) -- **15:11 状态**:同日两次 review 的主 blocker 没变,但严重度已变化;如果 afternoon 不 live 复验,仍会沿用 morning 的 `5/7` 窗口,低估风险老化。 +- **21:06 状态**:工作区变更量已从"长期轻度漂移"升级为"19 文件 +900 行实质性核心改动未提交"。 - **问题影响**: - - 同日数小时内窗口数字会变化,旧结论若不失效会直接误导风险判断 - - backlog 和 follow-up 可能继续引用过时窗口,影响优先级排序 + - 大量核心组件改动(CoreHub 导入器、天翼云订阅库、日报生成器、验证脚本)未入版本控制,一旦工作区丢失则无法恢复 + - versioned truth 与 runtime truth 严重漂移,review/backlog 失真风险加剧 + - 新导入器代码已具备测试和 fixture,但不属于任何 commit,无法追溯 - **优化建议**: - 1. review 模板在涉及样本窗口时强制写“sample timestamp / sample size / sample freshness” - 2. 若当前窗口与上一轮数值不同,必须显式写出 `window changed` 或 `old sample expired` - 3. 对同日多次 review 的窗口漂移单独累计,而不是只记泛化的误报传播 -- **优先级**:P1 -- **建议验证方法**:后续若同日两次 review 的窗口成功率变化,检查新报告是否显式指出窗口已变化,而不是继续复用上一轮数字 + 1. 尽快按逻辑拆分为 2~3 个 commit(如 CoreHub 导入器、天翼云订阅库扩展、日报/验证改进) + 2. 在 review prompt 中增加"工作区变更量超过阈值时自动提升 commit 停滞优先级"的规则 + 3. 考虑在 cron review 中增加自动 commit 提醒或辅助 commit 功能 +- **优先级**:P0 +- **建议验证方法**:提交后检查 `git log --oneline` 出现新提交,`git diff --stat HEAD` 大幅收缩。 -#### 问题 27(P1,再次确认):Phase 6 稳定性门禁未区分前置条件缺失 vs 真实采集失败 +#### 问题 30 / 36 持续活跃:历史 precondition 样本持续老化 + 窗口回落 -- **15:11 状态**:最新 7 条样本中 3 条失败全部来自 `openrouter`,且错误一致为 `严格真实模式下必须提供 API Key`。 +- **21:06 状态**:precondition_missing 样本从 1 增至 2,窗口成功率从 85.71% 降至 71.43%。 - **问题影响**: - - 稳定性统计继续把环境/调度问题混进 collector 运行失败 - - review 读者可能误把 57.14% 成功率解读为采集器代码不稳定 - - 修复资源会被错误投向代码层,而不是运行环境/统计口径 + - 窗口门禁持续 FAIL,且失败样本在增长 + - 若继续叠加 precondition_missing 样本,窗口成功率会进一步下降 + - 历史纪律问题持续拖累 release 结论 - **优化建议**: - 1. 在 `verify_phase6.sh` 或其依赖查询中增加失败分类,至少区分 `precondition-missing`、`collector-runtime-failure`、`external-provider-failure` - 2. 对缺 API Key / 缺 DB 权限这类前置条件失败单独统计并显式展示 - 3. 输出中附最近 N 条失败样本摘要,避免只给一个成功率数字 + 1. 考虑为稳定性窗口增加"新鲜度"权重,降低历史 precondition 样本的影响 + 2. 或者在窗口计算中排除 precondition_missing 类样本,单独报告环境纪律问题 - **优先级**:P1 -- **建议验证方法**:制造一条缺 API Key 失败和一条真实采集失败,确认 Phase 6 输出能分别标记类别,并在 review 中直接映射到不同修复路径 +- **建议验证方法**:观察下轮 review 窗口成功率是否继续回落;若持续下降则需调整窗口策略。 -#### 问题 28(P1):脚本型 Go 仓库缺少可测试入口发现能力 +### 2026-05-19 21:30(第 35 次 review,night-review) -- **15:11 状态**:本轮尝试常见 Go 测试入口 `go test ./scripts/...`,结果为 `matched no packages` / `no packages to test`;但仓库真实可执行门禁位于 `Makefile` 和 `scripts/verify_phase*.sh`。 +> **前置说明**:距上一次 review(05-19 15:10)约 **6 小时 20 分钟**。本轮属于"有现场变更但无主结论 delta":最新 commit 仍未变化、working tree 仍脏,`verify_phase6.sh` 的 live blocker 继续是 Perplexity 外部文档签名校验超时,稳定性窗口也继续停在 `85.71% FAIL`。 + +#### 本次新增发现 + +- **当前 Phase 6 继续 FAIL,主 live blocker 未变化**:`verify_phase6.sh` 再次完整输出 `PHASE_RESULT: FAIL`,其中 `live_run_result=FAIL` 仍由 `perplexity_pricing_signature_guard` 拉取 `https://docs.perplexity.ai/docs/agent-api/models.md` 超时触发。 +- **新增导入器 smoke gate 继续不是当前 blocker**:`coreshub-fixture`、`coreshub-live`、`ctyun-fixture`、`ctyun-live` 全部通过,`importer_smoke_gate_result=PASS`。 +- **稳定性窗口继续 FAIL,但失败仍不是采集器运行时失败**:最近 7 次样本维持 `success_count=6 failure_count=1 success_rate=85.71 threshold=95 precondition_missing=1 external_provider_failure=0 collector_runtime_failure=0 unknown_failure=0`,说明 release 结论仍持续受历史前置条件纪律影响。 +- **测试脚本与 runtime truth 冲突仍未消除**:`scripts/importer_smoke_gate_test.sh` 依然断言"当前 live ctyun smoke 应失败",与本轮 `ctyun-live` PASS 继续冲突。 +- **night 相对 afternoon 无主结论 delta**:最新 commit 未变化,主 blocker 未切换,窗口门禁口径也未变化;当前更该关注风险老化与未提交变更,而不是重复全量完成项。 + +#### 问题 18 / 31 持续活跃:无 delta 场景缺少老化风险优先策略 + +- **21:30 状态**:本轮相对 15:10 没有新的主 blocker,也没有新的通过证据;但 review 仍需要重复大部分相同检查,系统不会自动把重点切换到"风险老化、未提交变更、未验证项持续存在"。 - **问题影响**: - - agent 若按通用语言惯性选命令,会得到假阴性,误判仓库“不可测试”或“测试失败” - - review 成本上升,因为需要人工再纠正到项目自定义验证入口 - - 跨项目迁移时,这类误用会持续产生噪声 + - 高频 review 容易机械重复完成项清单,降低信息密度 + - 读者不容易一眼看到"night 相对 afternoon 其实无主结论 delta" + - 会弱化 review 对长期未收敛风险的追踪能力 - **优化建议**: - 1. 在 OpenClaw review/verification 流程中优先发现并使用 `Makefile`、`package.json scripts`、仓库显式 verify 脚本,而不是默认语言通用命令 - 2. 若检测到 `go test ./...` 或其子路径返回 `no packages to test`,应把它标记为“入口不适配”而非“测试失败” - 3. 在 review 模板中增加一条“验证入口发现结果”,明确当前仓库推荐的最小可信命令 + 1. 在 review prompt 或模板中增加更强的 delta gate:相对上一轮无主结论变化时,强制输出"无 delta"并把重点转向风险老化与未提交变更 + 2. 在 backlog current 表中为持续性 blocker 增加 `last_reverified_at` / `current_as_of` 语义,减少重复展开背景 + 3. 对同日多轮 review 默认生成"变化摘要"而不是重复全量完成项,除非 blocker 真正切换 +- **优先级**:P2 +- **建议验证方法**:构造同一天两次 review 现场与 runtime 结论基本一致的场景,检查新模板是否会自动突出"无 delta、重点看风险老化/工作区收敛"。 + +### 2026-05-19 15:10(第 34 次 review,afternoon-review) + +> **前置说明**:距上一次 review(05-19 09:32)约 **5 小时 38 分钟**。本轮基本属于"有现场变更但无主结论 delta":最新 commit 仍未变化、working tree 仍脏,`verify_phase6.sh` 的 live blocker 继续是 Perplexity 外部文档签名校验超时,稳定性窗口也继续停在 `85.71% FAIL`。 + +#### 本次新增发现 + +- **当前 Phase 6 继续 FAIL,主 live blocker 未变化**:`verify_phase6.sh` 再次完整输出 `PHASE_RESULT: FAIL`,其中 `live_run_result=FAIL` 仍由 `perplexity_pricing_signature_guard` 拉取 `https://docs.perplexity.ai/docs/agent-api/models.md` 超时触发。 +- **新增导入器 smoke gate 继续不是当前 blocker**:`coreshub-fixture`、`coreshub-live`、`ctyun-fixture`、`ctyun-live` 全部通过,`importer_smoke_gate_result=PASS`。 +- **稳定性窗口继续 FAIL,但失败仍不是采集器运行时失败**:最近 7 次样本维持 `success_count=6 failure_count=1 success_rate=85.71 threshold=95 precondition_missing=1 external_provider_failure=0 collector_runtime_failure=0 unknown_failure=0`,说明 release 结论仍持续受历史前置条件纪律影响。 +- **同日 afternoon 相对 morning 无主结论 delta**:最新 commit 未变化,主 blocker 未切换,窗口门禁口径也未变化;当前更该关注风险老化与未提交变更,而不是重复全量完成项。 + +#### 问题 18 / 31 持续活跃:无 delta 场景缺少老化风险优先策略 + +- **15:10 状态**:本轮相对 09:32 没有新的主 blocker,也没有新的通过证据;但 review 仍需要重复大部分相同检查,系统不会自动把重点切换到"风险老化、未提交变更、未验证项持续存在"。 +- **问题影响**: + - 高频 review 容易机械重复完成项清单,降低信息密度 + - 读者不容易一眼看到"下午相对早上其实无主结论 delta" + - 会弱化 review 对长期未收敛风险的追踪能力 +- **优化建议**: + 1. 在 review prompt 或模板中增加更强的 delta gate:相对上一轮无主结论变化时,强制输出"无 delta"并把重点转向风险老化与未提交变更 + 2. 在 backlog current 表中为持续性 blocker 增加 `last_reverified_at` / `current_as_of` 语义,减少重复展开背景 + 3. 对同日多轮 review 默认生成"变化摘要"而不是重复全量完成项,除非 blocker 真正切换 +- **优先级**:P2 +- **建议验证方法**:构造同一天两次 review 现场与 runtime 结论基本一致的场景,检查新模板是否会自动突出"无 delta、重点看风险老化/工作区收敛"。 + +### 2026-05-19 09:32(第 33 次 review,morning-review) + +> **前置说明**:距上一次 review(05-18 21:32)约 **12 小时**。本轮不是"无 delta":最新 commit 仍未变化、working tree 仍脏;runtime 上当前 live blocker 也未切换,仍是 Perplexity 外部文档签名校验超时,但稳定性窗口从昨晚 `100% PASS` 回落到 `85.71% FAIL`,且唯一失败类型继续是 `precondition_missing_only`。 + +#### 本次新增发现 + +- **当前 Phase 6 继续 FAIL,主 live blocker 未变化**:`verify_phase6.sh` 再次完整输出 `PHASE_RESULT: FAIL`,其中 `live_run_result=FAIL` 仍由 `perplexity_pricing_signature_guard` 拉取 `https://docs.perplexity.ai/docs/agent-api/models.md` 超时触发。 +- **新增导入器 smoke gate 已明确不是当前 blocker**:`coreshub-fixture`、`coreshub-live`、`ctyun-fixture`、`ctyun-live` 全部通过,`importer_smoke_gate_result=PASS`。 +- **稳定性窗口再次回落,但失败仍不是采集器运行时失败**:最近 7 次样本为 `success_count=6 failure_count=1 success_rate=85.71 threshold=95 precondition_missing=1 external_provider_failure=0 collector_runtime_failure=0 unknown_failure=0`,说明 release 结论仍受历史前置条件纪律影响。 +- **smoke gate 测试脚本已与当前 runtime truth 冲突**:`scripts/importer_smoke_gate_test.sh` 仍写着 `expected current live ctyun smoke to fail before full gate`,并断言 `ctyun-live` 应 FAIL;但本轮真实 `verify_phase6.sh` 中 `ctyun-live` 已 PASS。 + +#### 问题 35(P1):smoke gate 测试脚本老化未跟上 runtime truth + +- **09:32 状态**:`scripts/importer_smoke_gate_test.sh` 仍把"ctyun live smoke 应失败"当作当前预期,而本轮 runtime 已直接证实 `ctyun-live` PASS。 +- **问题影响**: + - 测试脚本会传播已失效 blocker,削弱 smoke gate 验证本身的可信度 + - reviewer 容易把过时测试预期误当 current truth + - 会让"导入器 smoke gate 已准入"与"测试仍宣称应失败"同时存在,制造文档/实现/验证三层冲突 +- **优化建议**: + 1. 立即更新 `importer_smoke_gate_test.sh` 断言,使其反映当前 smoke gate 真实行为 + 2. 为这类"当前预期"测试增加 `last_reverified_at` 或显式注释,避免历史临时预期长期固化 + 3. 在 review 模板中加入"测试脚本是否仍与当前 runtime truth 一致"的检查项 - **优先级**:P1 -- **建议验证方法**:在至少一个脚本型 Go 仓库中复现 `no packages to test`,确认 agent 最终能回退到项目声明的 verify 脚本,并把错误类型归为入口不适配 +- **建议验证方法**:修正脚本后运行该测试与 `verify_phase6.sh`;确认脚本断言与当前 smoke gate 输出一致,不再要求 `ctyun-live` 失败。 diff --git a/seeds/plan_catalog_inventory_seed_cn_relays_top20plus.json b/seeds/plan_catalog_inventory_seed_cn_relays_top20plus.json index 879d482..7d2b805 100644 --- a/seeds/plan_catalog_inventory_seed_cn_relays_top20plus.json +++ b/seeds/plan_catalog_inventory_seed_cn_relays_top20plus.json @@ -685,7 +685,7 @@ "operatorName": "CoresHub", "operatorNameCn": "CoresHub", "operatorCountry": "CN", - "operatorWebsite": "https://www.qingcloud.com", + "operatorWebsite": "https://www.qingcloud.com/products/coreshub", "operatorType": "cloud", "platformName": "CoresHub", "platformNameCn": "基石智算 CoresHub", @@ -693,13 +693,13 @@ "planFamily": "pay_as_you_go", "planStatus": "confirmed", "sourceKind": "official_product_page", - "sourceURL": "https://www.qingcloud.com/products/coreshub", - "sourceTitle": "CoresHub", + "sourceURL": "https://docs.coreshub.cn/console/big_model_server/introduce/model_choose", + "sourceTitle": "在线服务模型价格", "region": "CN", "currency": "CNY", "billingCycle": "usage", - "importerKey": "import_catalog_seed_verification.go", - "notes": "青云基石智算模型服务入口。", + "importerKey": "import_coreshub_pricing.go", + "notes": "青云基石智算官方模型价格页,当前已升级为真实按量价格 importer。", "catalogSegment": "relay_top20plus", "marketRank": 19 },