大多数公司的做法(AI辅助):
效率提升10-20%,但结构没变
真正的AI优先:
重新设计流程、架构和组织,以AI为主要构建者。
核心问题转变:
关键警示:所谓的 "vibe coding"(打开Cursor,prompt到能跑就提交)只能出原型。生产系统需要稳定性、可靠性和安全性,你需要构建一套能在AI写代码时保证这些属性的系统。
💡 系统是你建的,prompt是一次性的。
PM花几周调研设计,agent两小时就能实现。PM需要进化成"产品型架构师",通过快速原型-发布-测试-迭代循环来设计。
agent两小时发布功能,QA团队花三天测边界情况。必须用AI构建的测试平台来测AI写的代码。
竞争对手有100倍以上的人做类似工作。25人不可能靠招人追平,只能靠重新设计。
自动扩展容器服务 + 断路器回滚,指标降级自动回退。CloudWatch是中枢神经系统,25+个告警,结构化日志,所有基础设施暴露可查询的信号。
6阶段流水线——每个PR都要过类型检查、lint、单元/集成测试、Docker构建、Playwright端到端测试、环境一致性检查。全部强制,无手动覆盖。
每个PR触发3个并行的Claude Opus 4.6审查:
🔒 这是审查门禁,不是建议。每天部署8次时,没人能对每个PR保持充分注意力。
Claude Sonnet 4.6查询CloudWatch,分析所有服务的错误模式,生成执行健康摘要发到Teams。
聚类CloudWatch和Sentry的生产错误,按9个严重性维度打分,自动在Linear生成调查工单,包含样本日志、受影响用户/端点、建议调查路径。
工程师推送修复,走同样的审查+CI+部署流程
部署后分类引擎重新检查,原始错误解决则自动关闭工单
♻️ 每个工具只负责一个阶段。日循环形成了自愈循环——错误被检测、分类、修复、验证,极少人工介入。
每个功能上线都有门控:先对团队开放→逐步百分比发布→全量或砍掉。有问题几小时内就能关掉。A/B测试也走同一套系统。
合并队列自动rebase到main、重跑CI、全绿才合并。Stacked PR支持高吞吐增量审查。
报告结构化异常,与CloudWatch合并供分类引擎交叉分析。
自动创建的工单带严重性评分、样本日志和建议调查路径。
架构师定义结构化prompt → agent分解任务、写代码、生成测试 → PR开启+3轮Claude审查+人工审查战略风险 → CI验证 → Graphite合并队列 → 6阶段部署 → 功能门控逐步开放 → 可随时砍掉
CloudWatch/Sentry检测错误 → Claude分类引擎打分+创建Linear工单 → 工程师验证并推修复 → 同样的审查+CI+部署+监控 → 分类引擎重新验证,解决则自动关闭工单
🎯 两条路径用同一套流水线,一个系统,一个标准。
关键成果:
💡 不是因为牺牲质量换速度,而是反馈循环更紧了——每天发布比每月发布学到的更多。
设计标准操作流程教AI工作,构建测试基础设施、集成系统、分类系统,决定架构和系统边界,定义对agent来说什么是"好"。
核心能力:深度批判性思维——质疑AI而不是跟随。
关键问题:漏了什么失败模式?跨了什么安全边界?积累了什么技术债?
最难招的角色,也是最有价值的。
AI给人类分配任务。分类系统发现bug、创建工单、呈现诊断、分配给对的人。人做调查、验证、批准修复。
任务类型:bug调查、UI优化、CSS改进、PR审查、验证等
要求:需要技能和注意力,但不需要旧模式要求的架构推理。
| 角色 | 适应性 | 原因 |
|---|---|---|
| 初级工程师 | ✅ 快 | 没那么多传统包袱要抛弃,被工具放大了影响力 |
| 高级工程师 | ❌ 慢 | 两个月工作量AI一小时完成,稀有技能变得不太值钱,很难接受 |
核心洞察:批评AI的能力比产出代码的能力更有价值。作者有物理学PhD,他说PhD最有用的就是学会了质疑假设、压力测试论证、寻找缺失的东西。