为什么你的"AI优先"策略大概率是错的

CREAO 创始人 Peter Pang

📖 167万阅读量 | 🚀 25人团队 | 💻 99%代码由AI编写

核心观点:让99%的生产代码由AI编写,彻底重构工程流程

🎯 一、AI辅助 ≠ AI优先

大多数公司的做法(AI辅助):

效率提升10-20%,但结构没变

真正的AI优先:

重新设计流程、架构和组织,以AI为主要构建者。

核心问题转变:

关键警示:所谓的 "vibe coding"(打开Cursor,prompt到能跑就提交)只能出原型。生产系统需要稳定性、可靠性和安全性,你需要构建一套能在AI写代码时保证这些属性的系统。

💡 系统是你建的,prompt是一次性的。

⚠️ 二、不得不变的三个瓶颈

🔹 产品管理瓶颈

PM花几周调研设计,agent两小时就能实现。PM需要进化成"产品型架构师",通过快速原型-发布-测试-迭代循环来设计。

🔹 QA瓶颈

agent两小时发布功能,QA团队花三天测边界情况。必须用AI构建的测试平台来测AI写的代码。

🔹 人力瓶颈

竞争对手有100倍以上的人做类似工作。25人不可能靠招人追平,只能靠重新设计。

📦 三、统一架构:合并成单体仓库

旧架构的问题:

新架构的优势:

⚡ 把越多系统拉进agent能检查、验证和修改的形式,杠杆就越大。

🔧 四、完整技术栈

🏗️ 基础设施(AWS)

自动扩展容器服务 + 断路器回滚,指标降级自动回退。CloudWatch是中枢神经系统,25+个告警,结构化日志,所有基础设施暴露可查询的信号。

🔄 CI/CD(GitHub Actions)

6阶段流水线——每个PR都要过类型检查、lint、单元/集成测试、Docker构建、Playwright端到端测试、环境一致性检查。全部强制,无手动覆盖。

验证 CI → 构建 Dev → 测试 Dev → 部署 Prod → 测试 Prod → 发布
🤖 AI代码审查(Claude)

每个PR触发3个并行的Claude Opus 4.6审查:

  • 第一轮:代码质量(逻辑错误、性能、可维护性)
  • 第二轮:安全(漏洞扫描、认证边界、注入风险)
  • 第三轮:依赖(供应链风险、版本冲突、许可证问题)

🔒 这是审查门禁,不是建议。每天部署8次时,没人能对每个PR保持充分注意力。

🔄 五、自愈反馈循环(核心系统)

日循环流程:

🕒 UTC早上9点

Claude Sonnet 4.6查询CloudWatch,分析所有服务的错误模式,生成执行健康摘要发到Teams。

↓ 1小时后
🔍 分类引擎运行

聚类CloudWatch和Sentry的生产错误,按9个严重性维度打分,自动在Linear生成调查工单,包含样本日志、受影响用户/端点、建议调查路径。

👨‍💻 工程师修复

工程师推送修复,走同样的审查+CI+部署流程

✅ 自动验证

部署后分类引擎重新检查,原始错误解决则自动关闭工单

♻️ 每个工具只负责一个阶段。日循环形成了自愈循环——错误被检测、分类、修复、验证,极少人工介入。

🛠️ 六、功能开关和辅助工具

🎛️ Statsig(功能开关)

每个功能上线都有门控:先对团队开放→逐步百分比发布→全量或砍掉。有问题几小时内就能关掉。A/B测试也走同一套系统。

🔀 Graphite(PR分支)

合并队列自动rebase到main、重跑CI、全绿才合并。Stacked PR支持高吞吐增量审查。

🚨 Sentry(异常报告)

报告结构化异常,与CloudWatch合并供分类引擎交叉分析。

📋 Linear(人脸层)

自动创建的工单带严重性评分、样本日志和建议调查路径。

🛤️ 七、从想法到生产的两条路径

🆕 新功能路径:

架构师定义结构化prompt → agent分解任务、写代码、生成测试 → PR开启+3轮Claude审查+人工审查战略风险 → CI验证 → Graphite合并队列 → 6阶段部署 → 功能门控逐步开放 → 可随时砍掉

🐛 Bug修复路径:

CloudWatch/Sentry检测错误 → Claude分类引擎打分+创建Linear工单 → 工程师验证并推修复 → 同样的审查+CI+部署+监控 → 分类引擎重新验证,解决则自动关闭工单

🎯 两条路径用同一套流水线,一个系统,一个标准。

📈 八、成果

3-8 每天生产部署
14 天实现
0 两周发布

关键成果:

💡 不是因为牺牲质量换速度,而是反馈循环更紧了——每天发布比每月发布学到的更多。

👥 九、新的工程组织:两种工程师

🏛️ 架构师(1-2人)

设计标准操作流程教AI工作,构建测试基础设施、集成系统、分类系统,决定架构和系统边界,定义对agent来说什么是"好"。

核心能力:深度批判性思维——质疑AI而不是跟随。

关键问题:漏了什么失败模式?跨了什么安全边界?积累了什么技术债?

最难招的角色,也是最有价值的。

🎮 操作者(其他人)

AI给人类分配任务。分类系统发现bug、创建工单、呈现诊断、分配给对的人。人做调查、验证、批准修复。

任务类型:bug调查、UI优化、CSS改进、PR审查、验证等

要求:需要技能和注意力,但不需要旧模式要求的架构推理。

🎓 十、谁适应最快

🚀 出乎意料:初级工程师比高级工程师适应更快!
角色 适应性 原因
初级工程师 ✅ 快 没那么多传统包袱要抛弃,被工具放大了影响力
高级工程师 ❌ 慢 两个月工作量AI一小时完成,稀有技能变得不太值钱,很难接受

核心洞察:批评AI的能力比产出代码的能力更有价值。作者有物理学PhD,他说PhD最有用的就是学会了质疑假设、压力测试论证、寻找缺失的东西。