

新智元报谈
剪辑:元宇
【新智元导读】在OpenAI一项里面实验中,一个率先仅3东谈主的团队、5个月、从零到一造出「百万行代码居品」,莫得一排代码是东谈主类尺度员完成的,而不手工写代码,亦然该名堂的一条铁律。
这一次,东谈主类软件工程被「倒过来」作念了!
刚刚,OpenAI官博曝光了他们的一次里面实验:
一支率先3东谈主的工程师团队,垄断Codex智能体在5个月内从零造出了一个「百万行代码居品」。
在所有这个词历程中,东谈主类不写手工代码,而是把元气心灵汇集在「思明晰要什么、把轨则立起来」,其余的一切交给AI。
每东谈主每天平均能鼓舞3.5个PR(Pull Request,代码合并申请),而PR的实践方法(达成、测试、文档、CI竖立)全程由智能体代劳。
OpenAI为这套责任流赋予了一个特地形象的名字:「独揽工程(Harness Engineering)」。

https://openai.com/index/harness-engineering/
在实验里,尺度员不再是阿谁熬夜写Bug,再熬夜修Bug的「码农」,而是蓝本的「实践者」变为「独揽者」。
这不啻是10倍效果进步的「分娩力翻新」,而是一次对「软件工程」界说的颠覆,径直宣告了东谈主类「手工代码期间」的拆伙。
改变
从一个空的git仓库运转
此次实验从AI的第一次提走时转。
2025年8月下旬,当空仓库里落劣等一个commit(提交)时,它就照旧不是东谈主类写的——其时莫得任何既有东谈主类代码不错充任「锚点」。
更奇幻的:连阿谁用来指导AI若何干活的说明书AGENTS.md,初版亦然AI我方写的。
从第一天起,这个仓库便是由智能体塑造的。东谈主类不许写代码,成了这个名堂的一条不可跳动的铁律。
这不是为了偷懒,而是一种近乎自虐的「刻意进修」,唯有割断了东谈主类「切身上手」的退路,能力倒逼团队去破解阿谁在完满冷凌弃面况下构建代码的终极问题。
于是,这个3东谈主小团队(后膨胀到7东谈主),一下子好像成了拿着鞭子的牧羊东谈主,驱赶着一群不知疲顿的Codex智能体在代码草原上决骤。
截止令东谈主轰动:5个月,一百万行代码。
从头界说工程师的脚色
这项实验的早期发达,比OpenAI的探讨东谈主员预见得要慢。
不是因为Codex不能,而是因为环田地说得不够表露:智能体穷苦达成高层宗旨所需的器用、空洞和里面结构。
于是,OpenAI工程团队的主要责任酿成了一件事:让智能体有才略完成有价值的责任。
他们把大宗旨拆成更小的构建块(盘算、编码、评审、测试等),请示智能体把这些块搭起来,再用它们去解锁更复杂的任务。
当事情失败时,谜底简直从来不是「再试一次」,这里唯独的鼓舞形式便是让Codex去完成责任,东谈主类工程师平庸会退一步问我方:
到底缺了什么才略?若何把它变得对智能体既表露可见,又不错被强制实践?
所有这个词历程中,东谈主类简直完满通过请示词与系统交互:工程师描画任务,运行智能体,让它发起一个PR。
为了鼓舞PR完成,探讨东谈主员会让Codex在腹地自审转变,申请罕见的腹地和云表智能体评审,恢复东谈主类或智能体的响应,然后在一个轮回里不断迭代,直到所有智能体评审者齐惬意。
跟着时分推移,简直所有评审责任齐顶住给了「智能体对智能体」。
进步应用尺度的可读性
跟着代码微辞量的增多,OpenAI发现:AI编码的瓶颈酿成了东谈主工质料搜检(QA)的才略。
于是,东谈主类的时分和防护力成了实在的敛迹。
为了糟塌这一瓶颈,OpenAI的办法是让Codex梗概径直读取应用尺度的用户界面、日记以及应用方针等内容。
他们将Chrome DevTools契约接入了智能体运行时,并拓荒了处理DOM快照、截图和导航的手段。

于是,Codex不错我方复现bug、考据建设、推理UI算作。
OpenAI对可不雅测性器用也禁受了不异的作念法。
日记、方针、跟踪通过腹地可不雅测性栈浮现给Codex,何况对每个worktree(责任区)齐是梗阻、临时的环境。
任务完成后,这套环境就会被葬送。
{jz:field.toptypename/}智能体不错用LogQ查日记,用PromQL查方针。
于是,「确保职业启动在800ms内完成」或者「这四条关键用户旅途里莫得任何一个span高出两秒」这么的请示,就变得实在可实践。
作念了这些之后,OpenAI探讨东谈主员经常看到Codex一次运行一语气责任六个小时以上,平庸如故在东谈主类寝息的时刻。

给Codex一张舆图
而不是一册1000页的说明书
让智能体处理大型复杂任务时,险峻文照顾是最大的挑战之一。
OpenAI探讨东谈主员早期学到的一个简便训导便是:
给Codex一张舆图,而不是一册1000页的说明书。
一运转,团队试图写一个超大的AGENTS.md文献,把所有轨则、逻辑、防护事项齐塞进去。截止,这成了一场灾难。
因为AI的防护力亦然稀缺资源。
给它一册1000页的说明书,它会迷失在细节里,漏掉关键敛迹,或者把宗旨搞错。
而且,这种单体大文档吝惜起来简直是恶梦,很快就会酿成「腐化轨则的墓地」。
于是,团队马上养息战略,他们把AGENTS.md酿成了一张「寻宝舆图」。
这个文献唯有约莫100行,它不包含具体常识,仅仅一个目次,就像一个导航舆图,指向仓库深处更深层的确凿起首。
盘算文档被编目并索引,包括考据状况以及一套界说「以智能体为先」操作原则的中枢信念。
└── SECURITY.md
实在的常识库在结构化的docs/目次里,是系统的唯独事实起首。
这便是「渐进式流露」:智能体从一个小而牢固的进口运转,被陶冶下一步去哪找,而不是一运转就被信息合并。
OpenAI的探讨东谈主员还用器用强制实践这极少。
通过成心的lint和CI任务校验常识库是否最新、是否交叉不绝、结构是否正确。
架构文档给出领域折柳和包分层的顶层视图。质料文档为每个居品领域和架构层打分,握续跟踪差距。
为了保证AI不读到逾期的信息,团队致使成心安排了一个「文档花匠」智能体。
它的责任唯有一个:如期扫描文档,发现那些与代码达成不一致的腐化描画,然后自动发起建设PR。
让智能体「看得懂」
既然仓库完满由智能体生成,OpenAI探讨东谈主员的一个宗旨,便是让智能体只靠仓库自己,就能判辨完好业务领域。
从智能体视角看,任何它在运行时险峻文中探访不到的常识,齐等于不存在。
比如放在Google Docs、聊天纪录、东谈主类大脑的常识,对系统来说齐是不可见的。
它能看到的唯有仓库里版块化的工件,如代码、Markdown、schema、可实践臆想。
要是智能体找不到这些险峻文常识,它们就会和刚入职的新共事一样,关于内容业务发达一无所知。

因此,必须把越来越多的险峻文推回仓库。
诚然,给Codex更多险峻文,并不是要隘给它更多衰竭指示,而是把信息组织好、结构化,让它不错推理。
自动化围栏
让尺度员成为代码宇宙的「牧羊东谈主」
光有文档,还不及以让一个完满由智能体生成的代码库保握一致。
AI毕竟是概率模子,它会产生幻觉,会偷懒,会写出「看似能跑实则一团糟」的代码。
若何贬责?
智能体在鸿沟表露、结构可掂量的环境中效果最高。
OpenAI通过强制实践「不变量」,而不是微不雅照顾达成细节,让智能体不错高速前进而不破裂基础。
这就好比为Codex这么日行沉的AI烈马,套上了缰绳和马鞍。
OpenAI围绕一个严格的架构模子构建系统。每个业务领域齐有固定层级,何况依赖标的被严格考据,只允许有限的正当鸿沟。
轨则很简便:在每个业务领域内(如App Settings),代码只可沿着固定层级「上前」依赖:
Types→Config→Repo→Service→Runtime→UI
横切眷注点(认证、纠合器、遥测、功能开关等)只可通过一个显式接口:Providers。
其他依赖一律隔绝,并通过自界说lint(亦然Codex生成)和结构测试强制实践。

这种架构平庸是公司领域到几百东谈主时才会正经盘算的。但在有编码智能体的情况下,这是前提条目。
此外,OpenAI的探讨东谈主员还界说了一组「试吃不变量」,如:
强制结构化日记
schema和类型的定名门径
文献大小上限
平台级可靠性要求
在这个历程中,必须明确区分的是哪些地点必须严格,哪些地点不错放权。
这好比照顾一个大型工程平台:鸿沟汇集管控,里面高度自治。
AI生成的代码有时适应东谈主类审好意思,但只消正确、可人惜、对智能体可读,就OK。
在这个历程中,东谈主类的试吃不会消失,而是被握续「编码」进系统。
评审主见、重构PR、用户bug齐会蜕变为文档更新,或径直升格为器用轨则。
当文档不够用时,就需要把轨则写进代码。
扔掉键盘
勇敢去独揽AI
OpenAI的这项实验宣告了:大齐以CRUD为主的岗亭,正在被重塑。
要是一个从零运转的系统,不错在5个月内,由3个东谈主(不写一排代码)构建出百万行领域,传统软件公司里那些广博的拓荒团队,还有存在的必要吗?
在这个行将到来的新期间,工程师的界说将被绝对改写。
你需要的是遒劲的「架构才略」,梗概界说系统的鸿沟,盘算模块之间的敛迹,构建阿谁让AI不跑偏的「围栏」。
同期,你还需要精确的「抒发才略」,学会用最表露的话语(无论是当然话语如故结构化文档)向AI描画你的意图。
拒却AI编程,坚握手搓代码的东谈主终将被波浪吞没,唯有那些懂得独揽AI的尺度员,才有可能成为AI期间的赢家。
参考贵寓:
https://openai.com/index/harness-engineering/