开云app 尺度员不许写代码！OpenAI硬核实验：3东谈主指导AI，5个月造出百万行

发布日期：2026-02-16 11:01 点击次数：83

新智元报谈

剪辑：元宇

【新智元导读】在OpenAI一项里面实验中，一个率先仅3东谈主的团队、5个月、从零到一造出「百万行代码居品」，莫得一排代码是东谈主类尺度员完成的，而不手工写代码，亦然该名堂的一条铁律。

这一次，东谈主类软件工程被「倒过来」作念了！

刚刚，OpenAI官博曝光了他们的一次里面实验：

一支率先3东谈主的工程师团队，垄断Codex智能体在5个月内从零造出了一个「百万行代码居品」。

在所有这个词历程中，东谈主类不写手工代码，而是把元气心灵汇集在「思明晰要什么、把轨则立起来」，其余的一切交给AI。

每东谈主每天平均能鼓舞3.5个PR（Pull Request，代码合并申请），而PR的实践方法（达成、测试、文档、CI竖立）全程由智能体代劳。

OpenAI为这套责任流赋予了一个特地形象的名字：「独揽工程（Harness Engineering）」。

https://openai.com/index/harness-engineering/

在实验里，尺度员不再是阿谁熬夜写Bug，再熬夜修Bug的「码农」，而是蓝本的「实践者」变为「独揽者」。

这不啻是10倍效果进步的「分娩力翻新」，而是一次对「软件工程」界说的颠覆，径直宣告了东谈主类「手工代码期间」的拆伙。

改变

从一个空的git仓库运转

此次实验从AI的第一次提走时转。

2025年8月下旬，当空仓库里落劣等一个commit（提交）时，它就照旧不是东谈主类写的——其时莫得任何既有东谈主类代码不错充任「锚点」。

更奇幻的：连阿谁用来指导AI若何干活的说明书AGENTS.md，初版亦然AI我方写的。

从第一天起，这个仓库便是由智能体塑造的。东谈主类不许写代码，成了这个名堂的一条不可跳动的铁律。

这不是为了偷懒，而是一种近乎自虐的「刻意进修」，唯有割断了东谈主类「切身上手」的退路，能力倒逼团队去破解阿谁在完满冷凌弃面况下构建代码的终极问题。

于是，这个3东谈主小团队（后膨胀到7东谈主），一下子好像成了拿着鞭子的牧羊东谈主，驱赶着一群不知疲顿的Codex智能体在代码草原上决骤。

截止令东谈主轰动：5个月，一百万行代码。

从头界说工程师的脚色

这项实验的早期发达，比OpenAI的探讨东谈主员预见得要慢。

不是因为Codex不能，而是因为环田地说得不够表露：智能体穷苦达成高层宗旨所需的器用、空洞和里面结构。

于是，OpenAI工程团队的主要责任酿成了一件事：让智能体有才略完成有价值的责任。

他们把大宗旨拆成更小的构建块（盘算、编码、评审、测试等），请示智能体把这些块搭起来，再用它们去解锁更复杂的任务。

当事情失败时，谜底简直从来不是「再试一次」，这里唯独的鼓舞形式便是让Codex去完成责任，东谈主类工程师平庸会退一步问我方：

到底缺了什么才略？若何把它变得对智能体既表露可见，又不错被强制实践？

所有这个词历程中，东谈主类简直完满通过请示词与系统交互：工程师描画任务，运行智能体，让它发起一个PR。

为了鼓舞PR完成，探讨东谈主员会让Codex在腹地自审转变，申请罕见的腹地和云表智能体评审，恢复东谈主类或智能体的响应，然后在一个轮回里不断迭代，直到所有智能体评审者齐惬意。

跟着时分推移，简直所有评审责任齐顶住给了「智能体对智能体」。

进步应用尺度的可读性

跟着代码微辞量的增多，OpenAI发现：AI编码的瓶颈酿成了东谈主工质料搜检（QA）的才略。

于是，东谈主类的时分和防护力成了实在的敛迹。

为了糟塌这一瓶颈，OpenAI的办法是让Codex梗概径直读取应用尺度的用户界面、日记以及应用方针等内容。

他们将Chrome DevTools契约接入了智能体运行时，并拓荒了处理DOM快照、截图和导航的手段。

于是，Codex不错我方复现bug、考据建设、推理UI算作。

OpenAI对可不雅测性器用也禁受了不异的作念法。

日记、方针、跟踪通过腹地可不雅测性栈浮现给Codex，何况对每个worktree（责任区）齐是梗阻、临时的环境。

任务完成后，这套环境就会被葬送。

{jz:field.toptypename/}

智能体不错用LogQ查日记，用PromQL查方针。

于是，「确保职业启动在800ms内完成」或者「这四条关键用户旅途里莫得任何一个span高出两秒」这么的请示，就变得实在可实践。

作念了这些之后，OpenAI探讨东谈主员经常看到Codex一次运行一语气责任六个小时以上，平庸如故在东谈主类寝息的时刻。

给Codex一张舆图

而不是一册1000页的说明书

让智能体处理大型复杂任务时，险峻文照顾是最大的挑战之一。

OpenAI探讨东谈主员早期学到的一个简便训导便是：

给Codex一张舆图，而不是一册1000页的说明书。

一运转，团队试图写一个超大的AGENTS.md文献，把所有轨则、逻辑、防护事项齐塞进去。截止，这成了一场灾难。

因为AI的防护力亦然稀缺资源。

给它一册1000页的说明书，它会迷失在细节里，漏掉关键敛迹，或者把宗旨搞错。

而且，这种单体大文档吝惜起来简直是恶梦，很快就会酿成「腐化轨则的墓地」。

于是，团队马上养息战略，他们把AGENTS.md酿成了一张「寻宝舆图」。

这个文献唯有约莫100行，它不包含具体常识，仅仅一个目次，就像一个导航舆图，指向仓库深处更深层的确凿起首。

盘算文档被编目并索引，包括考据状况以及一套界说「以智能体为先」操作原则的中枢信念。

└── SECURITY.md

实在的常识库在结构化的docs/目次里，是系统的唯独事实起首。

这便是「渐进式流露」：智能体从一个小而牢固的进口运转，被陶冶下一步去哪找，而不是一运转就被信息合并。

OpenAI的探讨东谈主员还用器用强制实践这极少。

通过成心的lint和CI任务校验常识库是否最新、是否交叉不绝、结构是否正确。

架构文档给出领域折柳和包分层的顶层视图。质料文档为每个居品领域和架构层打分，握续跟踪差距。

为了保证AI不读到逾期的信息，团队致使成心安排了一个「文档花匠」智能体。

它的责任唯有一个：如期扫描文档，发现那些与代码达成不一致的腐化描画，然后自动发起建设PR。

让智能体「看得懂」

既然仓库完满由智能体生成，OpenAI探讨东谈主员的一个宗旨，便是让智能体只靠仓库自己，就能判辨完好业务领域。

从智能体视角看，任何它在运行时险峻文中探访不到的常识，齐等于不存在。

比如放在Google Docs、聊天纪录、东谈主类大脑的常识，对系统来说齐是不可见的。

它能看到的唯有仓库里版块化的工件，如代码、Markdown、schema、可实践臆想。

要是智能体找不到这些险峻文常识，它们就会和刚入职的新共事一样，关于内容业务发达一无所知。

因此，必须把越来越多的险峻文推回仓库。

诚然，给Codex更多险峻文，并不是要隘给它更多衰竭指示，而是把信息组织好、结构化，让它不错推理。

自动化围栏

让尺度员成为代码宇宙的「牧羊东谈主」

光有文档，还不及以让一个完满由智能体生成的代码库保握一致。

AI毕竟是概率模子，它会产生幻觉，会偷懒，会写出「看似能跑实则一团糟」的代码。

若何贬责？

智能体在鸿沟表露、结构可掂量的环境中效果最高。

OpenAI通过强制实践「不变量」，而不是微不雅照顾达成细节，让智能体不错高速前进而不破裂基础。

这就好比为Codex这么日行沉的AI烈马，套上了缰绳和马鞍。

OpenAI围绕一个严格的架构模子构建系统。每个业务领域齐有固定层级，何况依赖标的被严格考据，只允许有限的正当鸿沟。

轨则很简便：在每个业务领域内（如App Settings），代码只可沿着固定层级「上前」依赖：

Types→Config→Repo→Service→Runtime→UI

横切眷注点（认证、纠合器、遥测、功能开关等）只可通过一个显式接口：Providers。

其他依赖一律隔绝，并通过自界说lint（亦然Codex生成）和结构测试强制实践。

这种架构平庸是公司领域到几百东谈主时才会正经盘算的。但在有编码智能体的情况下，这是前提条目。

此外，OpenAI的探讨东谈主员还界说了一组「试吃不变量」，如：

强制结构化日记

schema和类型的定名门径

文献大小上限

平台级可靠性要求

在这个历程中，必须明确区分的是哪些地点必须严格，哪些地点不错放权。

这好比照顾一个大型工程平台：鸿沟汇集管控，里面高度自治。

AI生成的代码有时适应东谈主类审好意思，但只消正确、可人惜、对智能体可读，就OK。

在这个历程中，东谈主类的试吃不会消失，而是被握续「编码」进系统。

评审主见、重构PR、用户bug齐会蜕变为文档更新，或径直升格为器用轨则。

当文档不够用时，就需要把轨则写进代码。

扔掉键盘

勇敢去独揽AI

OpenAI的这项实验宣告了：大齐以CRUD为主的岗亭，正在被重塑。

要是一个从零运转的系统，不错在5个月内，由3个东谈主（不写一排代码）构建出百万行领域，传统软件公司里那些广博的拓荒团队，还有存在的必要吗？

在这个行将到来的新期间，工程师的界说将被绝对改写。

你需要的是遒劲的「架构才略」，梗概界说系统的鸿沟，盘算模块之间的敛迹，构建阿谁让AI不跑偏的「围栏」。

同期，你还需要精确的「抒发才略」，学会用最表露的话语（无论是当然话语如故结构化文档）向AI描画你的意图。

拒却AI编程，坚握手搓代码的东谈主终将被波浪吞没，唯有那些懂得独揽AI的尺度员，才有可能成为AI期间的赢家。

参考贵寓：

https://openai.com/index/harness-engineering/

上一篇：开云 seedance2.0太恐怖了，顺手生成电影级别短片，业内东说念主士惊呼：咱们完蛋了
下一篇：没有了

热点资讯

推荐资讯

友情链接：

zrlyd.com 备案号备案号:

技术支持:®开云app RSS地图 HTML地图