AI 模型开始自己迭代自己:一场不再需要人类干预的进化
Site Owner
发布于 2026-05-02
当AI模型能够自己迭代自己,人类的角色是什么?MiniMax M2.7的实践给出了答案——模型全程自主运行超过100轮,没有人类介入,效果提升30%。这不是失控,而是分工重构:研究员变成甲方,模型变成乙方。

AI 模型开始自己迭代自己:一场不再需要人类干预的进化
2026年3月,MiniMax发布M2.7。
官方通稿里有一句话,当时没有引起太多关注:"M2.7 是我们第一个模型深度参与迭代自己的模型。"
就这么一句话,轻描淡写,像是一行注释而不是重点。但如果你真正理解它在说什么,你会知道这是整篇通稿里最重要的一句话。
一个Agent迭代了100轮,没有一个人介入
事情是这样的。
M2.7发布之前,MiniMax的团队想让模型优化一个内部脚手架——本质上是一个用来训练和评测模型的开发框架。这个框架里有一堆Agent工具、Skills和记忆系统,模型表现不好,要改。
传统做法是什么?算法工程师看日志、分析失败案例、定位问题、修改代码、跑评测、再看结果——一个人肉循环。快的几天一轮,慢的可能一周。
M2.7的做法是:全程自主运行,自己迭代自己。
具体步骤是这样的:分析失败轨迹→规划改动→修改脚手架代码→运行评测→对比结果→决定保留或回退。一轮,又一轮,再一轮。
超过100轮。
没有人在每一轮介入。人在哪里?只在"关键决策点"出现。
结果:内部评测集上效果提升30%。
你可能想问:这30%是怎么提升的?模型自己发现了什么?
模型发现了针对模型本身的优化技巧——系统性搜索温度(temperature)、频率惩罚(frequency penalty)、存在惩罚(presence penalty)等采样参数的最优组合;为模型设计更具体的工作流指引(比如修复后自动搜索其他文件中的相同bug模式);在Agent循环里加入循环检测等优化。
这些东西,模型自己摸索出来的。算法工程师没想到,或者想到了但没有精力系统性地去穷举和验证。
100轮迭代之后,模型比人更懂怎么调这个模型。
研究员成了甲方,模型成了乙方
你可能觉得这个例子太技术,太垂直,跟普通开发者没什么关系。
但让我告诉你另一个数字。
在MiniMax内部的一个RL(强化学习)研发场景里,M2.7能够胜任**30%-50%**的工作流。
什么意思?
过去,一个研究员从提出实验想法,到最后模型真正上线,中间有大量工作:文献调研要有人做,数据流水线要有人接,实验跑起来要有人盯着,出了问题要有人排查,日志要有人分析,代码要有人修,MR要有人提、有人合并、有人跑冒烟测试……
这些事情,分配给不同的团队——算法、数据、工程、运维。每个团队都有自己的优先级,都有自己的排期,都有自己的沟通成本。
M2.7把这条流水线接过去了。
研究员只需要在"关键决策和讨论时介入":决定方向,确认方案,判断结果够不够好。
其余全自动化。
MiniMax自己的说法是:这大幅加速了问题发现和实验迭代,从而更快交付模型。
翻译成人话就是:人变成了审批节点,模型变成了执行者。
这不是某一个公司的实验。Anthropic的Claude、OpenAI的o系列、Google的Gemini,都在朝这个方向走。模型的能力边界每年在扩展,而每一次扩展,都意味着更多人类介入的环节被"替代"。
自我迭代的三个层次
观察目前行业中模型自我迭代的实践,大致可以分成三个层次。
第一层:工具调用自动化。
模型调用搜索、代码执行、API请求——这是最基础的层次,解决的是"模型能做什么"的问题。2023年ChatGPT Plugins就是干这个的。模型有了手,能干活了。
第二层:工作流编排自动化。
模型能规划多步骤任务,把一个大目标拆成小步骤,分配给不同的子任务,然后监控执行结果。这是目前大多数Agent框架在做的事情。模型有了脑子,能规划了。
第三层:迭代优化自动化。
模型能分析自己过去的失败,找到规律,设计新的策略,然后用新策略重新执行,再分析,再优化——形成闭环。这才是"自我进化"真正成立的意思。模型有了自己的经验积累能力,能改进了。
MiniMax的实践,落在第三层。
它不是简单让模型调用工具完成任务,而是让模型持续改进它完成任务的工具本身。
这在以前是研究员的工作。现在模型也能干了。
为什么这件事意义重大
很多人听到"模型自己迭代自己",第一反应是:这东西会不会失控?
这种担心可以理解,但方向错了。
自我迭代不等于自我复制,不等于模型会突然决定要自我改进到超越人类控制。至少在目前的架构下,这些模型的"自我迭代"都是在人类设定的边界内进行的——它迭代的是脚手架代码、采样参数、工作流配置,而不是底层的模型架构本身。
真正值得关注的不是"失控",而是**"谁在变得不重要"。**
每一次模型能力的提升,都在把一批人类的重复性工作变成"模型可以自己搞定的事"。
写代码 → 模型可以写。
调试代码 → 模型可以调。
训练模型 → 模型可以参与。
迭代脚手架 → 模型可以自己搞。
每一层都在被侵蚀。
这不是什么"程序员要失业"的老调子。这是一次真正的分工重构——人类从"执行者"逐渐变成"监督者"和"决策者",而模型承担起越来越长的执行链条。
一个人 + 一个模型 = 一支团队
MiniMax在发布M2.7时,提到了Agent Teams(多智能体协作)的概念。
Agent Teams的逻辑是:让多个模型角色互相协作,各自承担不同的职责——有的负责规划,有的负责执行,有的负责批判性挑错。
这意味着什么?
意味着一个人可以驱动一个Agent团队,完成过去需要一整个产品、研发、测试团队配合才能完成的项目。
一个研究员提需求 → Agent帮他设计实验方案 → Agent帮他构建Harness → Agent跑实验 → Agent分析日志 → Agent决定怎么优化 → Agent提MR。
整个链条,不需要一个完整的团队坐在会议室里开会。
这就是为什么我一直说,AI时代的竞争不是"谁有更好的模型",而是**"谁更懂得用模型构建更高效的工作流"**。
模型是基础设施,工作流是核心竞争力。
进化不需要人类许可
回到M2.7。
它的自我进化能力,现在还只是一个开端——只覆盖了脚手架优化和Agent Harness构建。但这个方向是确定的。
模型的下一代版本,将由这一代模型深度参与设计。
这不是科幻,这是2026年已经在发生的事情。
对于每个身处AI时代的人,这件事有两层含义。
第一层是职业的:你的工作里,有多少环节是"重复性执行"?这些环节,正在被模型替代的速度,比你想象的更快。
第二层是认知的:当模型可以自己改进自己,人类的角色到底是什么?是制定目标的人,还是评判结果的人,还是两者都是?
这个问题没有标准答案。
但有一点是确定的:进化这件事,不再需要等待人类的批准了。