AI 模型开始自己迭代自己:一场不再需要人类干预的进化
Site Owner
Published on 2026-05-02
当AI模型能够自己迭代自己,人类的角色是什么?MiniMax M2.7的实践给出了答案——模型全程自主运行超过100轮,没有人类介入,效果提升30%。这不是失控,而是分工重构:研究员变成甲方,模型变成乙方。

AI 模型开始自己迭代自己:一场不再需要人类干预的进化
2026年3月,MiniMax发布M2.7。
官方通稿里有一句话,当时没有引起太多关注:"M2.7 是我们第一个模型深度参与迭代自己的模型。"
就这么一句话,轻描淡写,像是一行注释而不是重点。但如果你真正理解它在说什么,你会知道这是整篇通稿里最重要的一句话。
一个Agent迭代了100轮,没有一个人介入
事情是这样的。
M2.7发布之前,MiniMax的团队想让模型优化一个内部脚手架——本质上是一个用来训练和评测模型的开发框架。这个框架里有一堆Agent工具、Skills和记忆系统,模型表现不好,要改。
传统做法是什么?算法工程师看日志、分析失败案例、定位问题、修改代码、跑评测、再看结果——一个人肉循环。快的几天一轮,慢的可能一周。
M2.7的做法是:全程自主运行,自己迭代自己。
具体步骤是这样的:分析失败轨迹→规划改动→修改脚手架代码→运行评测→对比结果→决定保留或回退。一轮,又一轮,再一轮。
超过100轮。
没有人在每一轮介入。人在哪里?只在"关键决策点"出现。
结果:内部评测集上效果提升30%。
你可能想问:这30%是怎么提升的?模型自己发现了什么?
模型发现了针对模型本身的优化技巧——系统性搜索温度(temperature)、频率惩罚(frequency penalty)、存在惩罚(presence penalty)等采样参数的最优组合;为模型设计更具体的工作流指引(比如修复后自动搜索其他文件中的相同bug模式);在Agent循环里加入循环检测等优化。
这些东西,模型自己摸索出来的。算法工程师没想到,或者想到了但没有精力系统性地去穷举和验证。
100轮迭代之后,模型比人更懂怎么调这个模型。
研究员成了甲方,模型成了乙方
你可能觉得这个例子太技术,太垂直,跟普通开发者没什么关系。
但让我告诉你另一个数字。
在MiniMax内部的一个RL(强化学习)研发场景里,M2.7能够胜任**30%-50%**的工作流。
什么意思?
过去,一个研究员从提出实验想法,到最后模型真正上线,中间有大量工作:文献调研要有人做,数据流水线要有人接,实验跑起来要有人盯着,出了问题要有人排查,日志要有人分析,代码要有人修,MR要有人提、有人合并、有人跑冒烟测试……
这些事情,分配给不同的团队——算法、数据、工程、运维。每个团队都有自己的优先级,都有自己的排期,都有自己的沟通成本。
M2.7把这条流水线接过去了。
研究员只需要在"关键决策和讨论时介入":决定方向,确认方案,判断结果够不够好。
其余全自动化。
MiniMax自己的说法是:这大幅加速了问题发现和实验迭代,从而更快交付模型。
翻译成人话就是:人变成了审批节点,模型变成了执行者。
这不是某一个公司的实验。Anthropic的Claude、OpenAI的o系列、Google的Gemini,都在朝这个方向走。模型的能力边界每年在扩展,而每一次扩展,都意味着更多人类介入的环节被"替代"。
自我迭代的三个层次
观察目前行业中模型自我迭代的实践,大致可以分成三个层次。
第一层:工具调用自动化。
模型调用搜索、代码执行、API请求——这是最基础的层次,解决的是"模型能做什么"的问题。2023年ChatGPT Plugins就是干这个的。模型有了手,能干活了。
第二层:工作流编排自动化。
模型能规划多步骤任务,把一个大目标拆成小步骤,分配给不同的子任务,然后监控执行结果。这是目前大多数Agent框架在做的事情。模型有了脑子,能规划了。