当AI模型能够自己迭代自己，人类的角色是什么？MiniMax M2.7的实践给出了答案——模型全程自主运行超过100轮，没有人类介入，效果提升30%。这不是失控，而是分工重构：研究员变成甲方，模型变成乙方。

AI 模型开始自己迭代自己：一场不再需要人类干预的进化

2026年3月，MiniMax发布M2.7。

官方通稿里有一句话，当时没有引起太多关注："M2.7 是我们第一个模型深度参与迭代自己的模型。"

就这么一句话，轻描淡写，像是一行注释而不是重点。但如果你真正理解它在说什么，你会知道这是整篇通稿里最重要的一句话。

一个Agent迭代了100轮，没有一个人介入

事情是这样的。

M2.7发布之前，MiniMax的团队想让模型优化一个内部脚手架——本质上是一个用来训练和评测模型的开发框架。这个框架里有一堆Agent工具、Skills和记忆系统，模型表现不好，要改。

传统做法是什么？算法工程师看日志、分析失败案例、定位问题、修改代码、跑评测、再看结果——一个人肉循环。快的几天一轮，慢的可能一周。

M2.7的做法是：全程自主运行，自己迭代自己。

具体步骤是这样的：分析失败轨迹→规划改动→修改脚手架代码→运行评测→对比结果→决定保留或回退。一轮，又一轮，再一轮。

超过100轮。

没有人在每一轮介入。人在哪里？只在"关键决策点"出现。

结果：内部评测集上效果提升30%。

你可能想问：这30%是怎么提升的？模型自己发现了什么？

模型发现了针对模型本身的优化技巧——系统性搜索温度（temperature）、频率惩罚（frequency penalty）、存在惩罚（presence penalty）等采样参数的最优组合；为模型设计更具体的工作流指引（比如修复后自动搜索其他文件中的相同bug模式）；在Agent循环里加入循环检测等优化。

这些东西，模型自己摸索出来的。算法工程师没想到，或者想到了但没有精力系统性地去穷举和验证。

100轮迭代之后，模型比人更懂怎么调这个模型。

研究员成了甲方，模型成了乙方

你可能觉得这个例子太技术，太垂直，跟普通开发者没什么关系。

但让我告诉你另一个数字。

在MiniMax内部的一个RL（强化学习）研发场景里，M2.7能够胜任**30%-50%**的工作流。

什么意思？

过去，一个研究员从提出实验想法，到最后模型真正上线，中间有大量工作：文献调研要有人做，数据流水线要有人接，实验跑起来要有人盯着，出了问题要有人排查，日志要有人分析，代码要有人修，MR要有人提、有人合并、有人跑冒烟测试……

这些事情，分配给不同的团队——算法、数据、工程、运维。每个团队都有自己的优先级，都有自己的排期，都有自己的沟通成本。

M2.7把这条流水线接过去了。

研究员只需要在"关键决策和讨论时介入"：决定方向，确认方案，判断结果够不够好。

其余全自动化。

MiniMax自己的说法是：这大幅加速了问题发现和实验迭代，从而更快交付模型。

翻译成人话就是：人变成了审批节点，模型变成了执行者。

这不是某一个公司的实验。Anthropic的Claude、OpenAI的o系列、Google的Gemini，都在朝这个方向走。模型的能力边界每年在扩展，而每一次扩展，都意味着更多人类介入的环节被"替代"。

自我迭代的三个层次

观察目前行业中模型自我迭代的实践，大致可以分成三个层次。

第一层：工具调用自动化。

模型调用搜索、代码执行、API请求——这是最基础的层次，解决的是"模型能做什么"的问题。2023年ChatGPT Plugins就是干这个的。模型有了手，能干活了。

第二层：工作流编排自动化。

模型能规划多步骤任务，把一个大目标拆成小步骤，分配给不同的子任务，然后监控执行结果。这是目前大多数Agent框架在做的事情。模型有了脑子，能规划了。

AI 模型开始自己迭代自己：一场不再需要人类干预的进化

AI 模型开始自己迭代自己：一场不再需要人类干预的进化

一个Agent迭代了100轮，没有一个人介入

研究员成了甲方，模型成了乙方

自我迭代的三个层次

为什么这件事意义重大

一个人 + 一个模型 = 一支团队

进化不需要人类许可