AI 到底在干什么:找一条线,画一个边界
Site Owner
Published on 2026-05-29
AI没有意识没有理解。它做的事从头到尾就是:你给数据和正确答案,它找一组系数让函数输出正确,然后你扔新数据进去算结果。整个AI行业都是这三步,区别只在于函数多复杂。
AI 到底在干什么:找一条线,画一个边界
你打开手机相册,它能自动把你家猫的照片归到一起。你对着微信语音转文字,它把你说的话变成字。你问 ChatGPT 一个问题,它回你一段话。
这些都是 AI。但它们到底在干什么?
答案比你想的简单得多:AI 就是一个函数。训练它 = 找到这个函数的系数。使用它 = 往函数里代入你的数据,算出结果。
这篇文章用一个例子讲清楚这件事。
举个例子:教 AI 认识数字 7
你想做一个程序,给它一张图片,它告诉你"这是 7"还是"不是 7"。
怎么做?
第一步:收集数据
你搜集了 100 万张手写的、印刷的、各种字体的数字图片。有些图片上写的是 7,有些不是。
第二步:人工标注
你请一批人,逐张看图片,标上"是 7"或"不是 7"。
这一步最笨,也最关键。AI 不是自己"理解"了什么是 7——它是从你给的标注里学的。你标错了,它就学错。
第三步:把图片变成数字
一张 28×28 像素的灰度图片 = 784 个数字(每个像素的亮度值,0 是黑,255 是白)。
![]()
上面一排是你看到的图片,下面一排是计算机看到的——一堆数字。每个格子里的数值代表那个像素的亮度。0 = 纯黑(没笔迹),10以上 = 有笔迹。
所以每张图片就是 784 个输入。AI 的任务:接收这 784 个数字,输出一个判断——是 7(输出 1)还是不是 7(输出 0)。
第四步:训练
这里就是 AI 真正做的事了。
AI 内部有一个函数,长这样:
输出 = f(像素1, 像素2, 像素3, ..., 像素784)
这个函数有一堆系数(也叫权重)。训练的过程就是:
- 把一张图片的 784 个像素值代入函数
- 看输出对不对(是不是和人工标注一致)
- 如果错了,调整系数
- 拿下一张图片重复
100 万张图片轮几遍,系数就被调到了一个合适的状态——对大部分图片都能给出正确答案。
第五步:测试
拿一些训练时没用过的新图片来试。如果准确率够高(比如 98%),这个 AI 就算训练完成了。
第六步:使用
以后来了一张新图片,把它的 784 个像素值代入那个函数,0.01 秒出结果。
这就是全部了。
AI 的核心:找函数的系数
把上面的例子抽象一下:
| 步骤 | 做什么 | 人话翻译 |
|---|---|---|
| 准备数据 | 收集图片 + 人工标注 | 告诉 AI "正确答案长什么样" |
| 训练 | 反复调系数 | 让函数在已知答案上尽可能对 |
| 使用 | 代入新数据,算输出 | 传参数,得结果 |
你用计算器算 3 × 7 + 2 = 23,这是代入一个已知函数求值。
AI 做的事是反过来的:你给它一堆输入和输出的对应关系,它帮你把函数的系数算出来。
算出来之后,使用 AI 就和用计算器一样——代入,出结果。

上图是一个真实训练过程:64 个像素输入 → 16 个隐藏神经元 → 1 个输出。总共 1057 个系数,训练 5 轮就到 100% 准确率。测试集(训练时从未见过的图片)也是 100% 正确。
那条"线"是什么意思?
最简单的 AI(感知机)做的事,是在空间里画一条线,把数据分成两堆。
两个输入时,线在纸上画:

上图是 AND 门的例子。蓝色点 = 输出 1,白色点 = 输出 0。虚线 = AI 找到的那条"分割线"。一条线就够了。
784 个输入时,"线"变成了一个 784 维空间里的"超平面"——你画不出来,但数学上一回事。这个超平面把所有写着 7 的图片和不是 7 的图片分到两边。
训练 = 不断调整这个超平面的位置和角度,直到分对为止。
一条线不够用怎么办?
有些问题一条线分不开。

上图就是 XOR 问题——蓝色点在对角,白色点也在对角,无论你怎么画一条线都分不开。红色虚线是各种失败的尝试。
解决办法:多切几刀。

这张图展示了核心思路:
- 1 个神经元 = 1 刀 → 只能切一半空间,画不出圆
- 4 个神经元 = 4 刀 → 围出一个正方形
- 8 个神经元 = 8 刀 → 围出八边形(已经接近圆了)
- 32 个神经元 = 32 刀 → 几乎就是圆了
绿色虚线 = 真实的圆形边界。蓝色实线 = 网络切出来的形状。刀越多 → 形状越精细 → 越接近真实。
把多个"画线的单元"堆起来,组成多层网络:
- 第一层:画 N 条线,把空间切成很多块
- 第二层:把这些块组合起来,形成更复杂的区域
层数越多,能画出的边界形状越复杂。这就是"深度学习"里"深度"的意思——层数多 = 刀数多 = 能切出的形状复杂。
1 层 → 只能画直线 → 能分 AND/OR
2 层 → 能画弯线 → 能分 XOR
10 层 → 能画任意形状 → 能认手写字
100 层 → 超复杂的边界 → 能认人脸、理解语言

上图四个面板分别展示了:
- 左上:一个神经元内部做什么(乘→加→压)
- 右上:多个神经元连成网络,数据从左到右流过
- 左下:1 层只能画直线(灰色),多层能画弯线(蓝色)
- 右下:参数数量对比——XOR 只要 9 个系数,识别手写数字要 20 万个
从认数字到 ChatGPT,变了什么?
| 识别数字 7 | ChatGPT | |
|---|---|---|
| 输入 | 784 个像素值 | 几千个文字 token |
| 输出 | 1 个数(是/不是 7) | 下一个最可能的字 |
| 系数数量 | 几百个 | 1.8 万亿个 |
| 层数 | 2-3 层 | 100+ 层 |
| 训练数据 | 100 万张图片 | 几万亿字的文本 |
变了什么?规模。
没变什么?原理。
ChatGPT 也是一个函数:你输入一句话,它计算"下一个字最可能是什么",然后输出那个字。再把输出拼回输入,再算下一个字。如此循环,一句话就"生成"出来了。
训练 ChatGPT = 用几万亿字的文本,调 1.8 万亿个系数,让函数在"预测下一个字"这件事上尽可能准。
使用 ChatGPT = 你输入一段话(传参),函数算出结果(下一个字),重复直到生成完整回答。
总结
AI 没有意识,没有理解,没有"思考"。它做的事情从头到尾就是:
- 你给数据和正确答案(训练集)
- 它找一组系数,让函数在这些数据上输出正确(训练)
- 你扔新数据进去,它用找到的系数算一个结果给你(推理)
整个 AI 行业——从手写数字识别,到人脸解锁,到 ChatGPT,到自动驾驶——都是这三步。区别只在于函数多复杂(多少层、多少系数)、数据多大、算力多强。
AI = 找函数 + 用函数。 就这么多。