AI没有意识没有理解。它做的事从头到尾就是：你给数据和正确答案，它找一组系数让函数输出正确，然后你扔新数据进去算结果。整个AI行业都是这三步，区别只在于函数多复杂。

AI 到底在干什么：找一条线，画一个边界

你打开手机相册，它能自动把你家猫的照片归到一起。你对着微信语音转文字，它把你说的话变成字。你问 ChatGPT 一个问题，它回你一段话。

这些都是 AI。但它们到底在干什么？

答案比你想的简单得多：AI 就是一个函数。训练它 = 找到这个函数的系数。使用它 = 往函数里代入你的数据，算出结果。

这篇文章用一个例子讲清楚这件事。

举个例子：教 AI 认识数字 7

你想做一个程序，给它一张图片，它告诉你"这是 7"还是"不是 7"。

怎么做？

第一步：收集数据

你搜集了 100 万张手写的、印刷的、各种字体的数字图片。有些图片上写的是 7，有些不是。

第二步：人工标注

你请一批人，逐张看图片，标上"是 7"或"不是 7"。

这一步最笨，也最关键。AI 不是自己"理解"了什么是 7——它是从你给的标注里学的。你标错了，它就学错。

第三步：把图片变成数字

一张 28×28 像素的灰度图片 = 784 个数字（每个像素的亮度值，0 是黑，255 是白）。

图片就是数字

上面一排是你看到的图片，下面一排是计算机看到的——一堆数字。每个格子里的数值代表那个像素的亮度。0 = 纯黑（没笔迹），10以上 = 有笔迹。

所以每张图片就是 784 个输入。AI 的任务：接收这 784 个数字，输出一个判断——是 7（输出 1）还是不是 7（输出 0）。

第四步：训练

这里就是 AI 真正做的事了。

AI 内部有一个函数，长这样：

输出 = f(像素1, 像素2, 像素3, ..., 像素784)

这个函数有一堆系数（也叫权重）。训练的过程就是：

把一张图片的 784 个像素值代入函数
看输出对不对（是不是和人工标注一致）
如果错了，调整系数
拿下一张图片重复

100 万张图片轮几遍，系数就被调到了一个合适的状态——对大部分图片都能给出正确答案。

第五步：测试

拿一些训练时没用过的新图片来试。如果准确率够高（比如 98%），这个 AI 就算训练完成了。

第六步：使用

以后来了一张新图片，把它的 784 个像素值代入那个函数，0.01 秒出结果。

这就是全部了。

AI 的核心：找函数的系数

把上面的例子抽象一下：

步骤	做什么	人话翻译
准备数据	收集图片 + 人工标注	告诉 AI "正确答案长什么样"
训练	反复调系数	让函数在已知答案上尽可能对
使用	代入新数据，算输出	传参数，得结果

你用计算器算 3 × 7 + 2 = 23，这是代入一个已知函数求值。

AI 做的事是反过来的：你给它一堆输入和输出的对应关系，它帮你把函数的系数算出来。

算出来之后，使用 AI 就和用计算器一样——代入，出结果。

完整流水线

上图是一个真实训练过程：64 个像素输入 → 16 个隐藏神经元 → 1 个输出。总共 1057 个系数，训练 5 轮就到 100% 准确率。测试集（训练时从未见过的图片）也是 100% 正确。

那条"线"是什么意思？

最简单的 AI（感知机）做的事，是在空间里画一条线，把数据分成两堆。

两个输入时，线在纸上画：

AND 门决策边界

上图是 AND 门的例子。蓝色点 = 输出 1，白色点 = 输出 0。虚线 = AI 找到的那条"分割线"。一条线就够了。

784 个输入时，"线"变成了一个 784 维空间里的"超平面"——你画不出来，但数学上一回事。这个超平面把所有写着 7 的图片和不是 7 的图片分到两边。

训练 = 不断调整这个超平面的位置和角度，直到分对为止。

一条线不够用怎么办？

有些问题一条线分不开。

XOR 失败

上图就是 XOR 问题——蓝色点在对角，白色点也在对角，无论你怎么画一条线都分不开。红色虚线是各种失败的尝试。

解决办法：多切几刀。

切刀递进

这张图展示了核心思路：

1 个神经元 = 1 刀 → 只能切一半空间，画不出圆
4 个神经元 = 4 刀 → 围出一个正方形
8 个神经元 = 8 刀 → 围出八边形（已经接近圆了）
32 个神经元 = 32 刀 → 几乎就是圆了

绿色虚线 = 真实的圆形边界。蓝色实线 = 网络切出来的形状。刀越多 → 形状越精细 → 越接近真实。

把多个"画线的单元"堆起来，组成多层网络：

第一层：画 N 条线，把空间切成很多块
第二层：把这些块组合起来，形成更复杂的区域

层数越多，能画出的边界形状越复杂。这就是"深度学习"里"深度"的意思——层数多 = 刀数多 = 能切出的形状复杂。

1 层 → 只能画直线      → 能分 AND/OR
2 层 → 能画弯线        → 能分 XOR
10 层 → 能画任意形状   → 能认手写字
100 层 → 超复杂的边界   → 能认人脸、理解语言

多层网络全景

上图四个面板分别展示了：

左上：一个神经元内部做什么（乘→加→压）
右上：多个神经元连成网络，数据从左到右流过
左下：1 层只能画直线（灰色），多层能画弯线（蓝色）
右下：参数数量对比——XOR 只要 9 个系数，识别手写数字要 20 万个

从认数字到 ChatGPT，变了什么？

	识别数字 7	ChatGPT
输入	784 个像素值	几千个文字 token
输出	1 个数（是/不是 7）	下一个最可能的字
系数数量	几百个	1.8 万亿个
层数	2-3 层	100+ 层
训练数据	100 万张图片	几万亿字的文本

变了什么？规模。

没变什么？原理。

ChatGPT 也是一个函数：你输入一句话，它计算"下一个字最可能是什么"，然后输出那个字。再把输出拼回输入，再算下一个字。如此循环，一句话就"生成"出来了。

训练 ChatGPT = 用几万亿字的文本，调 1.8 万亿个系数，让函数在"预测下一个字"这件事上尽可能准。

使用 ChatGPT = 你输入一段话（传参），函数算出结果（下一个字），重复直到生成完整回答。

总结

AI 没有意识，没有理解，没有"思考"。它做的事情从头到尾就是：

你给数据和正确答案（训练集）
它找一组系数，让函数在这些数据上输出正确（训练）
你扔新数据进去，它用找到的系数算一个结果给你（推理）

整个 AI 行业——从手写数字识别，到人脸解锁，到 ChatGPT，到自动驾驶——都是这三步。区别只在于函数多复杂（多少层、多少系数）、数据多大、算力多强。

AI = 找函数 + 用函数。 就这么多。