直觉:三波浪潮,三种"把知识塞进机器"的方式

AI 的历史不是一条直线,而是三种知识表示范式的更替:知识是被人手写成规则(符号),还是从数据里统计估计出来(统计),还是被编码进可微参数(神经网络)。每一波都在解决上一波的瓶颈,又会撞上自己的天花板(所谓"AI 寒冬")。理解这条主线,比记住年份重要得多——因为今天大模型遇到的很多问题,本质上是老问题的新版本。

第一波:符号主义(Symbolic / GOFAI)

核心信念:智能 = 对符号的逻辑操作。知识被显式写成事实和规则,推理就是在符号上做搜索与演绎。

典型形态是专家系统:一堆 IF...THEN 规则加一个推理引擎(前向/后向链)。它的数据流是清晰可解释的:

1
2
3
事实库:  has_fever, has_cough
规则库: IF has_fever AND has_cough THEN suspect_flu
推理: 匹配规则 -> 触发 -> 新增 suspect_flu -> 继续匹配

符号方法的数学骨架是逻辑与搜索。比如经典的状态空间搜索 A*,用启发式 f(n)=g(n)+h(n)f(n)=g(n)+h(n) 在指数级状态空间里找路径。它的优点是可解释、可验证、零样本(不需要数据,写好规则就能用)。

瓶颈(撞墙点)

  • 知识获取瓶颈:规则得人手写,专家知识难以穷举,规则一多就互相冲突、难以维护。
  • 组合爆炸:搜索空间随问题规模指数增长。
  • 脆性:对规则没覆盖到的情况完全无能为力,无法优雅降级;处理不了感知层的噪声与不确定性(图像、语音里没有干净的"符号")。

这些瓶颈直接催生了第一次 AI 寒冬,也逼出了下一波:与其手写知识,不如从数据里学。

第二波:统计学习(Statistical ML)

核心信念:智能 = 从数据中估计概率分布 / 决策边界。不再手写规则,而是手写特征(feature),再让算法从带标签数据里拟合一个映射 fθ:xyf_\theta: x \mapsto y

这一波的数学核心是经验风险最小化(ERM):

θ=argminθ1Ni=1NL(fθ(xi),yi)+λΩ(θ)\theta^* = \arg\min_\theta \; \frac{1}{N}\sum_{i=1}^{N} L\big(f_\theta(x_i),\, y_i\big) + \lambda \,\Omega(\theta)

其中 LL 是损失,Ω\Omega 是正则项(控制复杂度、防过拟合)。代表方法各有清晰的理论:

  • SVM:在特征空间最大化间隔,靠核技巧 K(x,x)=ϕ(x),ϕ(x)K(x,x')=\langle\phi(x),\phi(x')\rangle 处理非线性,而无需显式计算高维 ϕ\phi
  • 决策树 / 随机森林 / 梯度提升:用信息增益等准则递归切分,集成多棵弱树降方差。
  • 概率图模型(HMM、CRF):在语音、序列标注里用条件概率建模时序依赖。

统计学习真正落地了:垃圾邮件过滤、搜索排序、语音识别的声学模型,背后大多是这一波的方法。它的优势是有泛化理论支撑、对不确定性建模、能从噪声数据里学

瓶颈(撞墙点)特征工程成了新的"知识获取瓶颈"。在图像、语音、自然语言上,"什么是好特征"本身就是个难题——SIFT、HOG、MFCC、n-gram,全靠人手设计。模型的天花板被特征的表达力卡死。于是问题变成:能不能让机器自己学特征

第三波:神经网络与表示学习(Deep Learning)

核心信念:智能 = 学习分层的表示。神经网络用多层非线性变换,把原始输入逐层映射成越来越抽象的特征,最后一层做决策。关键是这些"特征"不再人手设计,而是由反向传播自动学出来。

数据流的最小骨架:

1
2
3
4
5
6
7
8
# 一个 MLP 前向 + 反向的最小直觉
def forward(x, W1, W2):
h = relu(x @ W1) # 第一层学到的表示
y = h @ W2 # 输出
return y, h

# 训练靠链式法则把误差从输出层一路回传到每个参数
# dL/dW1 = (dL/dy) * (dy/dh) * (dh/dW1)

反向传播本质就是对计算图自动求导的链式法则。规模化所需的三个条件在这一波同时凑齐:算力(GPU 把矩阵乘法并行化)数据(大规模标注/网络语料)算法(更好的初始化、ReLU、归一化、残差连接缓解梯度消失)

随后的演进可以看成"针对不同数据结构设计归纳偏置":

  • CNN:用卷积的局部连接 + 权重共享编码"平移不变性",统治了视觉。
  • RNN/LSTM:用循环结构和门控处理序列,但受限于串行计算和长程依赖。
  • Transformer:用自注意力替代循环。注意力的核心公式

Attention(Q,K,V)=softmax(QKdk)V\text{Attention}(Q,K,V) = \text{softmax}\!\left(\frac{QK^\top}{\sqrt{d_k}}\right)V

让序列中任意两个位置直接交互,且整条序列可并行计算——这正是它能吃满 GPU、规模化到大模型的关键。注意 dk\sqrt{d_k} 这个缩放:没有它,点积方差随维度增长,softmax 会饱和到梯度近零。

再往后是预训练范式:先在海量无标注数据上做自监督(语言建模、掩码预测)学通用表示,再迁移到下游任务。这其实是对第二波"特征工程"的彻底反转——特征、甚至任务知识,都从数据里自监督地学出来。

工程权衡:三波不是替代,而是各占生态位

把三波放在一起对比,能看清它们的取舍:

维度 符号 统计 神经网络
知识来源 人手写规则 人手写特征 自动学表示
数据需求 几乎不需要 中等 巨大
可解释性
处理感知/噪声
算力需求 低-中 高(训练尤甚)

务实系统往往是混合的:神经网络做感知和表示,符号/规则做可验证的约束与推理,统计方法做校准与不确定性估计。今天热门的"工具调用 + 检索 + 大模型"架构,本质就是把符号式的确定性组件接回神经网络——因为纯参数化模型在精确计算、可验证逻辑、可更新知识上仍是短板,而这恰恰是符号方法的长处。

边界与常见误区

  • 误区:新范式完全淘汰旧范式。实际上每一波都把上一波内化成组件。梯度提升树在表格数据上至今常打败深度网络;逻辑约束在需要保证正确性的场景不可替代。
  • 误区:把"寒冬"归咎于技术失败。寒冬更多是期望与能力的错配——过度承诺撞上瓶颈,资金撤离。技术本身往往在低谷期默默积累,等算力/数据补齐再爆发(反向传播、神经网络在第二波时已存在,只是没条件规模化)。
  • 误区:以为大模型摆脱了归纳偏置。Transformer 看似"通用",但其架构、tokenization、注意力都是强先验。所谓"规模即一切"也只是在特定数据-算力配比下成立的经验规律,并非物理定律。

小结

AI 三波浪潮回答的是同一个问题——“知识怎么进入机器”——的三种答案:手写规则、手写特征、自动学表示。每一波都解决了前一波的知识获取瓶颈,又制造了新的瓶颈,并在期望落空时陷入寒冬。今天的大模型站在第三波的顶点,但它在精确推理、可验证性、知识更新上的短板,正把前两波的思想以"工具调用、检索、约束求解"的形式重新请回来。看懂这条主线,你就不会把每一次进展都当成"这次不一样",也不会把每一次撞墙都当成"AI 又要凉了"。