AI 技术演进史：符号、统计与神经网络三波

直觉：三波浪潮，三种"把知识塞进机器"的方式

AI 的历史不是一条直线，而是三种知识表示范式的更替：知识是被人手写成规则(符号)，还是从数据里统计估计出来(统计)，还是被编码进可微参数(神经网络)。每一波都在解决上一波的瓶颈，又会撞上自己的天花板（所谓"AI 寒冬"）。理解这条主线，比记住年份重要得多——因为今天大模型遇到的很多问题，本质上是老问题的新版本。

第一波：符号主义(Symbolic / GOFAI)

核心信念：智能 = 对符号的逻辑操作。知识被显式写成事实和规则，推理就是在符号上做搜索与演绎。

典型形态是专家系统：一堆 IF...THEN 规则加一个推理引擎（前向/后向链）。它的数据流是清晰可解释的：

1
2
3

事实库:  has_fever, has_cough
规则库:  IF has_fever AND has_cough THEN suspect_flu
推理:    匹配规则 -> 触发 -> 新增 suspect_flu -> 继续匹配

符号方法的数学骨架是逻辑与搜索。比如经典的状态空间搜索 A*，用启发式 $f(n)=g(n)+h(n)$ 在指数级状态空间里找路径。它的优点是可解释、可验证、零样本（不需要数据，写好规则就能用）。

瓶颈（撞墙点）：

知识获取瓶颈：规则得人手写，专家知识难以穷举，规则一多就互相冲突、难以维护。
组合爆炸：搜索空间随问题规模指数增长。
脆性：对规则没覆盖到的情况完全无能为力，无法优雅降级；处理不了感知层的噪声与不确定性（图像、语音里没有干净的"符号")。

这些瓶颈直接催生了第一次 AI 寒冬，也逼出了下一波：与其手写知识，不如从数据里学。

第二波：统计学习(Statistical ML)

核心信念：智能 = 从数据中估计概率分布 / 决策边界。不再手写规则，而是手写特征(feature)，再让算法从带标签数据里拟合一个映射 $f_\theta: x \mapsto y$ 。

这一波的数学核心是经验风险最小化(ERM)：

$\theta^* = \arg\min_\theta \; \frac{1}{N}\sum_{i=1}^{N} L\big(f_\theta(x_i),\, y_i\big) + \lambda \,\Omega(\theta)$

其中 $L$ 是损失， $\Omega$ 是正则项（控制复杂度、防过拟合）。代表方法各有清晰的理论：

SVM：在特征空间最大化间隔，靠核技巧 $K(x,x')=\langle\phi(x),\phi(x')\rangle$ 处理非线性，而无需显式计算高维 $\phi$ 。
决策树 / 随机森林 / 梯度提升：用信息增益等准则递归切分，集成多棵弱树降方差。
概率图模型(HMM、CRF)：在语音、序列标注里用条件概率建模时序依赖。

统计学习真正落地了：垃圾邮件过滤、搜索排序、语音识别的声学模型，背后大多是这一波的方法。它的优势是有泛化理论支撑、对不确定性建模、能从噪声数据里学。

瓶颈（撞墙点）：特征工程成了新的"知识获取瓶颈"。在图像、语音、自然语言上，"什么是好特征"本身就是个难题——SIFT、HOG、MFCC、n-gram，全靠人手设计。模型的天花板被特征的表达力卡死。于是问题变成：能不能让机器自己学特征？

第三波：神经网络与表示学习(Deep Learning)

核心信念：智能 = 学习分层的表示。神经网络用多层非线性变换，把原始输入逐层映射成越来越抽象的特征，最后一层做决策。关键是这些"特征"不再人手设计，而是由反向传播自动学出来。

数据流的最小骨架：

# 一个 MLP 前向 + 反向的最小直觉
def forward(x, W1, W2):
    h = relu(x @ W1)      # 第一层学到的表示
    y = h @ W2            # 输出
    return y, h

# 训练靠链式法则把误差从输出层一路回传到每个参数
# dL/dW1 = (dL/dy) * (dy/dh) * (dh/dW1)

反向传播本质就是对计算图自动求导的链式法则。规模化所需的三个条件在这一波同时凑齐：算力(GPU 把矩阵乘法并行化)、数据(大规模标注/网络语料)、算法(更好的初始化、ReLU、归一化、残差连接缓解梯度消失)。

随后的演进可以看成"针对不同数据结构设计归纳偏置"：

CNN：用卷积的局部连接 + 权重共享编码"平移不变性"，统治了视觉。
RNN/LSTM：用循环结构和门控处理序列，但受限于串行计算和长程依赖。
Transformer：用自注意力替代循环。注意力的核心公式

$\text{Attention}(Q,K,V) = \text{softmax}\!\left(\frac{QK^\top}{\sqrt{d_k}}\right)V$

让序列中任意两个位置直接交互，且整条序列可并行计算——这正是它能吃满 GPU、规模化到大模型的关键。注意 $\sqrt{d_k}$ 这个缩放：没有它，点积方差随维度增长，softmax 会饱和到梯度近零。

再往后是预训练范式：先在海量无标注数据上做自监督（语言建模、掩码预测）学通用表示，再迁移到下游任务。这其实是对第二波"特征工程"的彻底反转——特征、甚至任务知识，都从数据里自监督地学出来。

工程权衡：三波不是替代，而是各占生态位

把三波放在一起对比，能看清它们的取舍：

维度	符号	统计	神经网络
知识来源	人手写规则	人手写特征	自动学表示
数据需求	几乎不需要	中等	巨大
可解释性	高	中	低
处理感知/噪声	差	中	强
算力需求	低	低-中	高（训练尤甚）

务实系统往往是混合的：神经网络做感知和表示，符号/规则做可验证的约束与推理，统计方法做校准与不确定性估计。今天热门的"工具调用 + 检索 + 大模型"架构，本质就是把符号式的确定性组件接回神经网络——因为纯参数化模型在精确计算、可验证逻辑、可更新知识上仍是短板，而这恰恰是符号方法的长处。

边界与常见误区

误区：新范式完全淘汰旧范式。实际上每一波都把上一波内化成组件。梯度提升树在表格数据上至今常打败深度网络；逻辑约束在需要保证正确性的场景不可替代。
误区：把"寒冬"归咎于技术失败。寒冬更多是期望与能力的错配——过度承诺撞上瓶颈，资金撤离。技术本身往往在低谷期默默积累，等算力/数据补齐再爆发（反向传播、神经网络在第二波时已存在，只是没条件规模化）。
误区：以为大模型摆脱了归纳偏置。Transformer 看似"通用"，但其架构、tokenization、注意力都是强先验。所谓"规模即一切"也只是在特定数据-算力配比下成立的经验规律，并非物理定律。

小结

AI 三波浪潮回答的是同一个问题——“知识怎么进入机器”——的三种答案：手写规则、手写特征、自动学表示。每一波都解决了前一波的知识获取瓶颈，又制造了新的瓶颈，并在期望落空时陷入寒冬。今天的大模型站在第三波的顶点，但它在精确推理、可验证性、知识更新上的短板，正把前两波的思想以"工具调用、检索、约束求解"的形式重新请回来。看懂这条主线，你就不会把每一次进展都当成"这次不一样"，也不会把每一次撞墙都当成"AI 又要凉了"。