直觉:三个同心圆,但边界比你想的模糊

最流行的说法是「AI ⊃ ML ⊃ DL」三层同心圆。这没错,但作为工程师,光记住包含关系几乎没用。真正要搞清的是:在什么任务上,从同心圆的哪一层取工具,以及为此你要搭建怎样的技术栈

简短定义:

  • AI(人工智能):让机器完成需要智能的任务,方法不限——可以是搜索、规划、规则、概率推理、也可以是学习。
  • ML(机器学习):AI 的子集,强调从数据中自动获得映射,而非人写死规则。
  • DL(深度学习):ML 的子集,用多层非线性网络自动学习特征表示。

关键区分点不在「是否用神经网络」,而在特征从哪来

机制:分界线在「特征工程」这一步

考虑一个分类任务,输入 xx,输出标签 yy。三种范式的数据流差异如下:

1
2
3
规则式 AI:   x ──► 人写的 if/else 逻辑 ──► y
传统 ML: x ──► 人手工特征 φ(x) ──► 浅层模型(SVM/树/LR) ──► y
深度学习: x ──► 多层网络自动学 φ ──► 分类头 ──► y

传统 ML 的核心工作量在 ϕ(x)\phi(x)——人类专家设计特征。比如做信用评分,你要手算「负债收入比」「历史逾期次数」等特征,再丢给逻辑回归或梯度提升树。模型负责学权重,但特征的语义是人给的

深度学习把 ϕ\phi 也变成可学的参数。对一张图像,你不再手写「边缘检测算子」,而是让卷积核从数据里学出来。形式化地,深度模型是一个复合函数:

fθ(x)=(gLgL1g1)(x),gl(h)=σ(Wlh+bl)f_\theta(x) = (g_L \circ g_{L-1} \circ \cdots \circ g_1)(x), \quad g_l(h) = \sigma(W_l h + b_l)

整个 θ={Wl,bl}\theta = \{W_l, b_l\} 通过反向传播端到端优化。这就是「表示学习」:特征工程被吸收进了训练过程。

公式视角:表达力 vs 样本效率的权衡

为什么不无脑用深度学习?因为模型容量(capacity)与所需数据量正相关。粗略地,泛化误差受偏差-方差权衡支配:

\text{期望误差} \approx \underbrace{\text{偏差}^2}_{\text{模型太简单}} + \underbrace{\text{方差}}_{\text{模型太复杂/数据太少}} + \text{噪声}

深度网络偏差低(表达力强)但方差高,要靠海量数据、正则化、数据增强把方差压下去。当你只有几千条表格数据时,一棵梯度提升树(如 XGBoost/LightGBM)往往比深度网络又快又准——这不是 DL 不行,而是数据量撑不起它的容量。

一个判断启发式:

1
2
3
4
5
6
7
8
def choose_paradigm(task):
if 数据是结构化表格 and 样本量(几千~几十万):
return "梯度提升树 / 传统 ML" # 通常 SOTA 且训练快
if 数据是图像/音频/文本/视频 and 有大量样本:
return "深度学习" # 端到端表示学习优势明显
if 规则清晰、需可验证、样本极少:
return "符号/规则 + 少量 ML 兜底"
return "先上简单基线,再按误差分析升级"

工程权衡:三套截然不同的技术栈

边界不仅是算法,更体现在工具链上:

层级 典型库/框架 计算 部署形态 迭代瓶颈
传统 ML scikit-learn, XGBoost, LightGBM CPU 为主 单机/微服务,模型小(MB 级) 特征工程
深度学习 PyTorch, JAX, TensorFlow GPU/TPU 必需 需推理服务化、量化、batching 数据+算力
通用 AI 系统 上述 + 搜索/规划/优化/规则引擎 混合 编排多个组件 系统集成

几个常被低估的工程现实:

  • DL 的成本大头在推理而非训练。训练是一次性的,推理是持续的。显存、batch、量化(INT8/FP16)、KV cache 直接决定单位请求成本。
  • 传统 ML 的可维护性更好。特征可审计、模型可解释、回归测试容易写。很多业务场景里这比那 1% 的准确率更重要。
  • 「AI 系统」很少是单一模型。真实产品是流水线:DL 做感知/召回,传统 ML 做排序,规则做安全兜底,再加监控与回流标注。

常见误区

  • 「深度学习淘汰了传统机器学习」:在结构化表格数据上,树模型仍是主流且常胜。
  • 「用了神经网络 = 深度学习」:一个单层感知机也是神经网络,但谈不上「深度」;深度学习的关键是多层带来的层级表示。
  • 「模型越大越好」:容量与数据、延迟、成本是耦合的。脱离任务谈模型大小没有意义。
  • 「AI 就是训练模型」:搜索、约束求解、规划这些不学习的方法同样是 AI,且在调度、路径规划、博弈等问题上不可替代。

小结

AI、ML、DL 的包含关系只是入门第一句话。工程上真正的分界线是特征从哪来、需要多少数据、付得起多少算力、要不要可解释。把这四个维度想清楚,你就能在同心圆里精准取用:表格数据上树模型常常完胜,感知数据上深度学习不可替代,而真实系统几乎总是把多层工具编排在一起。