机器学习、深度学习、人工智能：边界与技术栈

直觉：三个同心圆，但边界比你想的模糊

最流行的说法是「AI ⊃ ML ⊃ DL」三层同心圆。这没错，但作为工程师，光记住包含关系几乎没用。真正要搞清的是：在什么任务上，从同心圆的哪一层取工具，以及为此你要搭建怎样的技术栈。

简短定义：

AI（人工智能）：让机器完成需要智能的任务，方法不限——可以是搜索、规划、规则、概率推理、也可以是学习。
ML（机器学习）：AI 的子集，强调从数据中自动获得映射，而非人写死规则。
DL（深度学习）：ML 的子集，用多层非线性网络自动学习特征表示。

关键区分点不在「是否用神经网络」，而在特征从哪来。

机制：分界线在「特征工程」这一步

考虑一个分类任务，输入 $x$ ，输出标签 $y$ 。三种范式的数据流差异如下：

1
2
3

规则式 AI:   x ──► 人写的 if/else 逻辑 ──► y
传统 ML:     x ──► 人手工特征 φ(x) ──► 浅层模型(SVM/树/LR) ──► y
深度学习:    x ──► 多层网络自动学 φ ──► 分类头 ──► y

传统 ML 的核心工作量在 $\phi(x)$ ——人类专家设计特征。比如做信用评分，你要手算「负债收入比」「历史逾期次数」等特征，再丢给逻辑回归或梯度提升树。模型负责学权重，但特征的语义是人给的。

深度学习把 $\phi$ 也变成可学的参数。对一张图像，你不再手写「边缘检测算子」，而是让卷积核从数据里学出来。形式化地，深度模型是一个复合函数：

$f_\theta(x) = (g_L \circ g_{L-1} \circ \cdots \circ g_1)(x), \quad g_l(h) = \sigma(W_l h + b_l)$

整个 $\theta = \{W_l, b_l\}$ 通过反向传播端到端优化。这就是「表示学习」：特征工程被吸收进了训练过程。

公式视角：表达力 vs 样本效率的权衡

为什么不无脑用深度学习？因为模型容量（capacity）与所需数据量正相关。粗略地，泛化误差受偏差-方差权衡支配：

\text{期望误差} \approx \underbrace{\text{偏差}^2}_{\text{模型太简单}} + \underbrace{\text{方差}}_{\text{模型太复杂/数据太少}} + \text{噪声}

深度网络偏差低（表达力强）但方差高，要靠海量数据、正则化、数据增强把方差压下去。当你只有几千条表格数据时，一棵梯度提升树（如 XGBoost/LightGBM）往往比深度网络又快又准——这不是 DL 不行，而是数据量撑不起它的容量。

一个判断启发式：

def choose_paradigm(task):
    if 数据是结构化表格 and 样本量(几千~几十万):
        return "梯度提升树 / 传统 ML"      # 通常 SOTA 且训练快
    if 数据是图像/音频/文本/视频 and 有大量样本:
        return "深度学习"                  # 端到端表示学习优势明显
    if 规则清晰、需可验证、样本极少:
        return "符号/规则 + 少量 ML 兜底"
    return "先上简单基线，再按误差分析升级"

工程权衡：三套截然不同的技术栈

边界不仅是算法，更体现在工具链上：

层级	典型库/框架	计算	部署形态	迭代瓶颈
传统 ML	scikit-learn, XGBoost, LightGBM	CPU 为主	单机/微服务，模型小（MB 级）	特征工程
深度学习	PyTorch, JAX, TensorFlow	GPU/TPU 必需	需推理服务化、量化、batching	数据+算力
通用 AI 系统	上述 + 搜索/规划/优化/规则引擎	混合	编排多个组件	系统集成

几个常被低估的工程现实：

DL 的成本大头在推理而非训练。训练是一次性的，推理是持续的。显存、batch、量化（INT8/FP16）、KV cache 直接决定单位请求成本。
传统 ML 的可维护性更好。特征可审计、模型可解释、回归测试容易写。很多业务场景里这比那 1% 的准确率更重要。
「AI 系统」很少是单一模型。真实产品是流水线：DL 做感知/召回，传统 ML 做排序，规则做安全兜底，再加监控与回流标注。

常见误区

「深度学习淘汰了传统机器学习」：在结构化表格数据上，树模型仍是主流且常胜。
「用了神经网络 = 深度学习」：一个单层感知机也是神经网络，但谈不上「深度」；深度学习的关键是多层带来的层级表示。
「模型越大越好」：容量与数据、延迟、成本是耦合的。脱离任务谈模型大小没有意义。
「AI 就是训练模型」：搜索、约束求解、规划这些不学习的方法同样是 AI，且在调度、路径规划、博弈等问题上不可替代。

小结

AI、ML、DL 的包含关系只是入门第一句话。工程上真正的分界线是特征从哪来、需要多少数据、付得起多少算力、要不要可解释。把这四个维度想清楚，你就能在同心圆里精准取用：表格数据上树模型常常完胜，感知数据上深度学习不可替代，而真实系统几乎总是把多层工具编排在一起。