AI 编程助手是怎么工作的：补全、检索与评测

直觉：它不是在"理解"你的项目，而是在做条件预测

把 AI 编程助手想象成一个超强的"条件概率引擎"：给定你光标前后的代码、打开的文件、项目里检索到的相关片段，它在预测"接下来最可能出现的 token 是什么"。它没有真正在脑子里建模你的整个代码库——它的"理解"全部来自你塞进上下文窗口的那些 token。

这个视角能解释很多现象：为什么把相关文件打开补全质量就变好（更好的条件）、为什么它会一本正经地调用不存在的 API（训练分布里相似 token 概率高）、为什么大项目里它常常重复造轮子（没看到已有的工具函数）。理解 AI 编程助手，就是理解三件事：补全怎么生成、上下文怎么检索、效果怎么评测。

机制一：补全——FIM 与光标处的真相

普通语言模型从左到右生成，但写代码时光标常在中间，后面还有代码。如果只看前文，模型不知道它在补的函数后面已经有了 return。解决办法是 **FIM（Fill-in-the-Middle，中间填空）**训练。

做法是在预训练时把文档随机切成三段——前缀（prefix）、中间（middle）、后缀（suffix），重排成：

1	<PRE> 前缀代码 <SUF> 后缀代码 <MID> 中间代码

让模型在看到前缀和后缀后，生成中间那段。推理时把你光标前的代码当 prefix、光标后的当 suffix，模型就能"瞻前顾后"地补全。这就是为什么现代补全能正确闭合括号、不重复已存在的代码。

工程上，补全是个延迟极度敏感的场景——用户每敲一下都可能触发。几条关键权衡：

小模型 + 低延迟优先于"绝对最强"。行内补全常用专门的较小代码模型，目标是几十到一两百毫秒出结果；超过几百毫秒用户已经自己打完了。
防抖（debounce）与取消：用户连续打字时，前一个还没返回的请求要能取消，否则既浪费算力又显示过期补全。
缓存：相同前缀的请求结果可缓存；KV cache 复用能省掉重复的前向计算。
截断：补全通常只取到行尾或第一个语义边界，吐一大段反而打断心流。

机制二：检索——把对的代码塞进上下文

模型上下文窗口有限（即便很大也填不下整个仓库），且"塞得越多越慢越贵、还会被无关内容稀释注意力"。所以核心问题是：在有限预算里，放进哪些代码片段最有用？ 这就是代码 RAG（检索增强生成）。

数据流大致是：

1
2
3

仓库 ──切块──▶ embedding ──▶ 向量索引
                                  ▲
用户 query / 当前文件 ──embedding──┘──▶ 召回 top-k ──▶ 拼进 prompt ──▶ LLM

但代码检索有它的特殊性，纯语义向量召回往往不够：

混合检索：把稠密向量（语义相似）和稀疏检索（BM25/精确符号匹配）结合。代码里大量是精确标识符（函数名、变量名），语义 embedding 对 getUserById 这种名字的精确匹配反而不如关键词检索。
结构感知切块：别用固定行数粗暴切。按 AST 在函数/类边界切，保证每个 chunk 是语义完整单元，否则召回回来半个函数没法用。
符号图谱：很多生产级助手不止做相似度检索，还利用 LSP / 静态分析拿到定义跳转、引用、调用关系——补全用到某类型时，把它的定义精确拉进上下文，比向量召回准得多。

一个朴素的混合召回打分：

def retrieve(query, k=8):
    dense  = vector_index.search(embed(query), k=30)   # 语义召回
    sparse = bm25_index.search(query, k=30)            # 关键词召回
    fused  = reciprocal_rank_fusion(dense, sparse)     # RRF 融合排序
    return fused[:k]                                    # 控预算，只留 top-k

预算分配是工程核心：上下文窗口要在"当前文件 + 检索片段 + 系统提示 + 给输出留的余量"之间切分。塞太多检索内容会挤掉当前文件的关键信息，还会拖慢首 token 延迟（prefill 时间随输入长度增长）。"召回越多越好"是典型误区——超过某个量，无关片段稀释注意力，质量反而下降。

机制三：评测——别被"看起来对"骗了

代码生成的好处是有客观真值：能不能跑、过不过测试。这让评测比开放文本生成可靠得多。基础指标是功能正确性：生成的代码放进环境跑单元测试，通过即正确。

但单次生成有随机性，于是有了 pass@k 指标：对每个题采样 $k$ 个解，只要有一个通过就算对。它估计的是"采 k 次至少成功一次"的概率。无偏估计常用如下公式（每题生成 $n$ 个、其中 $c$ 个正确）：

$\text{pass@}k = \mathbb{E}\left[\,1 - \frac{\binom{n-c}{k}}{\binom{n}{k}}\,\right]$

直觉： $\binom{n-c}{k}/\binom{n}{k}$ 是"抽 k 个全是错解"的概率，1 减去它就是"至少一个对"。用大的 $n$ （如几十上百）估小的 $k$ ，方差小、更稳。

评测里几个真实的坑：

数据污染：基准题目若出现在训练数据里，分数虚高。看模型在公开基准上的表现要警惕这一点，私有/新题更可信。
pass@1 vs pass@k 不能混谈。pass@1 反映"一次就对"的实用体验，pass@k（k 大）反映"潜力上限"，两者差距很大；产品体验取决于前者。
沙箱必须隔离。跑模型生成的代码做评测，等于执行不可信代码，必须在受限沙箱里（无网络、限资源、可超时），否则既不安全也不可复现。
功能正确 ≠ 质量好。能过测试的代码可能效率差、有安全漏洞、风格不一致。生产评测还要叠加静态分析、安全扫描、人工抽检。

把三件事拼起来

一个补全请求的完整生命周期：

1
2
3

光标事件 → debounce → 收集上下文(当前文件 FIM 前后缀 + 符号定义
        + 混合检索片段) → 预算裁剪 → 模型生成(低延迟、流式) → 截断
        → 展示；用户接受/拒绝作为隐式反馈回流

而"用户是否接受补全"本身就是最有价值的线上信号——它把离线的 pass@k 评测和真实体验连了起来，是迭代检索策略和模型选择的指南针。

小结

AI 编程助手的三根支柱：补全靠 FIM 训练让模型在光标处瞻前顾后，且为低延迟体验在模型大小、防抖、缓存上反复权衡；检索用混合召回（语义 + 关键词）加结构感知切块和符号图谱，在有限上下文预算里精挑相关代码，而非越多越好；评测利用代码可执行的客观真值，以 pass@k 量化能力，同时警惕数据污染、沙箱安全和"过测试 ≠ 高质量"。一句话：它的强大不在于"懂你的代码"，而在于你把多对的上下文喂给了一个多强的条件预测器。