NVIDIA MLE 岗位面试真题复盘：偏系统、偏底层、很看真实经验的一场技术面 – 一亩三分地 – 代面试 – 面试辅助

最近有学员参加了一场 NVIDIA 的技术面试，整体感受非常明显：这类岗位几乎不怎么考传统算法题，也不会让你背八股，而是直接围绕 LLM、推理系统、GPU 使用效率这些真实业务问题深入追问。整个过程更像是在和一个做 infra 的工程师讨论技术方案，而不是标准的“面试问答”。

下面把这场面试中出现的核心问题整理出来，给准备 AI Infra / ML System / 推理优化方向的同学一个参考。

一、模型与算法基础：看你是不是真的理解模型

面试一开始从模型压缩聊起。第一个问题是 Pruning 和 Distillation 的区别。这题表面是概念，但面试官真正想确认的是你有没有做过模型压缩相关的工作。

讨论通常会围绕几个点展开：

如果只是简单回答“一个是剪参数，一个是用老师教学生”，很容易被继续追问。比较理想的状态，是能从实际落地角度聊 trade-off，比如部署场景下更关心 latency、显存占用还是精度保留。

接下来话题转到 Self-attention。面试官问的是：为什么序列长度一变长，inference latency 就明显升高。

这题其实是在看你是否理解推理的真实计算过程，而不仅是知道公式。比较关键的知识点包括：

如果能从系统角度解释 latency 的来源，而不是只说复杂度，整体表现会好很多。

然后面试官继续深入，问有没有办法降低 attention 的平方复杂度。这里其实是在试探你对前沿研究和工程现实的理解程度，比如是否了解：

这一段聊得越接近工程实际，面试官越容易判断你是不是“真正做过”。

第二部分问题明显更偏 infra。面试官给了一个非常典型的场景：当序列变长导致推理延迟明显上升，你会怎么优化？

这题不再是单点知识，而是看你能不能从多个层面思考。比较常见的切入角度包括：

面试官更在意的是你是否能从整体 pipeline 看问题，而不是只盯着某一个优化点。

如果能自然地讲到 prefill 是重计算阶段、decode 是频繁 memory 访问阶段，以及两者对 latency 的不同影响，通常会给人比较专业的感觉。

最后一段是一个很典型的 NVIDIA 风格问题：假设你手上有 64 张 H100，你会如何演示不同模型规模下并行策略对吞吐的影响？

这题其实不是让你现场设计并行算法，而是看你是否理解大规模训练 / 推理是怎么做实验、怎么评估性能的。

讨论通常会自然涉及到这些点：

面试官更想确认的是，你是不是那种真正接触过 GPU 集群的人，而不是只在单机上跑过模型。

整场面试下来有一个非常清晰的感受：它不太在意你刷过多少题，而更在意你对系统的理解深度。很多问题其实没有标准答案，面试官主要是通过不断追问，判断你是否真的做过相关工作。

常见容易被卡住的点包括：

而准备比较充分的同学，通常能把问题从模型讲到系统，再讲到实际部署和性能优化，这种思路在 NVIDIA 这种公司会非常加分。

很多候选人在准备时默认会按传统互联网公司的节奏去刷题，但像 NVIDIA 这种岗位，考察重点完全不同。真正重要的是能不能把这些问题讲成一个完整的技术故事：

我们在做面试辅助时，其实就是帮候选人把这些零散的知识整理成一套可以自然表达的思路。当面试官不断往深处追问时，能稳住节奏，一层层拆开问题，而不是越聊越乱。

这类岗位的差距，往往就体现在这种“能不能讲清楚复杂系统”的能力上。