Anthropic Fellows OA 第三轮面经:5小时 Take-home ML Research Project 详解 – OA 代写 – 面试辅助

Anthropic Fellows 的 OA 第三轮和前两轮 CodeSignal 很不一样。这一轮已经不是传统刷题,也不是给你几道算法题让你写代码过测试,而是一个 5-hour take-home research project。简单说,就是在限定时间内,用 PyTorch 做一个小型机器学习实验,然后提交代码和实验报告。

这轮的核心考察点不是“能不能写出漂亮代码”,而是看候选人能不能像做 mini research 一样,在很短时间内完成实验设计、模型训练、结果分析和结论总结。官方也明确说了,这一轮没有 unit tests,评分是 qualitative review,也就是人工看你的代码和 writeup。

这一轮大概考什么?

开始测试之后,官方会发一份 starter codebase 和具体 research questions。题目内容在开始前不会提前透露,所以候选人能做的准备主要是环境和基础知识。

从官方邮件来看,这轮需要候选人熟悉这些内容:

PyTorch 环境搭建、训练 small MLP、MNIST dataset、cross-entropy loss、KL divergence、optimizer、模型保存和加载,以及 basic knowledge distillation。除此之外,还需要会跑本地语言模型,比如用 Hugging Face transformers 做 prompting、tokenization、sampling,并分析 activations、logits 和 logprobs。

所以它本质上更像一个 ML experiment + research writeup,不是 LeetCode,也不是普通 debug 题。

时间和流程

这一轮比较容易踩坑的点是时间。

候选人不是收到邮件后马上开始计时,而是先提交一个 start form。提交之后,官方才会发 starter codebase、instructions 和最终提交表单。5小时从提交 start form 的那一刻开始算,所以一定要提前把环境配好。

另外,邮件里还提到整个 assessment 有一个更大的完成窗口,比如收到后有 5 天内启动和完成,但真正做题时间是开始后的 5 小时。这里不要混淆:一个是“你什么时候开始”,一个是“开始后多久必须交”。

硬件要求

这一轮需要自己准备开发环境。官方建议至少要有能训练 small MLP、并能跑 1B-8B 参数级别本地语言模型的 GPU。

官方给了两个选择:

第一种是用 Vast.ai,充值 3 美元左右,租 RTX 3090。邮件里提到 RTX 3090 的价格低的时候大概 0.15 美元一小时,所以 3 美元对这次测试来说足够。第二种是用自己的 GPU,但最好至少有 16GB VRAM。官方不推荐免费 Colab 或纯 CPU,因为速度太慢,会让候选人在时间上吃亏。

这个信息其实很关键。因为这轮考的是 experimental velocity,如果环境太慢,哪怕思路没问题,也可能没时间跑足够多实验。

最后要提交什么?

最终需要提交一个 zip 文件,里面包括三部分:

最终代码、实验 writeup。如果使用了 Claude Code,还需要附上 Claude Code session history。官方甚至建议可以直接让 Claude 把当前目录下的 claude jsonl session 文件打包。

提交方式也不是直接上传到系统,而是把 zip 上传到 Google Drive,给指定邮箱开 Editor access,然后通过 submission form 提交链接。邮件里也特别强调,不能放 public repo,也不要把 assessment details 分享给其他人。

评分标准是什么?

这一轮官方给了四个评分维度,每项 25%。

第一是 Experimental Velocity。也就是你能不能在有限时间内快速跑出足够多实验,收集到有用证据。

第二是 Conceptual Understanding。你是否真正理解 research question,而不是机械地跑代码。

第三是 Correctness / Validity。这里会看代码有没有影响结果的 bug,实验有没有 train/test leakage,有没有 cherry-picking、不合适的 baseline、p-hacking,结果是否可复现。

第四是 Reasoning Transparency。也就是你的结论是否讲清楚可信度,有没有 error bars、credible intervals、statistical tests,是否说明了潜在 confounders,以及读者应该多大程度相信你的结果。

这几个标准放在一起看,其实很明显:Anthropic 更想看的是候选人能不能做出可信的实验判断,而不是单纯写代码速度。

需要完整真题或者代写请联系我。

我们也有代面试,面试辅助,OA代写等服务助您早日上岸~

Leave a Reply

Your email address will not be published. Required fields are marked *