微软DS
—————————————————————————————————————————
微软DS,四轮背靠背,每一轮不同的面试官,每轮45min休息15min
第一轮: 自我介绍+bq,在codility这个平台写leetcode medium难度的算法coding题,问一个case
第二轮: dive简历,聊简历里的ml问题,SQL coding
第三轮: 纯聊天,问preference
第四轮: dive简历,聊high level的ds问题,问preference
BQ问题
1. your proudest project
2. hard time with teamwork
3. explain ml
4. Why Microsoft
5. Why DS
6. coding skills?
7. Why you are qualified?
8. What ML algorithms are used in your project?
9. 有什么办法能让没有微软账户的人注册微软账户。怎样 target potentially 会注册的人。
10. 如何让已有微软账户的人氪金成为尊贵会员。如何 target potentially 会氪金的人。
11. 如何让有账户的人同意把 data 全部 share 给微软。
12. 如果突然 manager 给你个 priority 很高的任务,但你的 schedule 都是满的咋么办。
13. 用什么 data convince PM xxx 就是你想找的 target 用户。
14. 在你的项目中,有没有遇到一些非常困难的场景,有哪些 blocker 你怎么解决的
15. 在你和别人合作的过程中,有没有遇到非常难打交道的人,你是怎么应对的
16. describe deep learning to a 5-year-old
17. explain neural nets to a 5-year-old child
18. describe a time when you worked with a difficult team
19. 遇到困难,你是如何解决的
20. 描述做一个 data science project 的流程
21. favorite area in DS (估计在 team match)
22. A project with people who are difficult to work with
23. 目前最大的目标,怎么完成,完成的过程中遇到了哪些困难
24. 最自豪的 work,有什么 impact,可以是 research 也可以是 ds project
25. Highly likely customers VS Medium likely customers, 哪些人我们更应该 target。 可能
highly propensity score 的人你不用 target 都已经买了,反而应该 target 的人是 medium likely
的人。
26. What is your favorite Microsoft product, and what do you think can be improved?
27. What is your favorite area in ML
28. tell me about a time you managed to achieve your professional goal
29. 如果你向很多平台投放广告,但是你有一个 budget,你怎么能知道,你的budget 怎么向
这些平台分配。
30. 你最常用的 mobile app 是啥,我就拿起手机看了一眼说,啊我最常用的是 wechat31. 哎。然后他就围绕着 wechat 这个 product 问了一些 product 的问题,跟 fb 的
—————————————————————————————————————————
统计题目
1. Given a list consisting of integers, how to find the Nth percentile;
followup: what if the number list is very large and we cannot sort the number list
2. Given uniform[0, 1], how to estimate the value of pi
3. 然后就是 array 和 hashmap 的区别是什么,pseudo random number generator大致是怎么
function 的
4. Bayes 的概率题
—————————————————————————————————————————
ML八股
1. Bias-variance trade-off
2. what is a decision tree? what is the objective and how do you train it? how do you conduct
inference for classification and regression?
3. random forest: how to train the individual decision trees.
4. gradient boosting trees: difference between GBT and RF
5. What kinds of deep neural networks have you trained
6. what kind of data you have modeled?
7. Describe Bernoulli distribution and Binomial distribution
8. Describe Skewness and Kurtosis
9. Describe Type 1 and Type II error
10. Describe Central Limit Theory and Law of large number
11. Is Logistic regression linear?
12. What's the Loss function of logistic regression
13. Bias and variance trade-off
14. What's the bias and variance for the Regression and GBT model?
15. Bagging or boosting
16. How would you deal with Overfitting?
17. L1/L2 regularizations
18. Curse of dimensionality
—————————————————————————————————————————
Coding
1. given a number list, how can we compute its median?
Followup: what if this number list is created dynamically? That is, we add another number to the list
one at a time.
2. given bernoulli(p), how can we generate randint(a, b), e.g., randint(1, 10)
3. 如何 implement LRU Cache
4. 后三十分钟一个算法题:leetcode 189 rotate array,要求 in-place。 楼主使用 double
reverse技巧,面试官要求讲出这样做的思路(为什么要 reverse)5.
TableA - CustomerId, Industry, Area, Sales
TableB - CustomerId, Tenure
Q1: Find the total Sales by Industry
Q2: Find the median sales by Industry
—————————————————————————————————————————
ML Design
given website, we want to conduct classification
1. 怎么选 feature: domain, content, etc
2. suppose that we derive labels from crowdsourcing. What are the caveats?: quality of the labeling,
class balance on the input data
3. how to predict the quality of the crowdsourcing? We can add samples with known labels and see
if they are labeled correctly
4. ML case study,会需要非常详细的设计和 detail
—————————————————————————————————————————
基础问题
1. 问 python 的 local 和 global namespace都是什么?
2. 请问什么是 namespace?
3. 然后改成 local 和 global variable 分别是什么?然后问 execute 代码的时候 local和global
variable的顺序是什么?
4. 用什么数据机构可以 represent 这些 entity。我猜他想问 linked list 但我早就忘了怎么
写。我跟他说我做 project 的时候直接就把 edgelist 存成个 nx2 的 dataframe。然后给他转成
一个 network。小哥说开始你的表演。我说你等等,我平时用 r,让我 google 一下 python的
command。他说行你继续表演。我问你这 codility 能不能 pip install,他说得大哥你别写了,
咱们口述吧。于是我声情并茂的口述了一下怎么生成一个 network。
5. 如果想做成 weighted network,如何 assign weight:答可以按照有多少 edge。按比例
assign weight。
6. 如果新加进来一个 node ,如何 predict 他会和其他哪些 node 有connection?答:可以给
每个 node create 一个 embedding,然后比较 embedding 之间的similarity。
7. outlier 用不用去掉。答:outlier embedding 也不一样,cosine similarity 比较的时候
similarity 也不会高。
8. . 面试官给了一个很随机的 background context, 说了一大堆,还挺 misleading 的....但是
主要想考察的是:比如说 pencil suppliers, 如果甄别哪些是好的/不好的 supplier。Frame the
problem 之后面试官问我需要怎样的 data,并且问我 tables 具体长啥样,如何用 SQL/Python
Queries 写出来。整个过程都在我在白板上写的。
9. sales people 需要 reach out to 1000 customers to sell products, 你能帮助他们提高 sale
convertion rate 吗? 所以问题是: how likely a customer will buy a product. 问了很多细节问
题,比如从不同维度应该怎么选 features(他提到了features 可以有很多,500+这种),提到
的知识点包括:unbalanced data set, ACU, how to set criterion, random forest VS boosting tree
10. 有没有用过 dataset 的经历,data 是什么样的 data
更多面经,OA代做,VO全过程辅助,联系我