春招快到了,送你一份数据分析常见面试题

本文总结了数据科学家面试中常见的自我介绍技巧及机器学习、大数据处理等领域的典型问题,旨在帮助求职者更好地准备面试。



找了半年工作,面试了几个data science的职位,总结了一些常见的问题,在这儿抛砖引玉。



自我介绍


几乎所有的面试都免不了以自我介绍为开头。对于考官,通常也会想基于自我介绍发现接下来要问的问题。所以,自我介绍非常重要。我参考的模板:


教育背景:简单说说哪年在哪里获得什么学位。


相关经验:按时间顺序讲一下2个做过的项目,介绍下用了什么办法,比如用了什么编程语言,最后的成果是什么。最好有些量化的指标,比如发表了多少论文,被引用了多少次。这些项目最好和面试的职位有关系。实在没有,也可以看看从中学到的知识或者技能可否扩展到data science. 比如之前做过信号处理,可以讲这个项目为data science打下了统计基础。


最自豪的成就和表态:介绍一下自己最自豪的项目,关键是要点出自己的优势,比如迅速掌握了一个很大的代码库,或者在代码库中加入了一个很有用的特性,并再次强调一下自己的优势,结尾说,我希望能在XX公司继续发挥这些优势。





被问过的问题总结


机器学习(Machine learning)算法


包括算法对数据的假设,推导,有什么优缺点,何时改用什么算法,怎么选择算法,很类似P2 student intervention的model选择问题。


作为入门的参考书:Introduction to Data Mining (Pang-Ning Tan, Michael Steinbach, Vipin Kumar);


复杂一点儿的:The Elements of Statistical Learning (Trevor Hastie, Robert Tibshirani , Jerome Friedman)


相关的算法可能包括:


Classification / Regression

    • SVM:是很多考官的最爱,最好做到可以推导

    • Neural Networks

    • Trees & ensemble methods: boosting, bagging

    • Clustering

    • K-means/median/medoids

    • Spectral clustering

    • Hierarchical

    • DBSCAN: density based spatial clustering of applications with noise

    • Self organizing map

      Association: 这个在Udacity没有介绍,但是大数据可能会用到

      Apriori 以及它对大数据的衍生

      FP growth 并行实现



    其他算法问题:


    1、Q-learning: 解释为什么update Q value的时候要用下一个state的max Q,为什么不能用mean?

    2、Kalman filter: 在项目中用到了,要求推导

    3、Expectation maximization



    关于大数据的问题


    1、很多职位要求的数据量,要远远大于Udacity的项目,所以会牵扯到一些大数据相关的问题

    2、参考书:Mining of Massive Datasets (Jure Leskovec, Anand Rajaraman, Jeff Ullman) 
    免费的下载:http://infolab.stanford.edu/~ullman/mmds/book.pdf

    3、算法:

      • Finding similar items

      • Find frequent itemsets

      • Recommendation systems

      • Social graph mining

        关于大数据的问题:

      • 用过的数据量有多大

      • GPU的相关经验?

      • Hadoop是怎么读入很大的数据的? 接受HDFS?

      • Spark的相关项目,用的什么model和library

      • Spark: RDD相关的概念

      • Spark: 如果数据远远大于内存,是怎么处理的?

      • 是否遇到过这样的情景:通过对数据的初步分析,观察到有趣的现象?

      • Spark: 举例说明inner join, outer join, etc.

        其他网上看到的常见问题:

      • Support, confidence, and lift

      • What is curse of dimensionality?

      • A/B testing

      • Precision, recall, F1

      • How to handle missing data?


      来源:优达学城


      精彩活动

      福利 · 阅读 | 免费申请读大数据新书 第23期

      推荐阅读

      2017年数据可视化的七大趋势! 

      全球100款大数据工具汇总(前50款) 

      论大数据的十大局限

      大数据时代的10个重大变革

      大数据七大趋势 第一个趋势是物联网


      Q: 今年,你准备换工作吗?

      欢迎留言与大家分享

      请把这篇文章分享给你的朋友

      转载 / 投稿请联系:hzzy@hzbook.com

      更多精彩文章,请在公众号后台点击“历史文章”查看

      评论 1
      添加红包

      请填写红包祝福语或标题

      红包个数最小为10个

      红包金额最低5元

      当前余额3.43前往充值 >
      需支付:10.00
      成就一亿技术人!
      领取后你会自动成为博主和红包主的粉丝 规则
      hope_wisdom
      发出的红包
      实付
      使用余额支付
      点击重新获取
      扫码支付
      钱包余额 0

      抵扣说明:

      1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
      2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

      余额充值