5.30 地图无忧面试总结_地图无忧 csdn-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_39037383/article/details/90702405

本文分享工作中数据处理手段，包括特征工程筛选特征、高维数据异常处理与检测；介绍数据缺失值处理方式，如删除、插补、置空。提及使用的数据库为Mysql和Mongodb及优化经验，还讲述爬虫爬取量、用时、遇到的反爬手段及应对，最后阐述大数据量推荐框架策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一. 在工作中在数据处理方面的手段
1.讲了下特征工程，以及特征工程中筛选特征的几种手段，如将特征有针对性的使用matplotlib或者seaborn进行可视化处理。通过观察数据的分布拟合程度来判定特征是否重要。
2.如果在高维度数据中，如上千维中。我们可以定义函数对特征进行异常处理，转为连续数据获取均值再定义区间范围，通过函数对特征进行自动筛选。
2.可以通过Isolation算法对特征进行异常检测的操作。
二. 数据缺失值的处理
1.首先观察数据的重要性，在学术上讲为判断为随机缺失还是完全随机缺失，缺失值处理无非有三种方式，第一种为删除、插补、置空。删除的话很简单对整行进行删除，插补法的话方式很多，有均值插补法，牛顿插补法。拉格朗日插补法，极大似然估计插补法，线性回归模型插补法等…置空的话就使用numpy模块中np.dropna()进行置空转换。
三.都是用过哪些数据库
主要使用过Mysql和Mongodb
四.对数据库优化有什么经验
mysql优化通常会从两个方面来考虑，一个是数据库的设计方面，一个是数据库的使用方面。他又问了全文索引，我从索引的原理方面B+tree中叶子节点自由指针的指向问题
五.爬虫通常爬取量为多少，又用了多长时间？
爬取量为10w左右，用时大概5天左右
六.在爬虫中遇到过什么反爬手段
1.常见的js渲染，使用抓包工具或Seleium
2.蜜罐反爬
3.IP代理池
4.爬虫间断
5.验证码反爬
6.数据加密反爬
7.图片映射反爬
分别从反爬机制，反反爬应当如何处理，分别在哪些场景遇到了这些爬虫，这三方面进行分析。
七.讲了下在大数据量推荐框架的应对策略，以及召回递补策略
运用spark计算平台，讲函数封装成RDD模式进行参数调整，使用ALS交替最小二乘法进行计算，加速计算能力