一. 在工作中在数据处理方面的手段
1.讲了下特征工程,以及特征工程中筛选特征的几种手段,如将特征有针对性的使用matplotlib或者seaborn进行可视化处理。通过观察数据的分布拟合程度来判定特征是否重要。
2.如果在高维度数据中,如上千维中。我们可以定义函数对特征进行异常处理,转为连续数据获取均值再定义区间范围,通过函数对特征进行自动筛选。
2.可以通过Isolation算法对特征进行异常检测的操作。
二. 数据缺失值的处理
1.首先观察数据的重要性,在学术上讲为判断为随机缺失还是完全随机缺失,缺失值处理无非有三种方式,第一种为删除、插补、置空。删除的话很简单对整行进行删除,插补法的话方式很多,有均值插补法,牛顿插补法。拉格朗日插补法,极大似然估计插补法,线性回归模型插补法等…置空的话就使用numpy模块中np.dropna()进行置空转换。
三.都是用过哪些数据库
主要使用过Mysql和Mongodb
四.对数据库优化有什么经验
mysql优化通常会从两个方面来考虑,一个是数据库的设计方面,一个是数据库的使用方面。他又问了全文索引,我从索引的原理方面B+tree中叶子节点自由指针的指向问题
五.爬虫通常爬取量为多少,又用了多长时间?
爬取量为10w左右,用时大概5天左右
六.在爬虫中遇到过什么反爬手段
1.常见的js渲染,使用抓包工具或Seleium
2.蜜罐反爬
3.IP代理池
4.爬虫间断
5.验证码反爬
6.数据加密反爬
7.图片映射反爬
分别从反爬机制,反反爬应当如何处理,分别在哪些场景遇到了这些爬虫,这三方面进行分析。
七.讲了下在大数据量推荐框架的应对策略,以及召回递补策略
运用spark计算平台,讲函数封装成RDD模式进行参数调整,使用ALS交替最小二乘法进行计算,加速计算能力