5.30 地图无忧面试总结

本文分享工作中数据处理手段,包括特征工程筛选特征、高维数据异常处理与检测;介绍数据缺失值处理方式,如删除、插补、置空。提及使用的数据库为Mysql和Mongodb及优化经验,还讲述爬虫爬取量、用时、遇到的反爬手段及应对,最后阐述大数据量推荐框架策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一. 在工作中在数据处理方面的手段
1.讲了下特征工程,以及特征工程中筛选特征的几种手段,如将特征有针对性的使用matplotlib或者seaborn进行可视化处理。通过观察数据的分布拟合程度来判定特征是否重要。
2.如果在高维度数据中,如上千维中。我们可以定义函数对特征进行异常处理,转为连续数据获取均值再定义区间范围,通过函数对特征进行自动筛选。
2.可以通过Isolation算法对特征进行异常检测的操作。
二. 数据缺失值的处理
1.首先观察数据的重要性,在学术上讲为判断为随机缺失还是完全随机缺失,缺失值处理无非有三种方式,第一种为删除、插补、置空。删除的话很简单对整行进行删除,插补法的话方式很多,有均值插补法,牛顿插补法。拉格朗日插补法,极大似然估计插补法,线性回归模型插补法等…置空的话就使用numpy模块中np.dropna()进行置空转换。
三.都是用过哪些数据库
主要使用过Mysql和Mongodb
四.对数据库优化有什么经验
mysql优化通常会从两个方面来考虑,一个是数据库的设计方面,一个是数据库的使用方面。他又问了全文索引,我从索引的原理方面B+tree中叶子节点自由指针的指向问题
五.爬虫通常爬取量为多少,又用了多长时间?
爬取量为10w左右,用时大概5天左右
六.在爬虫中遇到过什么反爬手段
1.常见的js渲染,使用抓包工具或Seleium
2.蜜罐反爬
3.IP代理池
4.爬虫间断
5.验证码反爬
6.数据加密反爬
7.图片映射反爬
分别从反爬机制,反反爬应当如何处理,分别在哪些场景遇到了这些爬虫,这三方面进行分析。
七.讲了下在大数据量推荐框架的应对策略,以及召回递补策略
运用spark计算平台,讲函数封装成RDD模式进行参数调整,使用ALS交替最小二乘法进行计算,加速计算能力

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值