日常实习面试问题整理

====================================================================================================

亚信科技

====================================================================================================

1. 自我介绍

2. 在之前实习公司做哪些工作?

主要负责伽利略风险预警平台的数据支持数据分析工作。包括第一个是对舆情打分、关联关系分析、词云等这些自动化流程整理数据流图,包括程序中涉及的表、涉及的数据量、每个函数的输入输出涉及哪些表,并在生产环境中验证自动化流程跑的对不对。第二个是做一些数据验证以及数据字典的的整理工作,比如数据切源,第三个就是根据mentor的要求,从生产环境抽取样例数据,以及在测试环境建表、导数据的工作。

3. 介绍一个最熟悉的机器学习算法,分类、聚类的都可以。

4. 信息增益和信息增益率的区别

信息增益:是节点A的信息熵与A的子节点的信息熵的和之差,信息增益越大表示增加一个属性,对样本的熵减少能力越强,表示这个属性使数据由不确定性变为确定性的能力越强。但是信息增益存在一个问题,属性值越多,则该属性的信息增益越大,所以ID3选择分裂节点时更倾向于选择属性值多的属性作为分裂节点,不适用于连续数据的处理。为此提出的改进就有使用信息增益率作为分裂属性选择的C4.5树。

信息增益率:节点信息增益与节点分裂信息量的比值。属性取值越多,则节点分裂信息量越大,如果直接采用增益率作为分裂准则,它会偏向属性值较少的节点,因此C4.5算法在选择分裂节点时,先选择信息增益高于平均值的属性,再从中选出信息增益率最高的属性。

补:CART使用基尼指数作为属性选择原则,基尼指数是指从样本集中随机抽取两个样本,其类别标记不一样的概率,基尼指数越小,说明纯度越高,选择使划分后基尼指数最小的属性作为最优属性

5.HMM用在什么地方?

举个简单的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值