====================================================================================================
亚信科技
====================================================================================================
1. 自我介绍
2. 在之前实习公司做哪些工作?
主要负责伽利略风险预警平台的数据支持数据分析工作。包括第一个是对舆情打分、关联关系分析、词云等这些自动化流程整理数据流图,包括程序中涉及的表、涉及的数据量、每个函数的输入输出涉及哪些表,并在生产环境中验证自动化流程跑的对不对。第二个是做一些数据验证以及数据字典的的整理工作,比如数据切源,第三个就是根据mentor的要求,从生产环境抽取样例数据,以及在测试环境建表、导数据的工作。
3. 介绍一个最熟悉的机器学习算法,分类、聚类的都可以。
4. 信息增益和信息增益率的区别
信息增益:是节点A的信息熵与A的子节点的信息熵的和之差,信息增益越大表示增加一个属性,对样本的熵减少能力越强,表示这个属性使数据由不确定性变为确定性的能力越强。但是信息增益存在一个问题,属性值越多,则该属性的信息增益越大,所以ID3选择分裂节点时更倾向于选择属性值多的属性作为分裂节点,不适用于连续数据的处理。为此提出的改进就有使用信息增益率作为分裂属性选择的C4.5树。
信息增益率:节点信息增益与节点分裂信息量的比值。属性取值越多,则节点分裂信息量越大,如果直接采用增益率作为分裂准则,它会偏向属性值较少的节点,因此C4.5算法在选择分裂节点时,先选择信息增益高于平均值的属性,再从中选出信息增益率最高的属性。
补:CART使用基尼指数作为属性选择原则,基尼指数是指从样本集中随机抽取两个样本,其类别标记不一样的概率,基尼指数越小,说明纯度越高,选择使划分后基尼指数最小的属性作为最优属性
5.HMM用在什么地方?
举个简单的