python推荐系统算法朴素贝叶斯_朴素贝叶斯算法在人才盘点中的应用(之一)

本文探讨了在招聘过程中如何运用机器学习方法识别潜在的人才。通过分析不确定性问题,介绍朴素贝叶斯分类器的基本原理及其在人才评估中的应用案例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、识别人才首先是处理不确定性问题

做招聘面试的HR应该会认同这样的经历。

打开应聘者简历,赫然写着TOP10名学毕业。抬头一瞧,小伙长得一表人才,精神抖擞,朝气蓬勃。HR兴趣大增。

再一看,研究方向对口,本硕连读,多次获国家奖学金。HR已经眼放绿光。

暗中观察,小伙思维敏捷,阳光开朗,真是少年才俊!这时,HR反倒有些迟疑,毕竟被当陪练、当备胎的教训不少。心里担心这么优秀,怕是招不来,来了也留不住。

仔细一聊,原来小伙家在我省,女友在我市,一门心思要来我司。HR心里确定,就是他了。

其实,毕业名校就一定是人才吗?学霸就一定是人才吗?不见得。只不过,当这些特征集于一身时,HR的经验告诉自己,这个人是人才的概率要大许多。

研究不确定性问题,当然不能仅凭感觉和经验。它一样有科学的依据和方法。机器学习中的概率模型就是其中一种。

二、机器学习在人才识别中的优势

人是难于评价的,在招聘、考核、选拔,根本没有金标准,从来没有什么标准告诉我们,谁一定是人才。我们要真正做到不唯学历、不唯资历、不唯年龄,就需要把各方面的信息和评价综合应用做决策。这项工作,一直依靠HR的经验甚至直觉。

决定人的业绩的因素中,有他的知识技能、能力素质、价值观、动机,也有外在管理环境、市场条件等,还有其他随机因素。我们暂不去做深入研究,因为它的复杂程度和高昂成本。我上学时听过几句话,大概是说:世界是物质的,物质是运动的,运动是有规律的,规律是可以被认识的。借用过来,可以解读为:优秀的人才,会表现出某些特征,而群众的智慧总会敏锐地捕捉到这些特征并留下印记,例如年度考核结果。也许这些特征是零散的、有误差甚至被造假。但在大量数据面前,它将得到合理处置。

处理大量数据,并不是人脑的强项。银行卡密码设计成6位,因为多了你可能记不住!

如果我们利用HR的经验知识,基于大量的数据,建立特定算法,让机器能按照HR的逻辑进行思考,去寻找优秀人才的特征规律,发现量化的联系,把这项交给机器来处理,至少是作为决策辅助,岂不更妙?毕竟机器的记忆力永久,内存空间、计算能力可视同无限。

简单来说,人才识别可当作有监督机器学习中的分类问题。喂给机器大量有关员工的数据,并告诉它哪些是优秀人才,哪些不是,然后给它一个全新的员工的数据,让它预测是不是优秀人才。实现的算法很多,在我的项目里,朴素贝叶斯最NB,没有之一。

三、公式推导与基本原理

1. 贝叶斯定理

由联合概率的定义可知:

math?formula=P(AB)%3DP(A)P(B%7CA)%3DP(B)P(A%7CB)

06fc83249f80

联合概率示意图

所以:

math?formula=P(A%7CB)%3D%5Cfrac%7BP(B%7CA)P(A)%7D%7BP(B)%7D

上式即贝叶斯定理。多么朴实无华!

如果我们按照习惯,将员工的特征以D表示,对人才识别结果的假设以H表示,则贝叶斯公式可写为:

math?formula=P(H%7CD)%3D%5Cfrac%7BP(D%7CH)P(H)%7D%7BP(D)%7D

其中:

左边的

math?formula=P(H%7CD)是指在证据的情况下假设发生的概率,称为

math?formula=%5Ccolor%7Brgb(255%2C0%2C0)%7D%7B%E5%90%8E%E9%AA%8C%E6%A6%82%E7%8E%87%7D

右边的

math?formula=P(H)是在没有任何证据的情况下H发生的概率,称为

math?formula=%5Ccolor%7Brgb(255%2C0%2C0)%7D%7B%E5%85%88%E9%AA%8C%E6%A6%82%E7%8E%87%7D

右边的

math?formula=P(H%7CD)是在该假设发生的情况下,出现该证据的概率,称为

math?formula=%5Ccolor%7Brgb(255%2C0%2C0)%7D%7B%E4%BC%BC%E7%84%B6%E5%BA%A6%7D

右边的

math?formula=P(D)是一个归一化因子,保证所有概率之和等于1。

后验概率是我们想知道的,先验概率是已知的,似然度也可以根据已知的数据去算得。

2.贝叶斯分类模型

事物具有的特征不只1个,假设H也可能是多个。设

math?formula=D

math?formula=n维向量

math?formula=d_1%2Cd_2%5Ccdots%20d_n,代表事物具有的

math?formula=n个特征,

math?formula=H

math?formula=m维向量

math?formula=h_1%2Ch_2%5Ccdots%20h_m。贝叶斯公式改写为:

math?formula=P(h_i%7C(d_1%2Cd_2%5Ccdots%20d_n))%3D%5Cfrac%7BP(d_1%2Cd_2%5Ccdots%20d_n%7Ch_i)P(h_i)%7D%7BP(d_1%2Cd_2%5Ccdots%20d_n)%7D%2C%5Cquad%20i%3D1%2C2%5Ccdots%20m

考虑假设

math?formula=H是一个完备事件组,则分母可以按全概率公式展开:

math?formula=P(d_1%2Cd_2%5Ccdots%20d_n)%3D%5Csum_%7Bi%3D1%7D%5EmP(d_1%2Cd_2%5Ccdots%20d_n%7Ch_i)P(h_i)

其值与

math?formula=h_i无关,故:

math?formula=P(h_i%7C(d_1%2Cd_2%5Ccdots%20d_n))%5Cpropto%20P(d_1%2Cd_2%5Ccdots%20d_n%7Ch_i)P(h_i)%2C%5Cquad%20i%3D1%2C2%5Ccdots%20m

应用贝叶斯定理进行分类的原理就是,根据某实例的特征,求得最可能的假设:

math?formula=h%5E*%3D%5Cargmax_%7Bh_i%5Cin%20H%7D%20P(d_1%2Cd_2%5Ccdots%20d_n%7Ch_i)P(h_i)

在实际应用中,上式中的先验概率

math?formula=P(h_i)可以通过

math?formula=h_i在训练数据集中的频率进行估计。若采用相同方法估计似然度,则通常不可行。

math?formula=P(d_1%2Cd_2%5Ccdots%20d_n%7Ch_i)的项数为每个特征可能取值之积与可能的假设数量相乘。例如,对10个特征的二分类问题,每个特征可取2个值,则似然度的项数将达到

math?formula=2%5E%7B10%7D%5Ctimes2%3D2048项(若每个特征可取3个值,则项数将达到

math?formula=3%5E%7B10%7D%5Ctimes2%3D118098项)!而且,要保持这一估计的合理性,同一特征组合应出现多次(例如10次),这样大的训练数据集,通常很难找到。

3. 朴素贝叶斯分类模型

名字里加上“朴素”两个字,因为它增加了一条朴素的假设:给定假设时特征之间相互条件独立。于是,联合概率可简化为每个单独特征的概率之积:

math?formula=P(d_1%2Cd_2%5Ccdots%20d_n%7Ch_i)%3D%5Cprod_%7Bj%3D1%7D%5EnP(d_j%7Chi)

如下可求得最可能的假设:

math?formula=h_%7BNB%7D%3D%5Cargmax_%7Bh_i%5Cin%20H%7D%20P(h_i)%5Cprod_%7Bj%3D1%7D%5EnP(d_j%7Chi)

此时,似然度的项数仅为40项。而且,同一样本的10个特征都可单独作为似然度的训练数据。这对训练数据集大小的要求极大降低。

具体到对

math?formula=P(d_i%7Ch_i)的分布进行假设,还需进一步细分为伯努利朴素贝叶斯,多项式朴素贝叶斯和高斯朴素贝叶斯,本文不作深入探讨。

四、一个关于李雷和韩梅梅的通俗例子

06fc83249f80

李雷和韩梅梅

今年,某高中高三班新来一位名叫李雷的同学,其他同学并不了解的任何信息,所以,只能依据该校历年一本上线率20%,估计李雷将来考上一本的可能性也是20%。这是

math?formula=%5Ccolor%7Brgb(255%2C0%2C0)%7D%7B%E5%85%88%E9%AA%8C%E6%A6%82%E7%8E%87%7D

接下来的一个月,班主任老师发现,李雷每天都去上自习。根据学校以往的调查,那些考上一本的学生,几乎全部天天泡自习室,那些没考上一本的学生,也有30%天天泡在自习室里。这是

math?formula=%5Ccolor%7Brgb(255%2C0%2C0)%7D%7B%E4%BC%BC%E7%84%B6%E5%BA%A6%7D

有了这个信息,在老师看来,李雷考上一本的可能性,从20%提高到了45%。这是

math?formula=%5Ccolor%7Brgb(255%2C0%2C0)%7D%7B%E5%90%8E%E9%AA%8C%E6%A6%82%E7%8E%87%7D。计算过程如下 :

证据

假设

math?formula=P(H)

math?formula=P(D%7CH)

math?formula=P(H)P(D%7CH)

math?formula=P(D)

math?formula=P(H%7CD)

每天上自习

考上一本

0.2

1

0.2

0.44

0.45

每天上自习

考不上一本

0.8

0.3

0.24

0.44

0.55

隔壁班上有个叫韩梅梅的学生,是李雷的发小,全校只有她知道,李雷原来所在的学校是省重点,那个学校的一本上线率高达40%。所以,在韩梅梅的判断里,先验概率不是其他同学所估计的20%,而是40%。这就是

math?formula=%5Ccolor%7Brgb(255%2C0%2C0)%7D%7B%E4%BF%A1%E6%81%AF%E4%BC%98%E5%8A%BF%7D

在她看来,李雷考上一本的可能性高达69%。计算过程如下:

证据

假设

math?formula=P(H)

math?formula=P(D%7CH)

math?formula=P(H)P(D%7CH)

math?formula=P(D)

math?formula=P(H%7CD)

每天上自习

考上一本

0.4

1

0.4

0.58

0.69

每天上自习

考不上一本

0.6

0.3

0.18

0.58

0.31

其实,李雷并没有告诉大家,他一直是原来学校的年级倒数第一,大名鼎鼎的学渣一枚,奋斗目标可不是什么五道口理工学院,他说英雄不问出处,自己不挑学校!天天去自习室,是因为韩梅梅也每天呆那儿!这就是

math?formula=%5Ccolor%7Brgb(255%2C0%2C0)%7D%7B%E4%BF%A1%E6%81%AF%E4%B8%8D%E5%AF%B9%E7%A7%B0%7D

掌握的信息越多,对事物的判断将更准确!企业的员工那么多,HR还应付得过来吗?

如何把这些原理和方法用于企业里的人才识别?效果能好吗?什么样的企业可以试试?

敬请关注,持续更新!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值