条件:海量职位文本,一个“能力词库”。。
由职位中抽取标题,也就是你的职位类别是安全工程师还是数据开发工程师,这样就有职位类别了,然后你不是有一个能力词库嘛,比如java,c++,nlp,研究生等等,这样你就构成了i是能力词,列是职位类别的二维表,然后你就可以用卡方特征选择方程,去算出每个能力词与职位类别的卡方直,取topN,比如top5,作为关联特征,这样,你就得到了每个职位类别维护一个关联特征数组,比如职位类别A维护一个数组(java,c++,nlp,研究生,数据开发),每个职位类别都维护一个与之关联的特征数组,而且i越小特征越关联。。
每过来一封简历,就去能力词库中去对比简历是否含有词库中的词,这样就形成了0101构成的一个向量,然后与每个职位类别中的关联特征算分,比如说关联特征中i=0就给5分,也就是权重,i=1就给4分,这也是权重,然后系数就是看这个响亮中该词部分是0还是1,0就是0,1就是1,最后算出一封简历与各个职位类别的权重,然后选出最符合要求的职位类型,然后把这个简历发送给给职位类型对应的所有招人者。
这是前期基于特征选取以及给予内容的推荐,因为前期没有产生太多行为,所以容易产生冷启动问题,所以用这种方式先推,等产生行为之后,再结合协同过滤一起来推荐,达到一定的推荐效果。
----一个在招聘公司推荐算法场景的应用逻辑