
特征工程
江南小白龙
这个作者很懒,什么都没留下…
展开
-
【特征工程系列2】如何获得训练数据的标签?
机器学习可以大致分为有监督和无监督两大类。其中,有监督是指训练数据是带标签的,如果标签准确,其性能一般优于无监督学习。 在各大教科书上,“带标签”和“不带标签”都是直接假定的。那么,问题来了,在现实中,如何获得带标签的训练数据呢?结合自己最近参与的数据挖掘项目,我总结出了以下三种方法:1) 人工标注:顾名思义,就是由专家人工标注部分数据,用作训练集。这种方法工作原创 2015-09-27 10:08:23 · 7615 阅读 · 0 评论 -
【特征工程系列1】用户评价信息的特征化
在各种互联网平台中,或多或少都可以获得用户对商品、产品、服务等的评价信息(往往以星级或分数的形式展现)。通过这些信息,我们可以方便的提取这些商品、产品或服务的“质量”特征。对于“质量”特征,常用的方法是求数学期望。例如,假设某一商品得到1星的次数是x1,2星的次数是x2,3星的次数为x3,4星的次数为x4,5星的次数为x5,这样,可以算出该商品的期望星数为:E(x)=1*x1/(x1+x2原创 2015-09-20 14:09:09 · 631 阅读 · 0 评论 -
【特征工程系列3】Zipf定律及其特征化
(1). Zipf定律描述1932年,哈佛大学的语言学专家Zipf在研究英文单词出现的频率时,发现如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的频率与它的名次的常数次幂存在简单的反比关系(如图1),这种分布就称为Zipf定律。其公式为:P(r)=C/r^a这里,r表示一个单词的出现频率的排名,P(r)表示排名为的单词的出现频率。单词频率分布中C约等于0.1, a约等于1。需原创 2015-10-09 10:43:59 · 1925 阅读 · 0 评论