
数据分析
大胖头leo
这个作者很懒,什么都没留下…
展开
-
数据清洗-缺失值处理
为什么需要清洗数据? 我们拿到的数据,无论是结构化的、半结构化的还是非结构化的数据,都是一个天生的畸形儿,从出生的那一刻就带来一身“疾病”。常常面临的问题主要包括,但不仅仅是,以下问题: 数据不完整 经常遇见比如人物属性字段值:性别,姓名,年龄,学历等,有缺失情况。一条记录,常常不是缺胳膊就是少腿,你还不能直接把它枪毙掉。 数据有重复 所有字段的值都相...转载 2018-07-30 11:21:27 · 2151 阅读 · 0 评论 -
数据分析中的缺失值处理
对缺失值的处理要具体问题具体分析,为什么要具体问题具体分析呢?因为属性缺失有时并不意味着数据缺失,缺失本身是包含信息的,所以需要根据不同应用场景下缺失值可能包含的信息进行合理填充。下面通过一些例子来说明如何具体问题具体分析,仁者见仁智者见智,仅供参考:“年收入”:商品推荐场景下填充平均值,借贷额度场景下填充最小值;“行为时间点”:填充众数;“价格”:商品推荐场景下填充最小值,商品匹配场景下填充平均...转载 2018-03-09 11:42:17 · 9955 阅读 · 0 评论 -
信息熵是什么
文章转自转载: https://blog.youkuaiyun.com/saltriver/article/details/53056816,只是画了一些重点自己学的重要的东西 信息是我们一直在谈论的东西,但信息这个概念本身依然比较抽象。在百度百科中的定义:信息,泛指人类社会传播的一切内容,指音讯、消息、通信系统传输和处理的对象。但信息可不可以被量化,怎样量化?答案当然是有的,那就是“信息熵”。早在1948年...转载 2018-03-26 15:08:33 · 2068 阅读 · 0 评论 -
回归模型中的哑变量
在构建回归模型时,如果自变量X为连续性变量,回归系数β可以解释为:在其他自变量不变的条件下,X每改变一个单位,所引起的因变量Y的平均变化量;如果自变量X为二分类变量,例如是否饮酒(1=是,0=否),则回归系数β可以解释为:其他自变量不变的条件下,X=1(饮酒者)与X=0(不饮酒者)相比,所引起的因变量Y的平均变化量。但是,当自变量X为多分类变量时,例如职业、学历、血型、疾病严重程度等等,此时仅用一...原创 2018-05-15 12:10:59 · 34819 阅读 · 0 评论 -
KNN 同时使用离散和连续变量 作为训练数据
KNN是通过计算距离,获得最近的K个邻居 而完成分类, 所以说,他本质上是要用numeric 来完成分类。 所以可以通过将分类变量转换为numeric 来进行KNN分类:衣服大小 编码 S 1 M 2 L 3 如果是这样的转化 没有问题, 因为本身 categorical data 就是有顺序的,(ordinal da...原创 2019-04-25 21:37:35 · 4757 阅读 · 4 评论 -
协同过滤推荐ALS PySpark.mllib库
啥是协同过滤?就是用户对所有产品打分,然后根据分数来给用户分组,那同一个组内的用户喜欢的东西应该是相似的。其他的推荐算法例如内容推荐,就是先给产品分类(根据一些乱七八糟的),在将用户分类,然后把新来的产品(网页,东西)分类,在将这个产品推荐给感兴趣这个分类的用户。协同过滤有啥优缺点 优点d 缺点 他不需要对产品(内容)进行分析,因为只要...原创 2019-09-12 18:53:52 · 1165 阅读 · 0 评论