
数据分析
文章平均质量分 54
fanfanyuzhui
这个作者很懒,什么都没留下…
展开
-
计算熵
1 计算熵我们检查的属性是是否出去玩。用Excel对上面数据的play变量的各个取值排个序(这个工作簿里把“play”这个词去掉),一共是14条记录,你能数出取值为yes的记录有9个,取值为no的有5个,我们说这个样本里有9个正例,5个负例,记为S(9+,5-),S是样本的意思(Sample)。这里熵记为Entropy(S),计算公式为:Entropy(S)=-(9/14)*log转载 2014-12-18 13:41:42 · 2295 阅读 · 0 评论 -
数据分析---常用检验收录
t检验适用于计量资料、正态分布、方差具有齐性的两组间小样本比较。包括配对资料间、样本与均数间、两样本均数间比较三种,三者的计算公式不能混淆。(处理时不用判断分布类型就可以使用t检验)t'检验应用条件与t检验大致相同,但t′检验用于两组间方差不齐时,t′检验的计算公式实际上是方差不齐时t检验的校正公式。U检验应用条件与t检验基本一致,只是当大样本时用U检验,而原创 2014-11-21 10:26:14 · 613 阅读 · 0 评论 -
R -ggplot2 气泡图
关键词点击成本投入产出比总费用MTF词8.10.1732673有入金的词16.91.1523740外汇词5.50.1813979竞品词3.61.4612765外汇交易词6.30.6111285炒外汇词8.00.329866外汇平台词原创 2015-03-26 11:18:45 · 13600 阅读 · 0 评论 -
python 实现动态行转列
python 代码import pandas as pdfrom collections import defaultdictgeo_df=pd.read_excel('path\geo.xlsx')geo_dict=defaultdict(list)for k,v in geo_df.values: geo_dict[k].append(v)for i,j in geo_dict原创 2017-07-04 15:22:38 · 1073 阅读 · 0 评论 -
pandas apply vs agg vs transform
Data Prepartionimport pandas as pdimport numpy as npdf = pd.DataFrame({'A': [1, 1, 2, 2],'B': [1, 2, 3, 4],'C': np.random.randn(4)})2.先来一波正常聚合操作1.求和 sum,计数(非去重:size 或者 len 都可以,去重的:pd.Se原创 2017-11-14 16:18:07 · 3171 阅读 · 0 评论