数据类型
定性数据:一般通过问卷调查获取
- 分类数据:男女,天气(不能区分大小,运算)
- 顺序数据:满意度评分,小学,中学,大学(可区分大小)
定量数据:一般通过日志获取
- 数值型数据离散型:用户数,消费次数(可加减)
- 数值型数据连续型:成绩,消费金额(可以乘除)
统计方法:
连续型变量:能做频数分析,集中趋势分析(均值,众数,中位数),离散程度分析(标准差,方差,最大值,最小值,范围)
非连续型变量:主要能做频数分析
数据收集:
- 数据埋点:如UV/PV,用户数,用户停留时间,浏览页面等用户行为数据
- 第三方的数据平台:如Growing IO,SimilarWeb, Google Analytics,国家统计局网站
- 问卷调查:线上问卷调查,制作问卷工具;线下问卷调查
数据整理:
- 数据异常表现:空值,波动太大,不同数据源获取的数据矛盾
- 数据异常原因:系统故障,人为因素
- 数据如何清洗:删除异常值,平均值填充,通过统计计算值填充,不同数据源的数据交叉验证