更多的是做算法解决应用工程师,偏重应用,而不是算法的开发。
常用算法
回归 分类 PCA 文本挖掘
如何进行数据分析思路
1、首先要将数据分成训练集和评估集。
2、定义数据基本信息
是连续型 离散型
是输入变量 预测变量
3、确定数据的贡献度
4、填充缺失数据(连续数据:平均值 离散数据:众数中位数 数据分布)
5、确定模型的评价指标和参数
什么是大数据(特征)
体量大,超过PB,达到EB数据量
数据在不断产生的过程中,时时刻刻都在产生,产生的速度非常快,难以用传统数据工具处理
数据存储形式多样性
数据的不确定性(数据缺失),数据缺失不一定对大数据真正的有影响,比如注册时,不填性别、年龄,但是不影响整个数据,反而也有价值,可以分析为什么这部分人不填,借此分析出这部分人群更注重隐私,所以可以根据这一特性来给她们推荐保护隐私的样本,这是数据缺失的价值所在。
数据清洗(占据80%-90%的精力,更需要行业背景知识)
数据画像:大数据是人工无法分析的,要通过数据画像(柱状图,数据审计)。可以看出数据是不平衡的,
数据审计可以知道数据离散(普通的,有先后顺序的(早中晚))还是连续
数据过滤操作 数据平衡操作(100万男性,5万女性就需要平衡)装箱操作(binbu)把连续型变量转为离散型,关心时间段而不是时间点,把8,9,10点装成早上,简化计算。
数据准备
数据算法
分类回归可以解决所有问题
分类
线性回归 0.1 0.2 0.3
广义线性回归 0.1 0.4 0.9(开方转为线性)
广义混合线性回归(加入了一些随机效应)早上吃 中午吃 晚上吃 逻辑回归 树模型 SVM 贝叶斯神经网络 自学习算法
自行车租赁量:可以看出气温 天气 季节前三决定了租赁量