数据科学IBM-SPSS分析课

更多的是做算法解决应用工程师,偏重应用,而不是算法的开发。

常用算法

 

回归 分类 PCA 文本挖掘

 

如何进行数据分析思路

1、首先要将数据分成训练集和评估集。

2、定义数据基本信息 

是连续型 离散型

是输入变量 预测变量

3、确定数据的贡献度

4、填充缺失数据(连续数据:平均值 离散数据:众数中位数 数据分布)

5、确定模型的评价指标和参数

什么是大数据(特征)

体量大,超过PB,达到EB数据量

数据在不断产生的过程中,时时刻刻都在产生,产生的速度非常快,难以用传统数据工具处理

数据存储形式多样性

数据的不确定性(数据缺失),数据缺失不一定对大数据真正的有影响,比如注册时,不填性别、年龄,但是不影响整个数据,反而也有价值,可以分析为什么这部分人不填,借此分析出这部分人群更注重隐私,所以可以根据这一特性来给她们推荐保护隐私的样本,这是数据缺失的价值所在。

数据清洗(占据80%-90%的精力,更需要行业背景知识)

数据画像:大数据是人工无法分析的,要通过数据画像(柱状图,数据审计)。可以看出数据是不平衡的,

数据审计可以知道数据离散(普通的,有先后顺序的(早中晚))还是连续

数据过滤操作 数据平衡操作(100万男性,5万女性就需要平衡)装箱操作(binbu)把连续型变量转为离散型,关心时间段而不是时间点,把8,9,10点装成早上,简化计算。

数据准备

数据算法

分类回归可以解决所有问题

分类

线性回归 0.1 0.2 0.3

广义线性回归 0.1 0.4 0.9(开方转为线性)

广义混合线性回归(加入了一些随机效应)早上吃 中午吃 晚上吃 逻辑回归 树模型 SVM 贝叶斯神经网络 自学习算法

自行车租赁量:可以看出气温 天气 季节前三决定了租赁量

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值