数据科学IBM-SPSS分析课

最新推荐文章于 2024-04-28 11:03:24 发布

原创

最新推荐文章于 2024-04-28 11:03:24 发布 · 566 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

更多的是做算法解决应用工程师，偏重应用，而不是算法的开发。

常用算法

回归分类 PCA 文本挖掘

如何进行数据分析思路

1、首先要将数据分成训练集和评估集。

2、定义数据基本信息

是连续型离散型

是输入变量预测变量

3、确定数据的贡献度

4、填充缺失数据（连续数据：平均值离散数据：众数中位数数据分布）

5、确定模型的评价指标和参数

什么是大数据（特征）

体量大，超过PB，达到EB数据量

数据在不断产生的过程中，时时刻刻都在产生，产生的速度非常快，难以用传统数据工具处理

数据存储形式多样性

数据的不确定性（数据缺失），数据缺失不一定对大数据真正的有影响，比如注册时，不填性别、年龄，但是不影响整个数据，反而也有价值，可以分析为什么这部分人不填，借此分析出这部分人群更注重隐私，所以可以根据这一特性来给她们推荐保护隐私的样本，这是数据缺失的价值所在。

数据清洗（占据80%-90%的精力，更需要行业背景知识）

数据画像：大数据是人工无法分析的，要通过数据画像（柱状图，数据审计）。可以看出数据是不平衡的，

数据审计可以知道数据离散（普通的，有先后顺序的（早中晚））还是连续

数据过滤操作数据平衡操作（100万男性，5万女性就需要平衡）装箱操作（binbu）把连续型变量转为离散型，关心时间段而不是时间点，把8,9,10点装成早上，简化计算。

数据准备

数据算法

分类回归可以解决所有问题

分类

线性回归 0.1 0.2 0.3

广义线性回归 0.1 0.4 0.9（开方转为线性）

广义混合线性回归（加入了一些随机效应）早上吃中午吃晚上吃逻辑回归树模型 SVM 贝叶斯神经网络自学习算法

自行车租赁量：可以看出气温天气季节前三决定了租赁量

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。