Head First 数据分析学习

这篇博客深入浅出地介绍了数据分析的各个关键步骤,包括分解数据、实验研究法、最优化方法、数据图形化、贝叶斯统计、主观概率计算、直方图绘制以及回归分析。通过实例展示了如何使用Excel和R语言进行数据分析,强调了正确比较和理解数据的重要性,并提供了数据处理和管理的实用技巧。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据分析 Head First

分解数据

确定->分解->评估->决策

实验研究法

控制组(对照组):不做任何处理

历史控制法和同期控制法

历史控制法使用的是过去的数据,将过去的数据做为控制数据
同期控制法与历史控制法相反,控制组和实验组是同时进行的
历史控制法不推荐,最好使用同期控制法。
实验时要注意混杂因素,要尽可能的减少混杂因素
避免的方法:随机选择相似组

最优化 寻找最大值

**目标函数:**c1x1+c2x2=p 『p为目标| c为约束条件| x为决策变量』

用电子表格实现最优化

用excel表格数据拦下的规划求解,最后要得到的结果是哪一格就点这个单元格的规划求解,在弹出的框中填上决策变量和约束条件,约束条件一定要写全, 而且约束条件是随着时间的变化而不断变化的

数据图形化

当提供的数据太多时,只要记住自己的目标只看与目标有关的数据
数据图形化的根本在于正确比较

散点图

散点图通过自变量和因变量发现因果关系
多元图形:能对三个以上的变量进行比较
将多张散点图相邻排放可以实现图形,可以实现这种图形的软件工具
* R统计数据分析程序
* Adobe Illustrator绘图工具

## 假设检验

假设检验的核心是证伪,即剔除无法证实的假设
满意法是选出看上去最可信的第一个假设的做法,但不推荐使用
诊断性能帮助你评估所考虑假设的相对似然,即按照强弱程度对假设进行排列。如果一个证据对3个假设的效果是一样的,那么这个证据没有诊断性

贝叶斯统计

条件概率:以一件事情的发生为前提的另一件事的发生概率
基础概率:
1.又称事前概率,在根据实验分析每个人的情况之前,就已经知道患病的人口大概有1%。
2.要小心基础概率谬误,基础概率不一定每种情况下都存在,但是有的时候一定要用,否则就毁于基础概率谬误。
3.基础概率会因实验针对的人群不同而发生改变。比如第一次针对的是所有人,基础概率为1%。第二次针对的是第一次检测结果为阳性的人,那么基础概率为上次计算出的为阳性且患病的概率9%

贝叶斯规则

利用基础概率和条件概率
实验结果为阳性患蜥蜴流感的概率=基础概率(人口患病的概率)X 真阳性率/[基础概率(人口的患病率)X 真阳性率 + 人口未患病率 X 假阳性率]

主观概率(信念数字化)

主观概率:用一个数字形式的概率来表示自己对某事的确认程度。把人们说话中的可能、一定之类的词用 概率表示

用Excel的STDEV公式计算标准偏差—-=STDEV(数据范围)
贝叶斯规则是用来修正主观概率的好办法

即有新情况或新数据产生时,用贝叶斯规则对原来的主观概率进行修正
P(S1)——>P(S1|E) 第一次的主观概率P(S1)为认为俄罗斯会支持石油业
第二次的主观概率为有新证据出来后继续认为俄罗斯会支持石油业

通过贝叶斯公式 P(S1|E)=P(E|S1)P(S1)/P(E|S1)P(S1)+P(~S1)P(E|~S1)

P(E|S1)也就是在假设条件(俄罗斯会继续支持石油业)成立的条件下,分析师认为证据出现(俄罗斯会宣布他们卖出石油)的主观概率
P(E|~S1)也就是在假设条件(俄罗斯会继续支持石油业)不成立的条件下,分析师认为证据出现(俄罗斯会宣布卖出石油)的主观概率

启发法(凭人类的天性作分析)

启发法:选取一俩个变量,然后根据这几个变量对整个系统做出结论。
1.心理学定义:用一种更便于理解的属性代替一种难解的令人困惑的属性
2.计算机科学定义:一种解决问题的方法,可能会得出正确答案,不保证得出最优化的答案
当解决一个最优化问题时(要知道最大值或最小值),不能都用目标函数来求解,大多数的思维活动都是启发式的

使用快省树

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值