数据分析 Head First
分解数据
确定->分解->评估->决策
实验研究法
控制组(对照组):不做任何处理
历史控制法和同期控制法
历史控制法使用的是过去的数据,将过去的数据做为控制数据
同期控制法与历史控制法相反,控制组和实验组是同时进行的
历史控制法不推荐,最好使用同期控制法。
实验时要注意混杂因素,要尽可能的减少混杂因素
避免的方法:随机选择相似组
最优化 寻找最大值
**目标函数:**c1x1+c2x2=p 『p为目标| c为约束条件| x为决策变量』
用电子表格实现最优化
用excel表格数据拦下的规划求解,最后要得到的结果是哪一格就点这个单元格的规划求解,在弹出的框中填上决策变量和约束条件,约束条件一定要写全, 而且约束条件是随着时间的变化而不断变化的
数据图形化
当提供的数据太多时,只要记住自己的目标只看与目标有关的数据
数据图形化的根本在于正确比较
散点图
散点图通过自变量和因变量发现因果关系
多元图形:能对三个以上的变量进行比较
将多张散点图相邻排放可以实现图形,可以实现这种图形的软件工具
* R统计数据分析程序
* Adobe Illustrator绘图工具
## 假设检验
假设检验的核心是证伪,即剔除无法证实的假设
满意法是选出看上去最可信的第一个假设的做法,但不推荐使用
诊断性能帮助你评估所考虑假设的相对似然,即按照强弱程度对假设进行排列。如果一个证据对3个假设的效果是一样的,那么这个证据没有诊断性
贝叶斯统计
条件概率:以一件事情的发生为前提的另一件事的发生概率
基础概率:
1.又称事前概率,在根据实验分析每个人的情况之前,就已经知道患病的人口大概有1%。
2.要小心基础概率谬误,基础概率不一定每种情况下都存在,但是有的时候一定要用,否则就毁于基础概率谬误。
3.基础概率会因实验针对的人群不同而发生改变。比如第一次针对的是所有人,基础概率为1%。第二次针对的是第一次检测结果为阳性的人,那么基础概率为上次计算出的为阳性且患病的概率9%
贝叶斯规则
利用基础概率和条件概率
实验结果为阳性患蜥蜴流感的概率=基础概率(人口患病的概率)X 真阳性率/[基础概率(人口的患病率)X 真阳性率 + 人口未患病率 X 假阳性率]
主观概率(信念数字化)
主观概率:用一个数字形式的概率来表示自己对某事的确认程度。把人们说话中的可能、一定之类的词用 概率表示
用Excel的STDEV公式计算标准偏差—-=STDEV(数据范围)
贝叶斯规则是用来修正主观概率的好办法
即有新情况或新数据产生时,用贝叶斯规则对原来的主观概率进行修正
P(S1)——>P(S1|E) 第一次的主观概率P(S1)为认为俄罗斯会支持石油业
第二次的主观概率为有新证据出来后继续认为俄罗斯会支持石油业
通过贝叶斯公式 P(S1|E)=P(E|S1)P(S1)/P(E|S1)P(S1)+P(~S1)P(E|~S1)
P(E|S1)也就是在假设条件(俄罗斯会继续支持石油业)成立的条件下,分析师认为证据出现(俄罗斯会宣布他们卖出石油)的主观概率
P(E|~S1)也就是在假设条件(俄罗斯会继续支持石油业)不成立的条件下,分析师认为证据出现(俄罗斯会宣布卖出石油)的主观概率
启发法(凭人类的天性作分析)
启发法:选取一俩个变量,然后根据这几个变量对整个系统做出结论。
1.心理学定义:用一种更便于理解的属性代替一种难解的令人困惑的属性
2.计算机科学定义:一种解决问题的方法,可能会得出正确答案,不保证得出最优化的答案
当解决一个最优化问题时(要知道最大值或最小值),不能都用目标函数来求解,大多数的思维活动都是启发式的