可汗学院的统计学

均值,中位数(从小到大排列,中间的数,如果是序列数为偶数,则为中间两个值的均值),众数:数列中出现次数最多的数
极差:最大值减最小值,考虑的也是数据集中的一种方式
中程数:极大值加极小值再除以2
象形统计图、条形图(类别或差值)、线形图(趋势)、饼图(占比)、茎叶图、箱线图
这些图形各有作用,不用的话肯定会忘记,但是有个印象再次看的时候也会比较简单特别是茎叶图和箱线图这种用的比较少的,象形统计图其实就是微信朋友圈大量转发的看看有多少人会算错的小学题目那种使用象形来记录,并且每个象形代表的数目不同

描述性统计学

描述集中趋势,均值,中位数,众数,离群值,在平均工资,平均房价,学生成绩等情况中,中位数或者众数更能反映集中趋势,离群值可能有预测量错误或没写特殊条件的值没有参考意义,但是会改变平均值
连续型随机变量
离散型随机变量
离散概率密度分布函数,条形图
连续概率密度分布,因为是连续的,可以去无限值,所以等于某个准确的具体值的概率基本为0,计算的都是某个范围的概率,就是根据概率密度函数积分计算某段的面积

推论型统计学

总体均值μ,样本均值X上一横杠即X“罢”
方差都是要除以数量的,是个差平方和的均值
总体方差sigmod平方,样本方差S方,样本方差通常会小于总体方差,所以出现无偏估计,样本方差的无偏估计是使用n-1取代n作为除数,即所有样本与样本均值的差平方和除以n-1,而不是n
标准差就是方差开根号
协方差表示的是两个随机变量的相关性,两个相互独立的变量协方差一定位0,协方差为0的两个随机变量不一定相互独立,协方差不为0的两个随机变量一定相关,协方差大于0,两个随机变量正相关,反之负相关。
这些概念的定义都是公式的,可以去书上查一下,可能符号稍显复杂,但是理解起来并不复杂
以下部分不再分推论性和描述性统计学,根据视频做的记录,有的添上了自己的理解
二项分布(离散情况)次数越多越趋向钟形曲线(高斯曲线)
二项分布概率计算
连续情况的二项分布即为正态分布 或称为高斯分布
期望值就是总体均值,只不过在无穷个数下,均值无法计算,期望值是规避无穷这个参数而采用频率的另一种计算均值的方式
二次分布的期望值为np,n为总次数,p为每次成功的概率,所以期望值就是做了m个n次事件,m次事件中,平均每n次中成功多少次。
视频中公式就是离散期望的计算方法,做了m个n次试验,每个n次实验成功次数为k,再乘以概率,把成功0次到成功n次都加起来就是期望,化简以后就是n
p
泊松过程
大数定理:当样本数趋于无穷时,样本均值无限接近与总体均值
对于大数定理的错误理解,当前面有限次样本均值高于总体期望时,后面会出现低于总体期望的样本均值来弥补,使总的样本均值趋向于总体期望,这是错误的理解。大数定理不关心有限次的试验的结果,而是在无限次的实验中的样本期望会接近于总体期望,在这种情况下,有限次高于总体期望的样本均值在无限次接近总体期望的平均下,就不会产生很大的影响,事件发生的概率不会改变,更不会因为前面试验的样本均值,而影响后面的样本均值。
正态分布、标准Z分数即样本距离总体均值有多少个标准差,就是正态分布公式中(x-μ)/sigmod

经验法则:68.3-95.4-99.7即标准Z分数为1时,其概率为68.3%左右,2个标准差(即z=2)时,概率为95%左右,三个标准差时概率为99.7%左右
中心极限定理:
样本均值的抽样分布:从原样本(任意某种分布)中抽取样本,做均值处理。样本值越大,即所抽取样本越多,越接近正态分布
正偏态分布、负偏态分布(概率偏右,左侧尾部较长)、正峰态(尖)、负峰态(圆滑,扁平)
样本均值抽样分布的方差(均值标准差)为(原分布方差/样本容量)再开方
通过例题的理解,对样本均值的抽样分布有了更好的理解,针对总体任何分布,知道均值和方差,取相应样本容量,由中心极限定理可得知均值接近,可计算标准差,进而估计某些情况的概率(男性每天喝水均值2L,标准差0.7,样本容量50,求:一天带了110L水,50个男性不够喝的概率。可求得每人平均2.2L,标准差为0.7/根号下50=0.099,(标准Z分数)Z=0.2/0.099
=2.02,即2.02个标准差,插Z分数表可得小于该区间的概率为97.83%,所以不够的概率为2.17%)
伯努利分布的期望与方差,上面图片的0-1分布就是伯努利分布,是二项分布的特殊情况
对于机器学习中的概率部分跑不出以下情况,不会涉及非常高深的数学内容,掌握了就没问题(这可不是我说的)
基础概念:
期望,方差,协方差,概率与频率,PMF/PDF期望方差概念
各种分布汇总:
均匀分布,0-1分布,二项分布,多项分布,泊松分布,正态分布,Gamma分布,Beta分布
Dirichlet分布,共轭分布,t分布,F分布,卡方分布
常用方法:
极大似然法,最大后验估计

<think>好的,用户之前让我介绍了数据分析的基本概念,现在他们进一步询问需要学习什么,并希望得到具体的学习路线。我需要确定他们的学习目标是什么,是转行、提升现有技能,还是出于兴趣?之前的回答提到了工具、步骤和应用场景,现在用户可能想要更详细的步骤,比如从基础到进阶的学习路径。 用户可能没有明确说明自己的背景,比如是否有编程或统计基础。所以,我应该建议一个适合零基础的学习路线,同时兼顾有基础的人可能需要的内容。需要涵盖技能树中的各个部分,如编程语言、统计学、数据清洗、可视化、机器学习等。 还要考虑资源推荐,用户可能希望有免费或中文的资源,方便学习。例如推荐Python、SQL的学习资料,Kaggle项目,以及实战案例。同时,需要强调业务思维的重要性,因为很多新手可能只关注技术而忽视实际应用。 另外,用户可能希望路线有明确的阶段划分,比如基础、进阶、实战,这样他们可以逐步跟进。需要给出每个阶段的具体学习内容和目标,以及时间预估,帮助他们制定计划。 最后,提醒他们学习过程中实践的重要性,避免只看不练。可能还需要鼓励他们参与社区或项目,以保持动力。总结来说,需要提供一个结构清晰、分阶段、涵盖必要技能和资源推荐的学习路线,帮助用户系统性地学习数据分析。</think>以下是针对**数据分析领域**的系统化学习路线,分为 **基础知识 → 核心技能 → 工具实战 → 业务应用** 四个阶段,涵盖必学内容、推荐资源及时间规划,适合零基础入门或转行参考: --- ### **一、基础知识阶段(1-2个月)** **目标**:掌握数据分析底层逻辑和基础工具。 1. **数学与统计基础** - **描述性统计**:均值、中位数、方差、标准差、分布(正态/偏态)。 - **概率基础**:条件概率、贝叶斯定理、常见分布(二项分布、泊松分布)。 - **核心概念**:假设检验(p值、置信区间)、相关性分析、回归分析。 - **学习资源**:可汗学院统计学课程(免费)、书籍《深入浅出统计学》。 2. **编程语言入门** - **Python**: - 基础语法(变量、循环、函数)。 - 数据分析三剑客:**Pandas**(数据处理)、**NumPy**(数值计算)、**Matplotlib/Seaborn**(可视化)。 - **SQL**: - 增删改查(SELECT、JOIN、GROUP BY)、窗口函数、性能优化。 - **推荐资源**: - 廖雪峰Python教程(免费)、《利用Python进行数据分析》。 - SQLZoo在线练习(免费)、《SQL必知必会》。 --- ### **二、核心技能阶段(2-3个月)** **目标**:掌握完整数据分析流程及进阶技术。 1. **数据清洗与预处理** - 处理缺失值(删除、填充)、异常值检测(IQR、Z-score)、数据归一化/标准化。 - 数据合并(merge、concat)、时间序列处理。 2. **数据分析方法** - **探索性分析(EDA)**:分布分析、交叉分析、相关性热力图。 - **统计建模**:线性回归、逻辑回归、聚类分析(K-Means)。 - **机器学习入门**:决策树、随机森林(Scikit-learn库)。 3. **数据可视化** - 工具:Tableau/Power BI(拖拽式)、Python的Plotly/Dash(交互式)。 - 设计原则:如何用折线图、柱状图、散点图清晰传达信息。 --- ### **三、工具实战阶段(1-2个月)** **目标**:通过真实项目巩固技能,建立作品集。 1. **实战项目推荐** - **Kaggle入门竞赛**:泰坦尼克号生存预测、房价预测。 - **自选数据集分析**: - 电商用户行为分析(分析复购率、流失原因)。 - 社交媒体情感分析(Python + 自然语言处理库NLTK)。 - **完整项目流程**: ```markdown 1. 明确分析目标(例如:抖音用户活跃度下降的原因是什么?) 2. 数据清洗 → 探索分析 → 建模 → 可视化 → 报告输出 ``` 2. **工具链整合** - **自动化脚本**:用Python脚本实现数据抓取、清洗、分析的流水线。 - **数据库实战**:从MySQL查询数据 → 导出到Python分析 → 结果存入新表。 --- ### **四、业务应用阶段(长期积累)** **目标**:将技术能力转化为业务价值。 1. **行业知识积累** - **电商**:GMV、转化率、漏斗分析、A/B测试。 - **金融**:风控模型、用户信用评分、反欺诈。 - **运营**:用户分层(RFM模型)、生命周期管理。 2. **软技能提升** - **沟通能力**:用白话向非技术人员解释“p值小于0.05”的意义。 - **问题拆解**:将模糊问题转化为可分析的具体指标(例如:“用户增长”拆解为新增、留存、召回)。 3. **持续学习方向** - **大数据工具**:PySpark、Hadoop(处理海量数据)。 - **高级分析**:时间序列预测(ARIMA、Prophet)、深度学习(TensorFlow)。 --- ### **五、学习资源推荐** | **类型** | **推荐内容** | |----------------|-----------------------------------------------------------------------------| | **免费课程** | Coursera《Data Science专项课程》(约翰霍普金斯大学)、B站“戴师兄数据分析” | | **书籍** | 《Python数据科学手册》《精益数据分析》《机器学习实战》 | | **社区/平台** | Kaggle(竞赛+数据集)、和鲸社区(中文项目)、掘金(技术文章) | --- ### **六、学习计划模板(6个月速成)** | **月份** | **重点内容** | **产出目标** | |----------|-------------------------------------------|---------------------------------------| | 第1-2月 | Python+SQL基础、统计学 | 能用Pandas完成数据清洗,写简单SQL查询 | | 第3-4月 | 机器学习模型、可视化工具 | 完成Kaggle入门项目,制作分析报告 | | 第5-6月 | 行业案例实战(如电商、金融) | 拥有3个完整项目作品,熟悉业务指标 | --- ### **关键提醒** 1. **避免陷入工具党**:不必追学会所有工具,优先掌握Python+SQL+可视化。 2. **业务>技术**:分析结论必须能回答“这对公司有什么价值?” 3. **保持输出**:通过博客、GitHub记录学习过程,面试时直接展示代码和报告。 如果需要某个环节的**详细资料**或**项目代码模板**,可以告诉我具体方向! 🚀
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值