利用R进行统计与机器学习实践
1. 适用人群与前置要求
适合初学者到中级水平的数据科学家、本科到硕士阶段的学生,以及初、中级资深数据科学家或从事分析相关工作的人员。具备线性代数和建模的基础知识,对编程有一定了解(理想情况下熟悉R语言,但具备其他编程语言基础也可),熟悉基础统计和数学概念将有助于学习。
2. 学习内容概述
2.1 统计基础
- R编程入门 :涵盖R和RStudio的基础知识,常见数据类型(如数值型、字符型等)和数据结构(向量、矩阵、数据框、列表),以及控制逻辑(关系运算符、逻辑运算符、条件语句、循环)和函数的使用。
- 数据处理
- dplyr库 :用于数据转换(如切片、排序、添加或修改列、选择列、选择前几行)、聚合(计数、分组汇总)和合并。
- 中级数据处理 :处理分类和数值变量的转换(重新编码、分箱)、数据框重塑(长格式与宽格式转换)、字符串数据操作(创建、转换、连接、模式匹配、拆分、替换)、正则表达式和文本挖掘。
- 数据可视化 :使用ggplot2库创建散点图、条形图、折线图等,理解图形语法、几何对象和主题控制。
- 探索性数据分析 :分析分类和数值数据,包括汇总统计、可视化(高维可视化、边际分布和分面条形图)、测量中心趋势和变异性,以及处理偏态分布。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



