数据管理、理解与最近邻分类学习
1. 数据管理与理解基础
在数据处理中,卡方值在皮尔逊卡方独立性检验中有着重要作用,它衡量了两个变量之间的独立性。该检验用于判断表格中单元格计数的差异是否仅仅是由随机因素导致。若概率极低,则表明两个变量之间存在关联。在调用 CrossTable() 函数时,添加参数 chisq = TRUE 即可获得卡方检验结果。例如,当得到的概率约为 93% 时,说明单元格计数的变化很可能是随机因素造成的,而非模型与颜色之间存在真正的关联。
在数据管理方面,基础的数据结构是向量,它可以扩展和组合成更复杂的数据类型,如列表和数据框。数据框类似于数据集,包含特征和示例。并且,有相应的函数可用于将数据框读写到类似电子表格的表格数据文件中。
以二手车价格数据集为例,我们可以使用常见的中心和离散摘要统计量来检查数值变量,通过散点图可视化价格与里程表读数之间的关系,使用表格检查名义变量。这种探索性的过程可用于理解任何数据集。
2. 最近邻分类的概念引入
最近邻分类器的核心思想源于生活中的一些现象。想象一种特殊的用餐体验,在完全黑暗的餐厅里,顾客通过味觉和嗅觉来探索食物。当品尝未知食物时,人们会思考其主导味道、是甜还是咸,以及是否与之前吃过的东西相似。这就像一句俗语“如果它闻起来像鸭子,尝起来像鸭子,那你可能吃的就是鸭子”,体现了“物以类聚”的原则。机器学习利用这一原则,将数据与相似或“最近”的邻居归为同一类别进行分类。
最近邻分类器具有广泛的应用,包括计算机视觉中的光学字符识别和面部识别、预测用户对电影或音乐的喜好,以及识别基因数据中的模式等。不过,它
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



