
Big Data
喵喵_Love
这个作者很懒,什么都没留下…
展开
-
关于Hadoop的核心组件
三大核心组件:HDFS+YARN+MR HDFS:分布式文件系统 1、文件被切成多块,分别存储在多个服务器的本地文件系统中 2、对用户屏蔽了一些底层的信息(文件被切成了几块?存放在那些服务器上)提供了一个抽象的统一接口 3、文件可以保存多个备份 4、HDFS的文件和具体实际的存储位置之间的对应关系由一个专门的服务器进行管理(namenode) 特点:容量可以扩展(增加服务器);有备份,存...原创 2018-09-22 17:08:01 · 1548 阅读 · 0 评论 -
数据分析过程01
数据分析过程:转换处理原始数据,可视化呈现 过程链: 问题定义 数据抽取 数据清洗 数据转换 数据探索 预测模型 模型评估/测试 结果可视化和阐述 解决方案部署 ...原创 2018-11-29 10:55:23 · 247 阅读 · 0 评论 -
数据处理
关于数据中,处理缺失值的方法: 1)删除观察样本 2)删除变量:当某个变量缺失值较多且对研究目标的影响不大时,可以将整个变量整体删除 3)使用完整原始数据分析:当数据存在较多缺而其原始数据完整时,可以用原始数据替代现有的数据进行分析 4)改变权重:当删除确实数据会改变数据结构时,通过对完整数据按照不同权重进行加权,可以降低删除缺失数据带来的偏差查补法:均值插补、回归插补、抽样插补、抽样填补...原创 2018-12-06 10:50:29 · 406 阅读 · 0 评论