初学耗时:0.5h
注:优快云手机端暂不支持章节内链跳转,但外链可用,更好体验还请上电脑端。
记忆词:
数据预处理
一、模块开发:数据预处理 - 实现方式
- 使用 MapReduce 程序对数据进行预处理。
- 预处理过程中有些编程小技巧需要注意:
- 如果涉及多属性值数据传递 通常可建立与之对应的 javabean 携带数据传递。注意要实现 Hadoop 序列化机制—writable 接口。
- 有意识的把 javabean 中 toString 方法重写,以\001 进行分割,方便后续数据入 hive 映射方便。
- 如涉及不符合本次分析的脏数据,往往采用逻辑删除,也就是自定义标记位,比如使用 1 或者 0 来表示数据是否有效,而不是直接物理删除。
- - - - - - - - - - - - - - - - - - - - - - - - - - - -
^ 至此,模块开发:数据预处理 - 实现方式完成。
- - - - - - - - - - - - - - - - - - - - - - - - - - - -
※ 世间诱惑何其多,坚定始终不动摇。
信息库研究的核心问题是如何保持信息库的_____。
…
一致性
- - - - - - - - - - - - - - - - - - - - - - - - - - - -
注:优快云手机端暂不支持章节内链跳转,但外链可用,更好体验还请上电脑端。
我知道我的不足,我也知道你的挑剔,但我就是我,不一样的烟火,谢谢你的指指点点,造就了我的点点滴滴:)!