来点干货吧。后面可能工作比较多了,技术选型和架构工作要多一点了。

今天周六,很快,公司的BI要自己部门做了,新架构师希望我们原来的框架有较大改动,后期我需要帮助他很多工作,他的宗旨就是,能偷懒的就不要人为做,一切都尽量实现可配置化,目标是90%,是的,你没听错。开发也要实现配置,而且后期要做推荐系统和用户画像。
我们快速记录一片mr从无到有的记录文档吧。首先mr我就不介绍了,map、reduce的最基本的wordcount程序可以很轻松实现。网上教程铺天盖地的,今天我们讲整合,同时因为签了保密协议,为了公司好,我们很多关键部位任然需要马赛克。
那接下来,我们需要介绍一下,这个工作是我们从日志文件中要用mr做清洗,日志数据是已经是json格式了。
好吧,我们自己单机调试阶段吧,先来下载一个vmware,然后从网上随便找一个单机节点hadoop的快照,

因为是DHCP,然后我们要做的是nat自动分配的ip要找到可用的域,所以别急。

在此之前,我们遇到过一个坑,那我直接就把解决办法放在这里了,

我们win+r键,打开cmd直接输入:services.msc
把这两个开开。
