为了节省一步join的MR,使用distribute cache把小文件加载到内存,分析的数据实在过大,导致特征词统计的小文件也可能要达到600M左右,解决办法两种:1.调整数据结构,减少内存中的数据条数;2.改用join的方式加载入数据