上接法律网推荐(一) 用Hive进行数据探索分析
3)数据预处理
1. 数据清洗
2. 数据变换
3. 属性规约
通过上述网址类型分布分析,后续分析中,选取其中占比最多的两类(咨询内容页、知识内容页)进行模型分析。可以发现一些与分析目标无关的数据清洗规则:
上接法律网推荐(一) 用Hive进行数据探索分析
3)数据预处理
1. 数据清洗
2. 数据变换
3. 属性规约
通过上述网址类型分布分析,后续分析中,选取其中占比最多的两类(咨询内容页、知识内容页)进行模型分析。可以发现一些与分析目标无关的数据清洗规则: