项目练习(一)APP热点标签分析
1、项目背景
通过找到热度标签,赠标签热度,以提高相应APP的下载量和使用量。
2、需求分析
(1)爬取数据:
6个字段,分别为(appId,app名称, 一级分类,二级分类,三级分类,Tags描述信息),但并不一定完全规整,视实际情况可能左对齐包括四个或五个或六个字段。
(2)保存到hive做进一步分析:
通过大数据开发之hive数据仓库命令行形式,完成数据加载、udf/udaf/udtf函数、统计分析的任务,并演示项目效果即可。
3、主要思路
(1)创建对应的数据表1
(2)加载数据到表1
(3)创建一个表2保存标签和标签量
(4)对数据表1进行处理,“产生数据保存到表2”
4、开发过程
技术组成:hive sql+udf/udaf/udtf
开发规范:
4.0 prepare
(1)相关目录创建
config:存放相关配置变量
create:存放表结构数据
deal:具体的sql脚本
udf:udf/udaf/udtf相关的jar包
4.1按步骤执行
(1) 输入、输出表设计到位。
(2) 将数据加载到输入表中。
(3) hivesql+udf/udaf/udtf实现热词统计与写入库表。
4.2将所有流程串联到a_main.sh脚本中
待开发工作基本完成,需将项目的主体流程,
串联到a_main.sh当中,作为整个项目的主入口。
4.3详细讲解
(1)config:
#! /bin/bash
hive='/usr/bin/hive'
(2)create:
表1
#! /usr/bin/env bash
source ../config/set_env.s