Spark推荐系统,干货,心得
点击上方蓝字关注~
hive在大数据分析,大数据开发中是经常用到的,也是必须掌握的技能。下面介绍下hive的安装及简单使用hive跑一个小demo
一、hive环境搭建
hive不需要做集群,搭建hive之前首先安装hadoop
第一步:安装MySQL服务器端和MySQL客户端,并启动MySQL服务
• 安装:
– yuminstall mysql
– yuminstall mysql-server
• 启动:
–/etc/init.d/mysqld start
• 设置用户名和密码:
– mysqladmin-u root password '111111‘
• 测试登录是否成功:
• 第二步:安装Hive
• 下载hive-0.12.0-bin.tar.gz,并解压:
• 在conf目录下,创建hive-site.xml配置文件:
• 第三步:配置Hive环境变量
并将mysql-connector-java-5.1.41-bin.jar拷贝到hive home的lib目录下,以支
持hive对mysql的操作
• 第四步:测试
有hive终端连接 进程如下,多一个RunJar
HIve的接口
CLI:linux客户端
JDBC:java接口
WUI:浏览器的方式。大部分公司使用这个方式
二、hive实现wordcount
1、创建表
create tabletextlines1(line string)
2、数据导入
数据连接:
https://pan.baidu.com/s/1sC0rU8tFWFxeglsb2ZFGkw 提取码:c0du
load datainpath '/The_Man_of_Property.txt' overwrite into table textlines; (从hdfs上面导)
load data local inpath 'The_Man_of_Property.txt'overwrite into table textlines; (从本地上面导)
区别是:有没有local
3、实现wordaccount语句之hql
select word,count(*) from
(selectexplode(split(line, " ")) as word from textlines) t
group byword;
查询结果导出方法
可以使用hive-e “hql语句“ >> 文件 将输出结果保存到本地
也可以使用 insert overwrite localdirectory '/home/wyp/wyp' 后面加语句
其中有local代表导出到本地,没有local代表导出到hdfs
推荐阅读:
Spark-梯度下降法
ChiSqSelector卡方选择器
spark协同过滤
Spark推荐系统
长按识别二维码关注我们