
hive
BIG*BOSS
这个作者很懒,什么都没留下…
展开
-
【Hive】常用的操作
连接hive先开启hiveserver2然后beeline连接[root@hadoop1 conf]# beeline --hiveconf hive.server2.logging.operation.level=NONEBeeline version 1.6.3 by Apache Hivebeeline> !connect jdbc:hive2:///hadoop1...原创 2020-04-19 16:33:46 · 247 阅读 · 0 评论 -
【hive】(将表分成训练集、测试集)抽样、取表的差集
总表ratings 总行数216221870: jdbc:hive2://hadoop3:10000> select * from ratings limit 20;+-----------------+------------------+-----------------+--------------------+--+| ratings.userid | ratings.mov...原创 2019-12-11 12:50:08 · 620 阅读 · 0 评论 -
【hive】beeline错误:NoClassDefFoundError: scala/collection/Iterable (state=,code=0)
解决方法将spark/lib/里的spark-assembly-1.6.3-hadoop2.6.0.jar拷贝到hive/lib/原创 2019-12-11 11:35:17 · 1307 阅读 · 4 评论 -
【hive】beeline错误:User: root is not allowed to impersonate root (state=,code=0)
Error: Failed to open new session: java.lang.RuntimeException: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.authorize.AuthorizationException): User: root is not allowed to imperson...原创 2019-12-09 20:57:22 · 979 阅读 · 0 评论 -
【HIVE高级笔试必备题型】(组内topN、相邻行的值比较问题)求语文大于数学_/_求文科大于理科成绩的学生
Hive SQL练习之成绩分析数据:[id, 学号,班级,科目,成绩]1,1,1,yuwen,802,1,1,shuxue,853,2,1,yuwen,754,2,1,shuxue,705,3,1,yuwen,866,3,1,shuxue,727,4,2,yuwen,888,4,2,shuxue,999,5,2,yuwen,8610,5,2,shuxue,9411,6,2,...原创 2019-10-17 09:35:49 · 517 阅读 · 1 评论 -
【HIVE】数据分析HQL的编写方法/思路
SQL编写一般思路:1)复杂的查询,先划分为小任务,以降低难度。分别实现各个小任务后,再进行汇总;2)涉及多表时,先进行联表查询;3)简单分组,一般只需要group by即可;4)组内TopN问题,使用row_number,rank,dense_rank;5)熟练掌握常用函数;1. 常用函数1)字符串split,分割字符串为数组,split(“a|b|c”, “\|”) =>...原创 2019-10-15 18:51:16 · 843 阅读 · 0 评论 -
【HIVE】(3)联合查询join、时间戳函数、字符串函数
数据t_join1.txt1,a,12,b,23,c,4t_join2.txt1,2a2,2b3,2c建表、导入: create table t_join1(id int, name string, cid int) row format delimited fields terminated by ","; create table t_join2(id int, na...原创 2019-09-18 16:25:54 · 408 阅读 · 0 评论 -
【HIVE】(1)建表、导入数据、外部表、导出数据
导入数据1). 本地load data local inpath "/root/example/hive/data/dept.txt" into table dept;2). HDFSload data inpath "/user/hive/warehouse/functiontest.db/dept1/dept.txt" into table dept1;我发现使用这个命令后,hdfs...原创 2019-09-18 15:10:27 · 1007 阅读 · 0 评论 -
Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask
hive运行查询语句时报错:Error: org.apache.hive.service.cli.HiveSQLException: Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask at or...原创 2019-09-17 19:42:17 · 658 阅读 · 0 评论 -
【HIVE & Spark】将hive引擎换成Spark,运行速度快!怎么换?请看本文
本教程仅仅是使用spark,能在hive用就行。1.下载Spark;2.WinSCP上传spark压缩包到虚拟机;3.tar -zxvf spark-2.3.3-bin-without-hadoop -C /opt/programs/4.1)配置Spark环境变量;2)配置spark-env.sh 命令cp spark-env.sh.template spark-env.sh后vi s...原创 2019-09-17 19:36:19 · 7053 阅读 · 1 评论 -
【HIVE】hive的安装与使用教程
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用...原创 2019-09-17 19:21:33 · 2406 阅读 · 0 评论