
Hive
lbship
工科专业转行大数据分析
展开
-
hive使用技巧:把很多小文件导入一张表中、显示在文件中位置和行数等。
1.使用MSCK命令导入输入到hive表我们有时候会遇到很多小文件需要导入到一张hive表里面,但是一个个导入非常麻烦。假设创建一个外部表,这个表在hdfs的order文件夹里,但是这个文件夹现在是空的。所以用select * 是没有数据的。CREATE EXTERNAL TABLE order( order STRING , time STRING)ROW FOR...原创 2018-11-18 12:36:59 · 1968 阅读 · 0 评论 -
hive里面显示列名配置
当select * from xxx,不能显示列名的时候,可以到hive-site.xml里面添加<property><name>hive.cli.print.current.db</name><value>true</value></property><property><name&a原创 2018-11-06 18:30:51 · 1890 阅读 · 0 评论 -
Linux下面Maven、Kafka、HBASE、flume、Hive安装
一、安装Maven1.下载并解压wget http://archive.apache.org/dist/maven/maven-3/3.5.2/binaries/apache-maven-3.5.2-bin.tar.gz tar -xvzf apache-maven-3.5.2-bin.tar.gz2.添加环境变量vim ~/.bashrcexport MAVEN_HOME=/...原创 2018-09-29 16:25:28 · 413 阅读 · 0 评论 -
Hive使用python编写的自定义函数UDF进行ETL
Hadoop使用Streaming技术来替代Java编程,允许用户使用其他语言实现业务逻辑处理Streaming采用UNIX标准输入输出机制(stdin/stdout)作为应用程序和Hadoop计算框架之间的数据接口标准只要符合标准I/O接口,开发人员便可以选择任意语言编写Map/Reduce模块 下面来做个测试:表里一共有两列数据,当第二列的sex...原创 2019-04-11 10:44:20 · 3023 阅读 · 0 评论