hive操作

最新推荐文章于 2023-06-08 16:40:04 发布

原创最新推荐文章于 2023-06-08 16:40:04 发布 · 267 阅读

0 ·

CC 4.0 BY-SA版权

hive操作专栏收录该内容

2 篇文章

订阅专栏

1.视图
①概念

视图里存放的是一组SQL语句，通过执行这组SQL语句可以得到相应的结果。视图并不是直接存放结果，而是存放
了SQL语句，当用到时，就会执行。是一个懒加载的。

②特点

   不支持物化视图
   只能查询，不能做加载数据操作  load data into
   视图的创建，只是保存一份元数据，查询视图时才执行对应的子查询
   视图定义中若包含了ORDER BY/LIMIT语句，当查询视图时也进行ORDER BY/LIMIT语句操作，视图当中定义的优先级更高
   视图支持迭代视图
   一旦创建成功，无法修改

③创建视图

   CREATE VIEW  IF NOT EXISTS  view1 AS SELECT * FROM logtbl order by age;
   创建视图的时候不会启动MR任务，但是在查询视图的时候会启动MR任务
   show tables    可以查看已经创建的视图
   drop view view1  删除视图

2.索引
①原理

这个索引就类似于目录。我们可以把所有的文件加上一个索引，这样在查询的时候就可以先根据索引确定查找的
数据在哪一个分区，然后只遍历这一局部的数据就可以得到最终的结果。提高了查询的效率。

②创建

创建索引之前，需要先创建一个索引库，用于存放索引。
create index t2_index on table psnbucket_partition(age)  //表示对psnbucket_partition表的age字段创建索引
as 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler' with deferred rebuild //用到了一个提供给我们的一个创建索引的类
in table t2_index_table; //创建的索引放到这个表中
索引库只是保存一些元数据，比如 对哪个字段创建索引，对哪个表创建索引等。
创建索引
alter index t2_index on psnbucket_partition rebuild; //真正的创建索引信息并且存储到索引库中，
若数据库有新增数据，也可以使用以上语句重建索引。

③查询索引

show index on psnbucket_partition;

④删除索引

drop index t2_index on psnbucket_partition; 
删除索引的同时  索引库也会被删除

3.数据读取规则

如果想把一些不规整的数据存入到hive表中，如tomcat的运行日志。需要用到正则表达式。读取数据的时候
按照正则表达式将其切割，并赋给对应的表中的字段。
例如：要将以下的数据存入hive表中
192.168.57.4 - - [29/Feb/2016:18:14:35 +0800] "GET /bg-upper.png HTTP/1.1" 304 -
192.168.57.4 - - [29/Feb/2016:18:14:35 +0800] "GET /bg-nav.png HTTP/1.1" 304 -
192.168.57.4 - - [29/Feb/2016:18:14:35 +0800] "GET /asf-logo.png HTTP/1.1" 304 -
192.168.57.4 - - [29/Feb/2016:18:14:35 +0800] "GET /bg-button.png HTTP/1.1" 304 -
192.168.57.4 - - [29/Feb/2016:18:14:35 +0800] "GET /bg-middle.png HTTP/1.1" 304 -
192.168.57.4 - - [29/Feb/2016:18:14:36 +0800] "GET / HTTP/1.1" 200 11217
创建的表的语句为
CREATE TABLE logtbl (
    host STRING,
    identity STRING,
    t_user STRING,
    time STRING,
    request STRING,
    referer STRING,
    agent STRING)
  ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'
  WITH SERDEPROPERTIES (
    "input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) \\[(.*)\\] \"(.*)\" (-|[0-9]*) (-|[0-9]*)"
  )
  STORED AS TEXTFILE;
  在往表中插入数据的时候，并不会检查。只是在读的时候根据正则表达式来读，如果读不懂，说明这条数据
  就是脏数据。所以结论就是读时检查，不是写时检查。

4.连接hive工具的方式
①beeline

之前使用hive就是通过hive脚本，这种方式不够安全。所以就有了beeline,类似于jdbc。beeline需要先与
hive提供的thriftserver服务连接(使用hiveserver2命令启动这个服务)，thriftserver服务里配置了用户名和密码，只有输入正确的用户名和
密码才能连接上这个服务。
beeline默认方式是不需要密码的，所以我们要通过配置信息来设置用户名和密码。在hive-site.xml文件
中增加
	<property>
                <name>hive.server2.authentication</name>
                <value>CUSTOM</value>
        </property>
        <property>
                <name>hive.jdbc_passwd.auth.zhangsan</name>  //用户名
                <value>123456789</value> // 密码
        </property>
        <property>
                <name>hive.server2.custom.authentication.class</name>
                <value>com.hoe.hive.authoriz.UserPasswdAuth</value> //我们自己写的类，用于验证用户名和密码是否正确
        </property>
将写好的类打成一个jar包，放到hive的lib目录下。
第一种链接方式：./beeline -u jdbc:hive2://node01:10000/test -n zhangsan -p123456789
第二种链接方式：
./beeline
!connect jdbc:hive2://node01:10000/test
输入用户名
输入密码

自己写的类的代码

public class UserPasswdAuth implements PasswdAuthenticationProvider {
	Logger logger = LoggerFactory.getLogger(UserPasswdAuth.class);

	private static final String USER_PASSWD_AUTH_PREFIX = "hive.jdbc_passwd.auth.%s";

	private Configuration conf = null;

	@Override
	public void Authenticate(String userName, String passwd) throws AuthenticationException {
		logger.info("user: " + userName + " try login.");
		String passwdConf = getConf().get(String.format(USER_PASSWD_AUTH_PREFIX, userName));
		if (passwdConf == null) {
			String message = "没有发现密码 " + userName;
			logger.info(message);
			throw new AuthenticationException(message);
		}
		if (!passwd.equals(passwdConf)) {
			String message = "用户名密码不匹配 " + userName;
			throw new AuthenticationException(message);
		}
	}

	public Configuration getConf() {
		if (conf == null) {
			this.conf = new Configuration(new HiveConf());
		}
		return conf;
	}

	public void setConf(Configuration conf) {
		this.conf = conf;
	}
}

②JDBC
JDBC也是通过thriftserver服务连接hive工具的，配置信息和beeline的一样。

public class ConnectHive {

	public static String driverName = "org.apache.hive.jdbc.HiveDriver";

	public static void main(String[] args) {

		try {
			Class.forName(driverName);
		} catch (ClassNotFoundException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}

		String url = "jdbc:hive2://node01:10000"; //node01代表的是IP
		String userName = "zhangsan";
		String passwd = "123456789";
		Connection conn = null;
		try {
			conn = DriverManager.getConnection(url, userName, passwd);
			Statement statement = conn.createStatement();
			String sql = "select * from test.logtbl limit 10";
			ResultSet resultSet = statement.executeQuery(sql);
			while (resultSet.next()) {
				System.out.println(resultSet.getString(1) + "-" + resultSet.getString(2));
			}
		} catch (SQLException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}

	}
}