
KV&分布式存储数据库
石贤芝
数据挖掘&机器学习
展开
-
加载txt文件到Hive表中
方式有两种:第一种:本地加载。load data local inpath '/home/shixianzhi/zz.txt' into table ud.kd_pag.....第二种:远程加载:呵呵原创 2015-05-12 20:06:30 · 3723 阅读 · 0 评论 -
HIVE 时间操作函数
日期函数UNIX时间戳转日期函数: from_unixtime语法: from_unixtime(bigint unixtime[, string format])返回值: string说明: 转化UNIX时间戳(从1970-01-01 00:00:00 UTC到指定时间的秒数)到当前时区的时间格式举例:hive> select from_unixtime(转载 2015-05-27 12:06:26 · 1274 阅读 · 0 评论 -
HIVE 命令行
HIVE 命令行执行一个查询$HIVE_HOME/bin/hive -e 'select a.col from tab1 a'之后过程中,会在终端上显示mapreduce的进度,执行完毕后,最后把查询结果输出到终端上,接着hive进程退出,不会进入交互模式。 使用静音模式执行一个查询$HIVE_HOME/bin/hive -S -e 'select a.转载 2015-05-18 18:45:43 · 386 阅读 · 0 评论 -
浅析 Hadoop 中的数据倾斜
最近几次被问到关于数据倾斜的问题,这里找了些资料也结合一些自己的理解. 在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同,应用的类型不同和切分的数据大小不一致总会导致有部分任务极大的拖慢了整个任务的完成时间,硬件不同就不说了,应用的类型不同其中就比如page rank 或者data mining 里面一些计算,它的每条记转载 2015-08-19 18:26:48 · 365 阅读 · 0 评论 -
hadoop 2.X 命令文件目录的变化
在1.x中,所有的命令文件,都是放在bin目录下,没有区分客户端和服务端命令,并且最终命令的执行都会调用hadoop去执行;而在2.x中将服务端使用的命令单独放到了sbin目录,其中有几个主要的变化:l 将./bin/hadoop的功能分离。在2.x中./bin/hadoop命令只保留了这些功能:客户端对文件系统的操作、执行Jar文件、远程拷贝、创建一个Hadoop压缩转载 2015-08-21 16:34:38 · 1073 阅读 · 0 评论 -
hive创建一个表,并挂载hdfs目录下的一个分布式文件到表中
创建一个表,带分区create table if not exists kd_ud.tmp_sex ( pid string ,phone string ,sex string ,source string ,prob原创 2016-02-18 16:37:00 · 3794 阅读 · 0 评论 -
hive临时表中 取 分组排序后所有排列第一的元素集合
以下sql的作用为:从订单表中,获取每个人201606月份最偏好的出行时刻。select b.* from ( select *, row_number() over (partition by passenger_phone order by hour_num desc) as od from ( select passenger_phone ,原创 2016-06-24 09:03:55 · 3888 阅读 · 0 评论 -
Hive实现从表中随机抽样得到一个不重复的数据样本
select * from ( select e.*, cast(rand() * 100000 as int) as vidx from e ) vt order by vt.vidx limit 1000说明:1,表e为一个普通的表,里面存有数据,我们要从表e中随机抽出1000条数据作为数据样本。2,r原创 2015-05-29 14:47:33 · 21746 阅读 · 0 评论