
大数据
z小丑八怪r
这个作者很懒,什么都没留下…
展开
-
hive hql 语句知识点笔记及练习(三)集合数据类型 reflect函数使用 自定义函数
一、集合数据类型在hive中的数据类型 :int bigint double string timestampstruct 结构体 类似于java对象array 数组map 键值对{“name”: “songsong”,“friends”: [“bingbing” , “lili”] ,“children”: {“xiao song”: 18 ,“xiaoxiao song”: 14},“address”: {“street”: “hui long guan”原创 2020-12-03 21:37:03 · 334 阅读 · 2 评论 -
hive3.1.2 hql 语句知识点及练习(一)case when join 排序 分桶表
case when 和聚合函数表格内容如下:zs A 男ls A 男ss B 男fj A 女rb B 女hh B 女需求 结果如下;+--------+----+----+| dname | m | f |+--------+----+----+| A | 2 | 1 || B | 1 | 2 |+--------+----+----+--创建表create table tb_emp(name string ,dname string原创 2020-12-02 17:11:12 · 681 阅读 · 0 评论 -
hive3.1.2 笔记 知识点详解(三)导出数据方式 分区表
1 导出数据方式1.1export tb_name to HDFS_PATH1.2如果数据是普通的文本数据 在shell客户端使用get下载数据hdfs dfs -get /tb_name/filehive端: hive> dfs -get /文件 1.3不开启hive终端 执行SQL语句 hive -e "use dafault; select * from tb_user "; hive -e "select * from tb_user " >&g原创 2020-11-30 21:21:39 · 414 阅读 · 0 评论 -
hive3.1.2 笔记 知识点详解(二)内部表外部表 导入数据方式
1 内部表和外部表在hive中的表分两种1)外部表 external2)内部表 默认的 也称管理表 managertable区别详解:先创建一个表create table tb_log(id int,name string,age int,gender string)row format delimited fields terminated by ‘,’location ‘hdfs://linux01:8020/data/log/’创建一个表(管理表)c原创 2020-11-29 16:30:13 · 734 阅读 · 0 评论 -
hive3.1.2 笔记(一)安装 连接
一、HIVE的安装(Linux)1 、mysql数据 远程连接权限mysql -uroot -p 输入密码set global validate_password_policy=0;set global validate_password_length=1; 这个两个设置以后 密码很简单不会报错4) ALTER USER ‘root’@‘localhost’ IDENTIFIED BY ‘root’; 把修改密码为root5)grant all privileg原创 2020-11-28 23:31:11 · 927 阅读 · 2 评论 -
Hbase原理加强篇
hbase中的数据怎么实现修改hbase中的数据存储在hdfs中,而hdfs中的数据是不支持修改的,那hbase中的put、delete操作是怎么实现的呢?如上图,客户端进行删除操作时,会往hdfs中的hfile文件中追加数据,数据中会记录用户的操作delete,为墓碑标记(标记着数据要删除),在下次获取该数据时,会发现有两个该数据,其中一条有墓碑标记,则不会返回客户端数据。之后会将原来的数据和用户删除后生成的记录合并生成一个新的hfile文件。和hdfs不支持数据修改的时不相违背的,hba原创 2020-11-27 22:18:30 · 274 阅读 · 0 评论 -
Hbase读写数据流程
Hbase读写数据流程提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录Hbase读写数据流程前言写数据流程读数据流程前言学习大数据过程中记下的一些笔记提示:以下是本篇文章正文内容,下面案例可供参考写数据流程写数据流程(put为例)1、客户端请求Zookeeper插入数据put ‘a’,‘rk001’,‘cf:age’,‘21’原创 2020-11-26 20:12:39 · 269 阅读 · 0 评论 -
Hbase—shell端使用批量数据导入工具bulkLoad到hbase
1 静态数据如下 uid001,zss,23,F uid002,lss,13,M uid003,ww,22,M uid004,zl,34,F uid005,tq,43,M uid006,wb,55,F uid007,sj,98,M 2 在hbase中创建一张表create 'tb_imp' ,'info'3 根据数据 生成hbase文件#info:列族名 name:属性 imp:表名 /tsv/input:输入路径 /tsv/output:输出路径hbase org.原创 2020-11-25 23:17:16 · 941 阅读 · 3 评论 -
HBASED—JAVA客户端(二)
封装一个Hbase工具类public class HbaseUtils { /** * 获取数据 * @param result 行数据 */ public static void showData(Result result){ while (result.advance()){ Cell cell = result.current(); String row = Bytes.toString(原创 2020-11-25 23:12:10 · 171 阅读 · 0 评论 -
HBASE—JAVA客户端(一)
HbaseUtilspackage com.doit.Utils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.Admin;import org.apache.hadoop.hbase.client原创 2020-11-25 20:16:12 · 316 阅读 · 0 评论 -
MapReduce数据倾斜解决方案——将key打散
wordcount为例以MR程序的WC为例 如果处理的数据只有四个单词 a b c da 和 c 出现的次数特别多(a/c.hashCode%2=1)–>分区 1 多b 和 d 出现的次数很少 (b/d.hashCode%2=0) -->分区0 少a c -->reduce1 a: iterator<1,1,1,1,1,1,1,1,1,1,1,1,1,1> 时间久(排序 内存)b d -->reduce0 b: iterator<1,1&原创 2020-11-19 20:18:07 · 852 阅读 · 0 评论 -
order和user信息拼接案例——Mapreduce实现
order.txt :order011,u001order012,u001order033,u005order034,u002order055,u003order066,u004user.txt:u001,senge,18,male,angelababyu002,ss,58,male,ruhuau003,shuaishuai,16,female,chungeu004,laoyang,28,female,zenggeu005,nana,24,female,huangbou006,d原创 2020-11-19 20:02:41 · 289 阅读 · 0 评论 -
求共同好友案例——mapreduce实现
文件:A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,L… …一、/** * A:B,C,D,F,E,O * B:A,C,E,K * 好友列表作为k:B-->A C-->A D-->A * A-->B C-->B E-->B * 将matask端的value(本人)添加到list集合 集合中任意两人的共同好友即为maptask的key * 再写一个MR聚合原创 2020-11-19 19:51:58 · 284 阅读 · 0 评论 -
电影TopN案例——mapreduce
{“movie”:“1193”,“rate”:“5”,“timeStamp”:“978300760”,“uid”:“1”}{“movie”:“661”,“rate”:“3”,“timeStamp”:“978302109”,“uid”:“1”}{“movie”:“914”,“rate”:“3”,“timeStamp”:“978301968”,“uid”:“1”}{“movie”:“3408”,“rate”:“4”,“timeStamp”:“978300275”,“uid”:“1”}… …定义一个Mo原创 2020-11-19 19:43:34 · 531 阅读 · 2 评论 -
HADOOP的JAVA客户端
HADOOP的JAVA客户端1 配置Maven仓库修改settings.xml<localRepository>D:\my_repository\repository</localRepository><mirror> <id>nexus-aliyun</id> <mirrorOf>central</mirrorOf> <name>Nexu原创 2020-11-14 20:57:18 · 318 阅读 · 0 评论 -
HADOOP-day01-HDFS安装部署
HDFS安装部署1 上传hadoop安装包链接:https://pan.baidu.com/s/1Fk7_ZsEENrolML_8VQuPoQ提取码:g22p复制这段内容后打开百度网盘手机App,操作更方便哦cd /opt/apps rz2 解压tar -zxvf hadoop-3.1.1.tar.gz3 配置vi /opt/apps/hadoop-3.1.1/etc/hadoop/hadoop-env.shexport JAVA_HOME=/opt/apps/jdk1原创 2020-11-13 16:43:29 · 207 阅读 · 0 评论 -
大数据之linux学习笔记day01
1、路径绝对路径:带盘符的相对路径:相对于当前目录 ./ 当前目录 ./a.txt ./b.doc ../ 上级目录2、基本命令2.1 lsls ls ./ 查看当前目录下的文件ls -l ll 查看当前目录下的文件详细信息ls / 查看根目录下的文件2.2 cdcd /bin/ 切到根目录下的bin目录cd ../ 切到上级目录cd ~ 切到用户的目录cd -原创 2020-11-09 19:54:41 · 262 阅读 · 2 评论 -
大数据之linux学习笔记day02
1、解压压缩命令tar -zcvf 1.txttar -zcvf my.tar.gz 1.txt 2.txt 打包压缩tar -zxvf my.tar.gz 解压tar -zxvf my.tar.gz -C /root/aa 解压到指定目录 -z .gzip压缩格式 -c 压缩 -x 解压 -v 显示进度 -f 必选 紧跟打包压缩的文件名2、JAVA_HOME配置1、上传jdk-8u141-linux-x64.tar.gz压缩文件 2、解压3、配置 vi /原创 2020-11-10 15:45:21 · 221 阅读 · 1 评论