- 博客(22)
- 收藏
- 关注
原创 SQOOP安装与使用
*注意:对于sqoop可以直接使用命令模式加上参数,同时参数和参数值在同一行 末尾使用 \ 表示当前行的命令未结束,下一行继续编辑 同时 --e 参数中的 $ 需要使用反斜杠将其取消转义 **参数,指定分割键,以确定每个map任务到底读取哪一部分数据,最好指定数值型的列,最好指定主键(或者分布均匀的列=>避免每个map任务处理的数据量差别过大)7、实际上sqoop在读取mysql数据的时候,用的是JDBC的方式,所以当数据量大的时候,效率不是很高。2、当指定的Map任务数>1,那么需要结合。
2024-03-06 15:39:57
914
原创 HBASE学习笔记
每个表一开始只有一个region(但是建表时,也可以指定Region划分的规则生成多个Region),随着数据不断插入表,region不断增大,当增大到一个阀值的时候,region就会等分会两个新的region(裂变)(在读取数据时,会对相同列族中的数据进行获取,同时为了提高查询速度,将数据按照列族划分,数据保存在不同的文件中,同时由不同的线程进行管理,为了提高查询速度,同时将数据放入内存缓存,但是内存容量有限,于是会将数据按照一定的阈值,将内存中的数据缓存到HDFS磁盘中形成storefile)
2024-03-05 20:15:16
2182
原创 Phoenix搭建及使用
Hbase适合存储大量的对关系运算要求低的NOSQL数据,受Hbase 设计上的限制不能直接使用原生的API执行在关系数据库中普遍使用的条件判断和聚合等操作。Hbase很优秀,一些团队寻求在Hbase之上提供一种更面向普通开发人员的操作方式,Apache Phoenix即是。Phoenix 基于Hbase给面向业务的开发人员提供了以标准SQL的方式对Hbase进行查询操作,并支持标准SQL中大部分特性:条件运算,分组,分页,等高级查询语法。
2024-03-05 19:47:49
998
原创 HA搭建介绍
上传配置文件至master的 /usr/local/soft/hadoop-3.1.1/etc/hadoop 并分发其他节点。执行同步 没有格式化的NN上执行 在另外一个namenode上面执行(在node1上执行)格式化ZK 在已经启动的namenode上面执行(在master上执行)配置node1、node2 环境变量添加 HADOOP_HOME。配置用户 在三个节点中的环境变量添加如下内容 并source生效。格式化 在一台NN上执行(在master上执行)启动JN 存储hdfs元数据。
2024-03-02 09:45:30
1039
原创 hive实战项目:旅游集市数仓建设
停留点表dwm_staypoint_msk_d与用户画像维表dim_usertag_msk_m 通过mdn关联,按mdn、county_id、resi_county_id分组,使用calLength(grid_id, resi_grid_id) 传入网格id、居住地id,算出出行距离,并计算每个用户到每个县的累计出行时间,然后取出 累计时间最大值超过3小时(180分钟),出行距离大于10km的用户。按照业务划分,如流量、订单、用户等,生成字段比较多的宽表,用于提供后续的业务查询,OLAP分析,数据分发等。
2024-03-02 09:41:09
1823
原创 hive学习笔记全介绍
HIVE介绍Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL ,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。1.元数据包
2024-03-02 09:39:05
1551
原创 MAVEN学习笔记
④ 当前项目需要获取其他非公共项目时,需要将项目通过install安装到本地仓库中,再对当前项目添加依赖信息,再重载项目,当要添加的项目是同属一个大项目中的子项目时,此时不需要再通过install进行安装。①为了帮助我们管理 项目中的Jar包,如果要在项目中使用第三方包,那么就需要去下载jar包,再将jar包添加到当前项目的目录中,再去将jar包选择添加为当前项目的依赖。①子项目可以继承父项目中的依赖,但是子项目中也可以添加对相同名称版本不同的依赖,根据就近原则,选择当前依赖最近的jar包版本。
2024-03-02 09:37:06
932
原创 git学习资料
Git工具的出现,可以帮助开发者完成多人协同开发,是一个开源的分布式版本控制系统对于一个开发的线性的单向的过程称为一个分支,当一个Git仓库创建好,默认会产生一个master 主分支,所有的提交流程都在主分支中进行增加或回退。
2024-03-02 09:36:13
885
原创 python练习
DAY6 python练习1、输入三个整数x,y,z,请把这三个数由小到大输出.li = [input('number 1'),input('number 2'),input('number 3')]li.sort()print(li)2、输入某年某月某日,判断这一天是这一年的第几天.year = int(input("请输入年份: "))month = int(input("请输入月份: "))day = int(input("请输入日期: "))days_in_month = [0
2023-11-16 14:23:45
211
1
原创 python连练习2
利润高于10万元,低于20万元时,低于10万元的部分按10%提成,高于10万元的部分,可提成7.5%;60万到100万之间时,高于60万元的部分,可提成1.5%;20万到40万之间时,高于20万元的部分,可提成5%;40万到60万之间时高于40万元的部分,可提成3%;高于100万元时,超过100万元的部分按1%提成;利润(I)低于或等于10万元时,奖金可提10%;写的有点复杂,希望后续自己会努力改善代码。
2023-11-13 21:29:09
78
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人