- 博客(204)
- 收藏
- 关注
原创 当下环境适合老老实实上班吗
如果你付出的时候价值低的重复性强的工作,公司为啥要超额付你费用,工资也是价值,这个世界上只有一半的人靠工资来维持生活,靠工资实现财务自由的人少之又少。你为啥是哪个幸运儿。大环境好的时候,企业是愿意培养新人的,大环境不好的时候为了节省成本,更愿意去选择有一定经验的人直接参与生产。工作的本质是什么呢?你提供服务公司愿意付你钱?早日想清楚上班的意义,早日解脱,实现人生价值。作为大工作,你能左右的了大环境吗?
2025-03-29 15:12:22
59
原创 高效完成元数据导入(通过表格)
创建目标表:创建一个表来存储元数据信息。获取表和字段信息:从获取表和字段的元数据信息。将元数据插入目标表:按照表名分组,并按字段顺序将这些信息批量插入到目标表中。以上步骤详细描述了如何将 MySQL 中的表名、字段名、字段中文名、字段类型等信息批量插入到一个新的表中,并按照表名分组和字段顺序插入。通过创建存储过程,可以使这个过程更加自动化和易于维护。后续我们也可以做一个前端页面实现交互,直接批量或者单独往一个对话框中丢表名称,自动下载对应的表结构字段信息。
2024-06-24 23:53:47
837
原创 Hadoop yixing(移行),新增表字段,删除表字段,修改存储格式
默认格式,存储方式为行存储,数据不做压缩,磁盘开销大,数据解析开销大。Apache ORC是Apache Hadoop生态系统面向列的开源数据存储格式,它与Hadoop环境中的大多数计算框架兼容,ORC代表“优化行列”,它以比RC更为优化的方式存储数据,提供了一种非常有效的方式来存储关系数据,然后存储RC文件。行式存储用于存储关系型数据,用于使用数据的时候需要经常用的数据之间的依赖关系的场景,即读取的时候需要整行数据或者整行中大部分列的数据,需要经常用到插入、修改操作,比如存储用户的注册信息等。
2024-06-05 22:14:32
803
2
原创 Window 批量改文件后缀,例如,test.xls文件改为 test.csv;或者sas 文件改 sql 文件
: "%%~dpnj.sql" 是一个变量,它代表当前文件的完整路径,包括驱动器号(d)、路径(p)和文件名(n)::这里使用 move 命令,因为复制后需要重命名,如果只是复制可以用 copy 命令。::将.sas文件复制为.sql 文件。::遍历当前文件夹内所有.sas文件。:: 设置需要遍历的文件夹路径。::遍历文件夹内所有文件夹。
2024-06-03 17:37:14
327
1
原创 SQL中替换某个字段中的多个字符为一个字符串,或则SQL中将某个字段的多个字符去掉
SQL中替换某个字段中的多个字符为一个字符串,或则SQL中将某个字段的多个字符去掉
2023-01-05 20:00:26
1944
原创 hive中实现merge into的功能(hive中低版本中无直接使用merge into的情况)
hive中实现merge into的功能(hive中低版本中无直接使用merge into的情况)
2022-06-27 00:00:51
1852
原创 hive的一些重要参数
hive的一些重要参数SET hive.tez.container.size=8096;SET hive.tez.java.opts=-Xmx13384m;set hive.execution.engine=tez;set hive.tez.container.size=10240;set dfs.client.use.datanode.hostname=true;set hive.enforce.bucketing=true;set hive.exec.dynamic.partition=t
2022-05-18 17:50:25
547
原创 hive建表字段的数据类型确定:
hive建表字段的数据类型确定:涉及到交易笔数一般用:bigint设计到金额的一般用:decimal(38,2)其他的数据一般用string(是否…\分类…)
2022-05-12 08:53:44
1052
转载 如何利用Github搭建自己的免费图床?
如何利用Github搭建自己的免费图床?https://wenku.baidu.com/view/717b897e3f1ec5da50e2524de518964bcf84d2cb.html
2022-05-10 22:58:05
445
原创 侯圣文大数据体验课笔记,大数据基础,离线数仓,实时计算
侯圣文大数据体验课笔记一、玩转大数据和互联网大厂大数据解析大数据职位有广袤的海洋:未来比较吃香的ABCA:AI人工智能B:Big Date大数据C:云计算人工智能算逛吃看买肉眼检索数据库查询智能推荐存脑袋海报数据库DB大数据BD客户买东西的演进过程:超市买物品,寻找商品只能靠人走看买,有哪些商品在大脑里存储海报:寻找商品在海报上肉眼检索,物品在海报上记录比较先进:自己家附近3公里内,有点像早期的外卖,买什么在在线购
2022-05-10 15:37:39
1232
原创 大数据平台设置表数据量的监控任务(阈值)
侯圣文大数据体验课笔记一、玩转大数据和互联网大厂大数据解析大数据职位有广袤的海洋:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-R6aNWQ9r-1652164317262)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220508163847484.png?lastModify=1652142610)]未来比较吃香的ABCA:AI人工智能B:Big Date大数据C:云计算
2022-05-10 14:35:20
822
原创 大数据平台设置表数据量的监控任务(阈值)
大数据平台设置表数据量的监控任务#------------#本脚本为通用脚本#编写目的:监控玄武平台部分表的数据量,设置阈值,超过设置阈值会报错,发送短信提醒#-----------DB_NAME=${dbname} #DB_NAME:库名TABLE_NAME=${tablename} #TABLE_NAME:表名NORMAL_COUNT=${normalcount} #NORMAL_COUNT:最小阈值MAX_COUNT=${maxcount} #MAX_COUNT:最大阈值P_DATE
2022-05-10 14:12:27
614
原创 Hive监控表的数据量,使用analyze
Hive监控表的数据量,使用analyze1、使用方式analyze TABLE td.pt_pmart_ceo_FIN_TRSF_CTR_SITE_MAP partition (dt) COMPUTE STATISTICS noscan工作中用到的统计一个表的数据量# table_counts 查询出传入日期的表的数据量table_counts=$(hive -e "analyze table ${DB_NAME}.${TABLE_NAME} partition(pt='${P_DATE}'
2022-05-10 14:09:24
1848
原创 Bucket Join:分桶Join
Bucket Join:分桶Join场景:大表join大表,多次join实现step1:将两张大表的数据构建分桶数据按照分桶的规则拆分到不同的文件中分桶规则=MapReduce分区的规则=key的hash取余key=分桶的字段step2:只要实现桶与桶的join,减少了比较次数分桶本质:低层MapReduce的分区,桶的个数=Reduce个数=文件个数分类Bucket Map Join :普通的分桶Join桶内的没一条 数据要与对方桶的每一条数据进行joi
2022-05-07 09:47:15
1427
原创 可视化报表选择
可视化实现2.0 可视化报表实现方式方式一:成本低、简单易用:使用开源的报表工具Superset、Cboard、DashBoard优点使用比较简单,只要了解基本的开发,可以快速的上手免费缺点支持的图表比较少图标构建比较的简陋存在一些bug,支持的数据源也比较少[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nFVHGhtF-1651717643566)(https://gitee.com/TuNan86/mapdeport2/raw/
2022-05-05 10:28:41
190
原创 Sqoop从数仓导出数据到Mysql
动态分区配置、hive压缩、写入时压缩生效--动态分区配置set hive.exec.dynamic.partition=true;set hive.exec.max.dynamic.partitions=2000;set hive.exec.dynamic.partition.mode=nonstrict;set hive.exec.max.dynamic.partitions.pernode=10000;set hive.exec.max.dynamic.partitions=100000;
2022-05-05 08:44:03
1239
原创 数据分析-指标(PV)
数据分析-指标(PV)常见的一些指标中只有页面访问数不需要去重;UV:count(distinct sid)PV:count(landing_page_url)Session:count(distinct session_id)IP:count(disinct ip)
2022-04-21 14:26:04
881
原创 数据治理-数仓过程思考
数据治理-数仓过程思考数仓分层建设可以隔离原始数据,使加工逻辑很清晰,有利于中间层的复用,但是对数据治理来说标准化的过程又因为层级太多链路太长导致数据治理变得很麻烦,目前想到最好的办法就是建表,创建的时候符合公司的标准,提前理清楚标准,开发按照该标准进行工作的开展。...
2022-04-19 23:17:31
230
原创 hive中修改字段的中文注释,表的中文注释
hive中修改字段的中文注释,表的中文注释修改表的字段的中文注释alter table 数据库名.表名 change column 英文字段名 英文字段名 string comment '新的中文注释名称';修改表的中文注释ALTER TABLE 数据库名.表名 SET TBLPROPERTIES('comment' = '新的表备注');...
2022-04-18 15:39:45
4558
2
原创 Hive注释中文乱码
一、修改元数据表注解为UTF8alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;alter table TABLE_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;alter table PARTITION_PARAMS modify column PARAM_VALUE varchar(4000) characte
2022-04-17 21:31:21
2202
原创 Hive 连续N天登录的问题
##Hive 连续N天登录的问题首先选中登录时间列将该列加上N天tommorrow,使用时间窗口,排序后下移固定天数nextLogin,select userid, logindate, date_add(logindate,2) as tommorrow,--登录日期的第三天 lead(logindate,2,0) over (partition by userid order by logindate) as nextLoginfrom table;userid lo
2022-04-17 16:49:51
1752
原创 hive 常用运算
*hive 常用运算**第一部分:关系运算*Hive支持的关系运算符•常见的关系运算符•等值比较: =•不等值比较: <>•小于比较: <•小于等于比较: <=•大于比较: >•大于等于比较: >=•空值判断: IS NULL•非空判断: IS NOT NULL•LIKE比较: LIKE•JAVA的LIKE操作: RLIKE•REGEXP操作: REGEXP•等值比较: =语法:A=B操作类型:所有基本类型描述: 如果表达式A与表达式B
2022-04-16 23:38:11
807
原创 hive的数据存储格式
hive的数据存储格式 Hive支持的存储的格式主要有:TEXTFILE(行式存储)、SEQUENCEFILE(行式存储)、ORC(列式存储)、PARQUET(列式存储)。1.1. 列式存储和行式存储[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kD7DATTZ-1649748470312)(C:\Users\MSI-NB\AppData\Roaming\Typora\typora-user-images\image-20220412150642605.png)]
2022-04-12 15:28:11
4071
原创 hive的数据压缩
hive的数据压缩 在实际工作当中,hive当中处理数据,一般都需要经过压缩,前期我们在学习hadoop的时候,已经配置过hadoop的压缩,我们这里的hive也是一样的可以使用压缩来节省我们的MR处理的网络带宽MR支持的压缩编码压缩格式工具算法文件扩展名是否可切分DEFAULT无DEFAULT.deflate否GzipgzipDEFAULT.gz否bzip2bzip2bzip2.bz2是LZOlzopLZO.lzo否
2022-04-12 14:57:35
1033
原创 Hive自定义函数
1.1. Hive自定义函数1.1.1. 概述Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。根据用户自定义函数类别分为以下三种: 1、UDF(User-Defined-Function) 一进一出 2、UDAF(User-Defined Aggregation Function) 聚集函
2022-04-10 23:14:59
275
原创 Hive分析窗口函数(3)LAG,LEAD,FIRST_VALUE,LAST_VALUE
Hive分析窗口函数(3) LAG,LEAD,FIRST_VALUE,LAST_VALUE准备数据cookie1,2018-04-10 10:00:02,url2cookie1,2018-04-10 10:00:00,url1cookie1,2018-04-10 10:03:04,1url3cookie1,2018-04-10 10:50:05,url6cookie1,2018-04-10 11:00:00,url7cookie1,2018-04-10 10:10:00,url4cookie
2022-04-10 21:06:21
280
原创 SUM(结果和ORDER BY相关,默认为升序)
SUM(结果和ORDER BY相关,默认为升序)select cookieid,createtime,pv,sum(pv) over(partition by cookieid order by createtime) as pv1 from itcast_t1;select cookieid,createtime,pv,sum(pv) over(partition by cookieid order by createtime rows between unbounded preceding
2022-04-10 20:53:14
811
原创 hive 表中加载数据、hive表中的数据导出
hive 表中加载数据、hive表中的数据导出直接向分区表中插入数据通过insert into方式加载数据create table score3 like score;insert into table score3 partition(month='202007') values ('001','002','100');通过查询方式加载数据create table score4 like score;insert overwrite table score4 partition(month
2022-04-09 23:15:59
1760
原创 外部分区表综合练习
外部分区表综合练习需求描述:现在有一个文件score.txt文件,存放在集群的这个目录下/scoredatas/month=202006,这个文件每天都会生成,存放到对应的日期文件夹下面去,文件别人也需要公用,不能移动。需求,创建hive对应的表,并将数据加载到表中,进行数据统计分析,且删除表之后,数据不能删除。1、数据准备:hadoop fs -mkdir -p /scoredatas/month=202006hadoop fs -put score.txt/scoredatas/month=20
2022-04-09 17:28:07
997
原创 Hive分区表
分区表创建分区表语法create table score(s_id string,c_id string,s_score int) partitioned by (month string) row format delimited fields terminated by '\t';创建一个表带多个分区create table score(s_id string,c_id string,s_score int) partitioned by (year string,month string,d
2022-04-09 16:38:21
93
原创 从hdfs文件系统向表中加载数据
从hdfs文件系统向表中加载数据需要提前将数据上传到hdfs文件系统,其实就是一个文件的操作cd /export/servers/hivedatashadoop fs -mkdir -p /hivedatashadoop fs -put teacher.txt /hivedatasload data inpath '/hivedatas/teacher.txt' into table teacher;--先将数据put到hdfs指定文件夹下,再将数据load到表中...
2022-04-09 15:38:44
1072
原创 Oracle 中常见的日期变量;
Oracle 中常见的日期变量;--定义变量v_start_date varchar2(8);--开始日期(当日)v_end_date varchar2(8);--结束日期v_week_start_date varchar2(8);--当周开始日期v_tenday_start_date varchar2(8);--当旬开始日期v_month_start_date varchar2(8);--当月开始日期v_season_start_date varchar2(8);--当季开始日期v_yea
2022-04-03 20:01:04
817
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人