- 博客(141)
- 资源 (1)
- 收藏
- 关注
原创 sh脚本的时间获取
date -d "1 day 2022-03-12" +%Y-%m-%d=> 2022-03-13date -d "-1 day 2022-03-12" +%Y-%m-%d=>2022-03-11实际的昨天yesterday=$(date +%Y-%m-%d -d '-1 day')
2022-05-19 15:04:45
1027
原创 git log的使用
git log:显示提交日志根据时间搜素:1、–after 显示比某一特定日期更近的提交git log --after="2022.04.01" 显示2022年4月1日之后的提交2、–before 显示在某一个日志之前的操作git log --before="2022.05.01" 显示2022年5月1号之前的提交3、–since --until 查询指定范围时间内的提交git log --since="2022.04.01" --until="2022.05.01"根据
2022-04-24 12:48:48
1837
原创 git的工作区和暂存区,管理修改,撤销修改,删除文件
git和其他的版本控制系统如SVN的一个不同之处就是有暂存区的概念工作区:就是在我们电脑能看到的目录版本库:工作区有一个隐藏目录.git,这个不算工作区,而是git版本库。git版本库里面存了很多东西,其中最重要的就是stage(或者交index)的暂存区,还有git为我们自动创建的第一个分支master,以及指向master的一个指针HEAD我们把文件提交到git版本库里增加的时候,是分两步执行的第一步:git add 把文件添加进去,实际上就是把文件修改增加到暂存区;第二步:git c
2022-04-22 17:45:40
1749
原创 git上传已经修改的文件
在进行修改文件之前我们需要查看我们是在那个分支上进行修改的(默认在实际开发中我们不使用master分支)我们修改的文件[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vi7vYsPC-1650620633362)(/Users/lifuwei/Library/Application Support/typora-user-images/image-20220422095720046.png)]查看修改后的状态git statusOn branch lChan.
2022-04-22 17:44:11
650
原创 git版本回退
我们在gitee中提交了三次代码分别的为:version1Git is a version control system.Git is free software.version2Git is a distributed version control system.Git is free software.version3Git is a distributed version control system.Git is free software distributed un.
2022-04-22 17:43:24
1355
原创 hive中常见的日期函数
常见hive的时间函数1、时间戳转化为日期函数from_unixtime('1566390082')from_unixtime('1566390082', 'yyyy-MM-dd')from_unixtime('1566390082', 'yyyyMMdd')2019-08-21 20:21:22 2019-08-21 201908212、将日期转换为时间戳unix_timestamp('2019-08-21 20:21:22')unix_timestamp('2019-08-.
2022-01-26 11:22:51
8403
原创 SQL练习第一题
题目表名:macro_index_data字段名:数据期(年月) 地区代码 指标代码 指标类型 (增速、总量) 指标值 数据更新时间occur_period area_code index_code index_type index_value update_time说明:罗湖区的区划代码为 440305000000、GDP指标代码为gmjj_jjzl_01、指标类型的枚举值分别是增速(TB)、总量(JDZ)问题请写出,2020年4个季度中G
2022-01-26 11:20:46
2001
原创 各类日期转化的utils
package com.asiniafo.dpi_new.dpi.utils;import java.text.SimpleDateFormat;import java.time.LocalDateTime;import java.time.ZoneId;import java.time.format.DateTimeFormatter;import java.util.Date;/** * 日期转换的utils */public class DateUtil { priva
2022-01-12 11:16:04
133
原创 连接orcale
package com.asiniafo.dpi_new.dpi.utils;import java.sql.Connection;import java.sql.DriverManager;import java.sql.PreparedStatement;import java.sql.ResultSet;/** * 连接oracle */public class DBUtilSjzx { private static String driver = "oracle.jdbc
2022-01-12 10:59:03
343
原创 在项目中的定时作用
Calendar cal = Calendar.getInstance();//不仅可以获取当前时间,还能指定需要获取的时间点,在项目中应用中达到定时的作用cal.add(Calendar.DATE,1); //获取每个月的第五天+1天(也就是获取每个月的第6天)String data = new SimpleDateFormat("yyyyMMdd").format(cal.getTime());...
2022-01-12 10:54:45
111
原创 Hanlp分词器(通过spark)
这里主要是对内容数据进行标签处理这里我们是用分词器是HanLPHanLP是哈工大提供的一种中文分词的工具,因为他支持Java API这里我们使用spark + hanlp进行中文分词1、准备工作##1. 在hdfs创建目录用于存放hanlp的数据[root@hadoop ~]# hdfs dfs -mkdir -p /common/nlp/data##2. 将hanlp的工具上传到服务器的指定位置##3. 解压到当前目录[root@hadoop soft]# tar -zxvf ha.
2022-01-10 16:53:43
1861
原创 通过sparksql读取presto中的数据存到clickhouse
整体结构Configpackage com.fuwei.bigdata.profile.confimport org.slf4j.LoggerFactoryimport scopt.OptionParsercase class Config( env:String = "", username:String = "", password:String = "", .
2022-01-08 15:55:10
1947
原创 presto日期函数的使用
date_diff():求出两个时间的差值,里面的放的是两个时间戳,后面-前面=差值eg:date_diff('day',from_iso8601_timestamp('2021-12-23'),from_unixtime(ctime/1000)) as gap):以天为单位from_iso8601_timestamp():将一个日期转换为时间戳eg:from_iso8601_timestamp('2021-12-23') =>2021-12-23 00:00:00.000 Asia/Sha
2021-12-28 17:18:59
717
原创 hive调优第一部分
1、Explain查看执行计划explain可以查看执行计划-- 创建大表create table bigtable(id bigint,t bigint,uid string,keyword string,url_rank int,click_num int,click_url string)row format delimited fields terminated by '\t';-- 创建小表create table smalltable(id bigint,t bigint,
2021-12-25 16:56:06
921
原创 把hive数据导入到mysql并进行可视化展示
效果展示[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YYZMeccW-1640344966005)(/Users/lifuwei/Library/Application Support/typora-user-images/image-20211224170025068.png)]我的大致思路是1、写了一个udf函数,这个函数的作用就是把对应的ip转换成省份,这个主要参考的是老师给的ip.txt(里面有很多ip所对应的地址)2、把这个udf函数放到hive中,然后对
2021-12-24 19:24:04
3193
原创 把json数据格式的hive表映射到presto
在使用presto的时候报这个错误:deserializer does not exist: org.openx.data.jsonserde.JsonSerDe这里面主要是通过presto查询hive表中的数据,但是hive表中的数据是json格式,所以presto无法识别,因此会报这个错解决方法:把 json-serde-1.3.8-jar-with-dependencies 这个jar包放到/o pt/apps/presto-server-0.236/plugin/hiv
2021-12-23 16:00:57
1104
原创 JDBC连接池
import com.alibaba.druid.pool.DruidDataSourceFactory;import javax.sql.DataSource;import java.io.IOException;import java.sql.Connection;import java.sql.ResultSet;import java.sql.SQLException;import java.sql.Statement;import java.util.Properties;/**
2021-12-23 10:19:08
67
原创 自定义钉钉机器人进行报警
整体代码逻辑[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mIdCDndn-1639570821808)(/Users/lifuwei/Library/Application Support/typora-user-images/image-20211215200036525.png)]源码assembly.xml<assembly xmlns="http://maven.apache.org/plugins/maven-assembly-p
2021-12-15 20:21:26
2637
原创 HQL语句的调优
1、去重语句(用group by 来代替distinct)Group by 也有去重的功能,具体内容如下select distinct customer_idfrom test_join_order;=>select customer_idfrom test_join_ordergroup by customer_id;在极大的数据量(且很多重复值)时,可以先group by去重,在count()计数,效率高于count(distinct col)create tabl
2021-12-12 11:47:58
926
原创 字节数仓实习生面试sql题
题目要求id cnt url1 12 a2 21 f1 32 e相关说明:cnt相当于日期这里需要把这个表拆分成如下的类型id 最大日期 url 最小日期 url1 32 e 12 a当时脑子突然一热,在面试官面前有点紧张,这道题也就没有做出来,面试完之后自己又重新审视了一下这道题,具体的sql语句如下select t3.id,t3.cnt,t3.url.
2021-12-07 15:02:48
886
原创 hql求一个范围内最大值
主要明白的是字符串是可以进行排序的,但是不能进行最极致,比如这里的日期这道题就是求在开始时间和结束时间里面的最大的数值,而且还是把两列变成一例的方法最终查询的答案select user_id, max(num) max_numfrom ( select id, user_id, dt, sum(p) over(partition by user_id order by dt) num from .
2021-12-07 11:20:09
331
原创 KafKa
是分布式的发布-订阅消息系统(不支持P2P)是一个高吞吐、持久性的分布式发布订阅消息系统他主要用于处理live的数据是去中心化的服务集群,就是没有leader相当于一个存数据的文件系统订阅同一个主题的消费者都可以收到生产者传来的数据信息Kafka核心的概念生产、消费、消息类别、存储等kafaka服务Topic:主题,一个主题代表一个队列,也就是一种类型的消息Broker:消息服务器代理,kafka集群中的一个kafka服务节点成为一个broker,主要存储消息数据。存在硬盘中,
2021-12-06 10:33:48
322
原创 SparkSQL的常见优化
1、缓存数据到内存eg:df.cache()以上的作用就是将数据缓存到内存。这个操作会将df的表结果发生改变。将行转列,一旦调用该方法df在缓存中变成了列式存储。查询某列的时候就只扫描某列数据,就减少了扫描量提升了查询的性能,除此之外还会自动的调节压缩(最小化内存的使用率)2、参数调优具体详见后面的调优参数3、数据倾斜的调优——shuffle在进行聚合操作的使用,会产生shuffle,势必会有数据倾斜的可能。例子(单词统计)表(info) 数据: a b j a c d e
2021-12-06 10:18:17
3287
原创 离线数仓项目
离线数仓分为ods、dwb、dwd、dws、dm层遇到问题及解决方案1、创建udf函数 创建udf函数的时候需要对数据进行过滤,否则会报异常 在进行创建udf函数的时候一定要用打包插件,否则也会报错2、在运行mr的时候进行数据插入的时候报reduce异常,主要原因是前数据表中没有数据 注意是:在进行mr的时候一定不要空的数据或者数据的字段为null,否则都会报错,网上说的是内存溢出(并不一定)3、在进行hive表中的数据插入到mysql中的时候会出现编码异常 1、在结果集数据库中设
2021-11-27 17:20:22
3294
原创 kafka生产者与消费者API的简单应用
import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.ProducerRecord;import java.io.IOException;import java.util.Properties;/** 生产者* */public class Demo5 { public static void main(String[] args) throws
2021-11-17 17:35:03
770
原创 通过二分查找法,查询ip是否在ipArray中
//通过二分查找法,查询ip是否在ipArray中def binarySearch(ipArray:Array[(String,Long,Long)],ip:Long): Int ={ var start = 0 var end = ipArray.length while (start <= end){ val mid:Int = (start+end)/2 val startIp:Long = ipArray(mid)._2
2021-11-04 20:39:56
150
原创 将ip地址转换成一个长整型(日志处理)
//将ip地址转换成一个长整型def ip2Long(str:String): Long ={ val fields: Array[String] = str.split("\\.") var ipNum = 0L for(field <- fields){ ipNum = field.toLong | ipNum << 8 } ipNum}
2021-11-04 20:21:55
252
原创 简易的后端项目(ssm)
整体布局导入的依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd
2021-11-01 19:31:36
574
原创 时间转换——时间戳转换成固定格式
时间戳转换成固定格式 private final static String ERROR_TIME = "1970-01-01 00:00:00"; private final static String DEFAULT_DATE_FORMAT = "yyyy-MM-dd HH:mm:ss"; private final static SimpleDateFormat fmt = new SimpleDateFormat(DEFAULT_DATE_FORMAT); //时间日期格式
2021-10-15 16:43:57
462
原创 Hive——分区
内部表与外部表的相互转换alter table student2 set tblpropertes('external'='TRUE')desc formatted student创建一级分区表create table if not exists country(province STRING,city STRING)partitioned by(dates STRING)row format delimitedfields terminated by ',';load data
2021-09-26 19:23:26
254
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人