- 博客(20)
- 收藏
- 关注
原创 springboot定时任务多线程配置
直接上代码定时任务配置累,配置10个线程池/** * 定时任务县城池配置 * 可执行a,b任务并行,a,a任务串行 */@Configurationpublic class ScheduleConfig implements SchedulingConfigurer { @Override public void configureTasks(ScheduledTaskRegistrar taskRegistrar) { taskRegistrar.se
2020-12-24 17:59:51
427
1
原创 hive sql 多行转为一行&&collect_set&&collect_list的区别
1.collect_list 多行转一行,有序不去重数据select 123 uid,'a' name, int(1) typefrom tunion allselect 123 uid,'b' name, int(2) typefrom tunion allselect 123 uid,'c' name, int(3) typefrom tunion allselec...
2020-01-10 17:12:18
555
原创 sql实现递归累加的三种方法
有如下表:Tdate number 2019-01-01 20 2019-01-02 15 2019-01-03 10 2019-01-04 21 2019-01-05 88 2019-01-06 60 实现number按时间累加输出:date number 2019-01-01 20 2019-...
2019-07-26 19:14:09
8024
4
原创 sql的开窗函数over()
sql的一大神器就是over()开窗函数,以前我经常使用的就是row_number() over(partition by rowName order by rowName)别的都不熟悉,今天特简单做个总结,以便以后使用。数据排序使用row_number() over(partition by rowName ORDER BY rowName) row_number 的功能是为从第一行...
2019-06-18 20:34:40
1752
原创 数据挖掘+推荐系统+算法总结
最近在搞数据挖掘和推荐系统的项目,借着项目,自己简单吧常用的算法总结了一下,记录下来便于自己理解以及后期的学习,如有不对的地方请大家指出!1.ALS算法原理?答:对于user-product-rating数据,als会建立一个稀疏的评分矩阵,其目的就是通过一定的规则填满这个稀疏矩阵。als会对稀疏矩阵进行分解,分为用户-特征值,产品-特征值,一个用户对一个产品的评分可以由这两个矩阵...
2019-06-05 15:51:27
3723
1
转载 springboot之启动原理解析及源码阅读
springboot之启动原理解析及源码阅读前言SpringBoot为我们做的自动配置,确实方便快捷,但是对于新手来说,如果不大懂SpringBoot内部启动原理,以后难免会吃亏。所以这次博主就跟你们一起一步步揭开SpringBoot的神秘面纱,让它不在神秘。正文我们开发任何一个Spring Boot项目,都会用到如下的启动类@SpringBootApplica...
2019-05-17 11:39:46
433
原创 flume配置文件--httpSource,kafkaChannel,hdfsSink
tier1.sources = httpSourcetier1.channels = kafkaChanneltier1.sinks = hdfsSinktier1.sources.httpSource.channels = kafkaChanneltier1.sinks.hdfsSink.channels = kafkaChannel#--------httpSource----...
2019-02-27 11:44:22
565
转载 hive中对json字符串的解析-get_json_object和json_tuple的对比
在技术对app进行埋点时,会讲多个字段存放在一个数组中,因此模型调用数据时,要对埋点数据进行解析,以作进一步的清洗。本文将介绍解析json字符串的两个函数:get_json_object和json_tuple。表结构如下:一、get_json_object函数的作用:用来解析json字符串的一个字段:select get_json_object(flist,'$.fi...
2019-02-25 18:41:52
814
原创 hive 添加,修改,删除字段的坑
alter table table_name add columns(location_id string) ;alter table table_name change column complete_status complete_status string;使用alter table语句更新变结构时,由于默认更行现有表结构,对历史分区表元数据无改动,导致原有分区变数据,新字段...
2019-01-23 16:53:20
38895
2
转载 Java 内存溢出(java.lang.OutOfMemoryError)的常见情况和处理方式总结
java.lang.OutOfMemoryError这个错误我相信大部分开发人员都有遇到过,产生该错误的原因大都出于以下原因:JVM内存过小、程序不严密,产生了过多的垃圾。导致OutOfMemoryError异常的常见原因有以下几种:内存中加载的数据量过于庞大,如一次从数据库取出过多数据; 集合类中有对对象的引用,使用完后未清空,使得JVM不能回收; 代码中存在死循环或循环产生过多重复...
2019-01-04 11:00:22
249
原创 hivesql删除数据、删除分区表、删除库表
-- 删除库drop database [if exists] db_name;-- 强制删除库drop database [if exists] db_name cascade;-- 删除表drop table [if exists] table_name; -- 清空表,第二种方式insert overwrite table_name select * from...
2019-01-04 10:51:50
8168
原创 crontab 定时任务执行sqoop任务脚本,无法查看运行日志
前段时间于到一个关于crontab定时任务的问题:问题是这样的我通过sqoop命令将mysql数据库数据同步到hive表,linux命令行执行没毛病,写成shell脚本,做crontab定时任务,发现执行不成功。tail -f /var/log/cron 执行正常。tail -f /var/mail/spool/work 没有日志输出。(我是work用户执行)其实是sqoo...
2018-12-27 11:17:02
2263
原创 数据分析架构-图解
HDFS:分布式数据存储组件,主要用于数据平台数据的存储,存储现有历史行为数据以及服务端数据。构建数据仓库的基础存储单元数据聚合层:对原始数据进行有目的的清洗转合,基于数据模型以及一些基础业务场景做简单数据聚合使用。管理平台:任务的调度,元数据的管理,任务的监控报警。数据源:DB数据库:来自服务端的数据 Flume:埋点事件数据 API:各个服务接口数据 Kafka...
2018-12-19 13:59:15
1263
翻译 常用hive函数集锦
一、关系函数1.等值比較:= 语法:A=B操作类型:全部基本类型2.不等值比較:<> 语法:A<>B 操作类型:全部基本类型3.小于比較:< 语法:A<B操作类型:全部基本类型4.空值推断:IS NULL 语法:a is null操作类型:全部类型5.非空推断:IS NOT NULL 语法:a is...
2018-12-07 11:32:58
219
转载 kafka配置文件说明
Broker Configs PropertyDefaultDescriptionbroker.id 每个broker都可以用一个唯一的非负整数id进行标识;这个id可以作为broker的“名字”,并且它的存在使得broker无须混淆consumers就可以迁移到不同的host/port上。你可以选择任意你喜欢的数字作为id,只要id是唯一的即可。log.dirs/tmp/kafka-logsk...
2018-04-28 17:58:56
1532
转载 nginx+lua+kafka实现日志统一收集汇总
一场景描述对于线上大流量服务或者需要上报日志的nginx服务,每天会产生大量的日志,这些日志非常有价值。可用于计数上报、用户行为分析、接口质量、性能监控等需求。但传统nginx记录日志的方式数据会散落在各自nginx上,而且大流量日志本身对磁盘也是一种冲击。 我们需要把这部分nginx日志统一收集汇总起来,收集过程和结果需要满足如下需求: 支持不同业务获取数据,如监控业务,数据分析统计业务,推荐业...
2018-04-28 15:34:51
663
翻译 spark属性配置方式
1.Spark1.x 属性配置方式 Spark属性提供了大部分应用程序的控制项,并且可以单独为每个应用程序进行配置。 在Spark1.0.0提供了3种方式的属性配置:SparkConf方式SparkConf方式可以直接将属性值传递到SparkContext;SparkConf可以对某些通用属性直接配置,如master使用setMaster,appname使用setAppName...
2018-04-26 18:53:29
1853
原创 推荐系统浅谈-大家都知道的案例
最近公司一直让优化以前的推荐系统,于是就查看了,大量的推荐系统的文章,有一些新的信息推荐给大家。第一次接触【推荐系统】是在前两年的互联网论坛上,那时候,【机器学习】和【大数据】都是新概念,但是差不多半年后,【大数据】的概念就开始风靡全球了,到现在已经被爆炒得面目全非。因此买了一些推荐系统的书记,现在的很多热门书籍一样,都是跟着概念热起来的。 虽然有一些作者自己的实战经验在里面,但是总体上来说并没有...
2018-04-23 11:37:36
1565
原创 碎碎点点-积土成山,风雨兴焉;积水成渊,蛟龙生焉
博客开篇,不知道改写点啥,谈谈开通博客的目的首先,做软件开发已经有一点时间了,自己多多少少积累了一些知识,开通博客就是希望写下自己的碎碎点点的知识,以免后期忘记了,好回顾,同时也希望和大家分享,让我们共同成长。最后写点积累自己的话,希望与君共勉。有这么一句老话,让我们来听听“读万卷书,不如行万里路,行万里路不如名师指路。”还有变化版“读万卷书,不如行万里路,行万里路不如跟随成功人的脚步。”其实我们...
2018-04-18 16:29:38
397
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人