- 博客(24)
- 收藏
- 关注
原创 Flink流关联频繁更新的维表解决方法探索
目的实时解析处理用户的注册,实名,申额,支用等用户业务流程数据binlog,计算用户生命周期的相应指标到Kudu中,并且需要将当用户指标数据发生变更后也要同时推送到kafka 给其他业务做增量计算,根据这些实时指标,进行后续实时营销等信息推送。背景介绍用户在app上进行简单注册后,会赋值给用户一个userid,但是后续实名等发生具体业务后,会给用户分配一个custno与userid映射关系相关联,接下来用户的所进行的业务例如绑定银行卡,人脸识别,申额,支用,还款等...
2022-02-10 16:50:55
3006
原创 优化 count 去重 语句查询从一分30秒到500ms
待优化sql:select count(DISTINCT sip) from mining_machine where mining_pool='YES';sql 优化:1:建立非聚集联合索引create index count_sip on public.mining_machine(mining_pool,sip);2:优化后sql;select count(*) from (select sip from mining_machine where mining_pool ='Y.
2020-09-03 17:19:06
430
原创 kafka producer 错误error:Expiring 1 record(s) for logs_from_newa-8: 3000014 ms has passed since last a
做样例数据进kafka中,生产者总是阻塞一段时间后抛出过期error。google说修改request.timeout.ms,尽可能长,减少linger.ms,经过实践,卡住的时间会变得和request.timeout.ms 一样长,还会报错。修改:在本地hosts文件中,添加kafka主机名与其ip的映射关系,问题解决。...
2020-08-04 15:57:20
2863
原创 crontab定时脚本含有 date ‘%’问题导致不生效。
Percent-signs (%) in the command, unless escaped with backslash (\), will be changed into newline characters, and all data after the first % will be sent to the command as standard input.
2020-07-29 11:38:56
804
原创 HDFS块损坏问题。
因为断电,导致hdfs块损坏,ClouderManager 提示块损坏问题。1:寻找损坏的块的路径hdfs fsck / | egrep -v '^\.+$' | grep -v eplica2:寻找每个损坏块的相信信息。会列出每个块的副本的节点信息 /path/to/corrupt/file 为损坏块的路径 hdfs fsck /path/to/corrupt/file -locations -blocks -files3:找到每个损坏块副本分散节点,依次去排查相关问题。4:.
2020-07-21 15:13:43
879
原创 postgresql count(distinct) 优化实践
描述:业务需要查表,该表大约不到四个G,总行数900w条,一个简单的去重的条件查询需要一分钟四十秒,这是不能忍受的。原语句:耗时1m40sselect count(DISTINCT sip) from mining_machine where mining_pool='YES';优化措施:1:首先想到加索引,索引顺序也很重要,根据sql解析顺序 where 解析在前。create index count_sip on public.mining_machine(mining_pool
2020-07-09 17:34:44
2895
原创 ZFS,XFS,BtrFS性能测试
1:通过测试结果可以看到btrfs在有raid5(五块5.5T硬盘组合)情况下,磁盘利用率较高,且在顺序读写上较zfs和单盘xfs文件系统性能突出,但是在有缓存随机读写上表现较zfs差一点,无缓存情况下,只有较单块盘的xfs比较,btrfs顺序读性能是单块xfs10倍,zfs不支持无缓存,无法比较,随机写无缓存以及随机读无缓存与单块xfs性能没有太大差异 ...
2020-03-03 16:22:17
15597
原创 python爬虫携程用车总结
爬取携程用车信息,用的比较传统的模拟浏览器行为方式,主要用payload进行request请求,一步步获取最后的用车列表1:缓存清理问题: 根据模拟浏览器行为方式,我们需要从这个页面来选择我们的【租车点】,【租车时间】,【还车时间】,浏览器才能跳转到下一页面,获取下一步的具体租车列表信息。 这里遇到的问题就是通过F12我要根据network中页面请求顺序,...
2019-10-17 16:18:19
1137
原创 python项目(非单一.py文件)用Pyinstaller打包发布成exe,在windos上运行程序。
目录一:背景以及项目结构介绍二:实施步骤1:总体思路(1)pyi-makespec -w xxx.py(2)pyinstaller -D xxx.spec2:安装pyinstaller3:具体步骤(以我项目为例子) (1)生成spec文件,并填充内容(2):开始装修房子(打包exe)。(3):验证exe三:疑难杂症和需要注意的坑1:打包找不到模块问...
2019-09-30 20:20:18
6268
15
原创 Kubenetes的Master节点和Node节点
学习笔记-摘录Kubeneters权威指南。Master节点: Kubernetes API Server(kube-apiserver),提供了HTTP Rest接口的关键服务进程,是Kubernetes里所有资源的增删改查等操作的唯一入口,也是集群控制的入口进程。 Kubenetes Controller Manager(kube-controller-manager),Ku...
2019-09-11 15:24:50
937
原创 Docker部署Springboot项目连接到PostgreSQL
docker小白的学习笔记,将自己之前做的Springboot项目做成容器进行试验,新建的PG数据库并没有导入数据,但是此过程可用。一:部署 postgresql镜像。1:搜索postgresql镜像。docker search postgres;2:拉取postgres镜像docker pull postgres3:创建本地目录映射到容...
2019-09-10 09:37:30
1587
1
原创 docker安装mysql挂载本地目录并且设置远程登录
学习docker过程的笔记。1:搜索mysql 镜像docker search mysql2:拉取mysql 最新版本镜像docker pull mysql3:开启容器创建本地存储映射目录:mkdir -p /opt/mysql/data /opt/mysql/logs /opt/mysql/confdocker run -p 3...
2019-09-04 17:05:19
1117
原创 Shell脚本回顾练习笔记
#!/bin/bash#readonly name='wangxiaodong'; 只读变量,不能被unset删除,无法重新赋值定义。name='wang'xiaodo'ng' ;name_array=(reade write yellow black wite blue);echo 'name:'${name};echo "我的名字是:\"${name}\""#出现i或者o的下标...
2019-08-08 10:26:04
120
原创 Shell脚本回顾练习-操作Postgresql数据库。
#!/bin/bashfilename="/tmp/pgtest.txt"host=127.0.0.1user=postgrespassword=postgresport=5432dbname=postgresgettable(){if [ ! -e ${filename} -o ! -s ${filename} ]; then `touch /tmp/pgtest...
2019-08-08 10:17:22
1649
原创 GreenPlum5.20.1在Centos7上的离线安装
GP离线安装整理因为环境特殊原因,在封闭网络下安装GP,此步骤经过自己多次整理验证。系统准备阶段:1:安装UNzip# rpm -ivh (unzip的rpm包名)2:添加修改hosts主机名(单机版没啥必要用ip或者原来的就行)# vi /etc/hosts3:关闭防火墙# systemctl stop firewalld# systemctl disable f...
2019-07-31 10:17:07
710
1
原创 MongoDB 在Centos7下安装部署。
参考:https://docs.mongodb.com/manual/tutorial/install-mongodb-enterprise-on-red-hat/#uninstall-mongodb1:配置yum源vim /etc/yum.repos.d/mongodb-enterprise.repo添加以下内容:[mongodb-enterprise]name=Mongo...
2018-12-22 15:21:55
151
原创 HDFS-NFS
本文主要是自己在调研hdfs-nfs过程中的学习记录NFS原理NFS原理应用介绍:https://www.cnblogs.com/me80/p/7464125.htmlHDFS的NFS原生的HDFS是采用服务器本地磁盘实现,在数据读取上具有很好的本地化优势,但是本地实现方式存在容量使用率低,影响计算等,目前典型的HDFS实现方式主要包括:1:专业存储方式,2:HDFS连接器...
2018-11-08 20:15:27
1813
原创 Mapreuce的Shuffle过程
熟悉Mapreduce的同学,肯定对Map和Reduce的编写非常的6,那么从你的数据从Mapper类到Reducer类的传输要经过一个过程,这个过程就叫Shuffle,Shuffle过程是个无比重要的过程,它使你的数据从Mapper端出来之后更加整齐,规范,并且相同的Key的数据放在了一起输入到Reducer端,从某种意义上来说,Shuffle是MapReduce的心脏,是奇迹发生的地方...
2018-04-13 17:30:33
302
原创 Job提交到Yarn过程详解
主要组件介绍: Yarn是个资源管理,任务调度的框架,主要包括三大模块:ResouceManager,NodeManager,ApplicationMaster ResouceManager:资源管理器,整个集群资源的协调者,调度者,管理者 NodeManager:NM是每个节点上的资源和任务管理器。它会定时地向RM汇报本节点上的资源使用情况和各个Contain...
2018-04-10 20:02:23
4950
2
原创 Hadoop-HDFS
HDFS介绍: HDFS源于Google三篇论文(GFS,Mapreduce,BigTable)中的GFS理论启发而诞生的基于海量数据分布式存储的一种文件系统,HDFS也是Hadoop生态圈最重要的组件之一,他解决了传统数据库对非结构化数据的存储问题,和海量数据存储的问题,一次写入多次读取,是目前大数据存储地位最高的分布式存储文件系统。HDFS的组件: Client端:客户...
2018-04-10 14:14:17
352
原创 Zeppelin在求学之路----在Zeppelin上开发SendMai功能
功能要求:实现在Spark解释器下,通过自定义功能,调用sendMail(subject,recipients,sql)实现将DataFrame查询结果保存到Hdfs上,并且通过邮件的形式发送给某人,以供后端人员使用。环境:Mac操作系统,Zeppelin0.74;Spark2.1.1,Hadoop2.52,Scala2.11.,Java1.80实现分了三部分很简单,代码上有备注,大家可以直接看备...
2018-04-06 15:43:06
800
原创 Zeppelin求学之路(3)—Zeppelin基本模块介绍和Paragraph源码深入了解以及Note,NoteBook 简介,
Zeppelin基本框架:源码是官方提供的最新的Zeppelin0.74版本。index0:废话: 研究了网上很多大神的佳作,和自己的亲身深入体验,尽自己最大努力讲的清楚一点把。 Index1:基本模块 看图说话: Zeppelin-server模块 Zeppelin-server:整个系统入口,提供服务器功...
2018-03-24 21:21:38
3029
原创 Zeppelin的求学之路(2)——配置Spark解释器,job提交到yarn
1: Spark解释器:Zeppelin 的日常使用中,使用最频繁的或者说目前最重要的解释器非Spark了,下面就说一下Spark解释器的配置。Apache Spark是一种快速和通用的集群计算系统。它提供Java,Scala,Python和R中的高级API,以及支持一般执行图的优化引擎。Zeppelin支持Apache Spark,Spark解释器组由5个解释器组成。上图表格便是五个解释器的简...
2018-03-23 20:40:28
4322
原创 Zeppelin的求学之路(1)—— 简介 和 从源码Build的安装并配置他的Spark解析器
ZeppelinZeppelin的简介 上面的截图就是官网对zeppelin的介绍,简洁明了——基于web端的notebook可以实现数据驱动,交互式数据分析,支持多种数据处理引擎,比如SQL,Scala,Spark,Hive等。当然我理解的Zeppelin就是整合了多种编程语言,比如Java,Scala,SQL,Python等,支持多种数据处理引擎进行数据处理分...
2018-03-22 21:05:18
2145
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人