- 博客(20)
- 收藏
- 关注
原创 ApacheMaven使用技巧
ApacheMaven使用技巧1. 如何让Maven中maven-antrun-plugin插件走代理下载依赖包许多大型项目的pom文件中需要使用maven-antrun-plugin插件下载软件包,比如Apache atlas项目,但是虽然在maven的settings.xml中配置了代理,但是对maven-antrun-plugin无效,可以通过在mvn命令中显示的增加代理配置使maven-antrun-plugin走代理。实例如下:mvn clean -DskipTests -Dhttp.pro
2021-12-10 15:08:47
2509
原创 Apache Flink学习笔记四 - Flink TableAPI Over Aggregation操作碰到的问题
Flink TableAPI Over Aggregation操作碰到的问题最近在学习Flink TableAPI Over聚合操作时又碰到了奇怪的问题,在Flink1.13.2版本上,当Order By字段是TIMESTAMP_LTZ类型时,会抛错;但如果是TIMESTAMP类型时就是正常的。测试代码如下:package com.nokia.itms.flink.sql;import java.util.Properties;import org.apache.flink.streaming
2021-10-18 15:18:12
1308
原创 Apache Flink学习笔记三 - 使用Flink1.14.0 TableAPI对EventTime进行Window操作时碰到的问题
使用Flink1.14.0 TableAPI对EventTime进行Window操作时碰到的问题最近有空又开始继续研究Flink了,直接上最新的稳定版1.14.0,没想到出师不利,在使用TableAPI进行Window聚合操作时碰到以下问题:如果用EventTime进行Window操作,转换成DataStream后调用print()方法,控制台没有任何输出;但改成ProcessingTime进行Window操作却一切正常。使用DataStream API对EventTime进行Window操作也是正常
2021-10-18 15:11:45
1634
4
原创 常用Linux性能调优参数大全
常用Linux性能调优参数大全Linux sysctl 参数参数名建议值说明fs.file-max1207818这个文件决定了系统级别所有进程可以打开的文件描述符的数量限制,如果内核中遇到VFS: file-max limit reached的信息,那么就提高这个值net.core.rmem_max16777216增加系统套接字接收缓冲区net.core.wmem_max16777216增加系统套接字发送缓冲区net.ipv4.ip_local_po
2021-01-29 09:35:51
1034
原创 KeepAlive参数为On时不同Apache版本的表现行为差异对比
KeepAlive参数为On时不同Apache版本的表现行为差异对比最近项目碰到一个奇怪的问题,Apache httpd.conf配置文件中的参数KeepAlive On在不同版本中表现出的行为不一致,导致现网应用出现故障。特记录下来供分析研究。环境一:Server version: Apache/2.2.14 (Unix),应用正常Http post:POST /ACS-server/BasicACS HTTP/1.1Content-type: text/xml; charset=UTF-8C
2021-01-29 09:31:40
452
1
原创 ApacheFlink学习笔记二
关于DataStreamAPI, Table API and SQL API首先借用官方一张图片上面的官方图片展示了Flink的API层次,由上之下分别是SQL/Table API, DataStream API和ProcessFunction API。封装程度由上至下越来越低,对使用者的要求也越来越高。官方推荐使用Table/SQL API主要出于以下几点考虑:是为了屏蔽底层的流处理...
2020-04-26 14:21:24
6766
1
原创 ApacheFlink学习笔记一
作为流处理框架的新秀,这两年ApachFlink非常热,所以最近花了些时间学习了一下,一些基本概念Apache官方文档已经比较全面不再复述,这里主要将实际学习测试中遇到的几个知识点整理出来供学习参考。关于Event Time,Processing Time,WaterMark和WindowEvent Time是事件本身实际发生的时间。Processing Time是实际处理某个Event的...
2020-04-26 14:18:03
334
原创 一次磁盘可用空间莫名减少的原因排查
更多内容,请访问bbhhhh.github.io前些天现场的某台Oracle DB Server的磁盘可用空间每天莫名减少1%,排查过程着实费了不少功夫,特记录下来作为知识和经验的积累。简要说下现象,现场维护工程师报告某生产系统Oracle DB Server的/卷可用空间每天减少1%,使用量已超过80%触发系统告警。维护工程师经过排查没有发现异常。于是寻求后端工程师支持。这个问题本来认为...
2019-03-22 10:45:43
3913
原创 python多进程不同实现方法的异同点
更多内容,请访问bbhhhh.github.io 最近一直在用python编写大数据分析程序,其中用到了多进程的技术,python实现多进程有多种方法,不同方法的运行效果不尽相同,通过这两天的测试整理,虽然不一定很全面,但有些内容python官方文档也没有涉及,因此赶紧写下来方便以后使用,同时也供大家参考,不正确的地方也请指出。 Python实现多进程主要有以下...
2016-02-29 15:38:16
1811
原创 hadoop-2.5.0-cdh5.2.1 + spark-1.2.0-bin-hadoop2.4 配置调优心得
更多内容,请访问bbhhhh.github.io环境:hadoop-2.5.0-cdh5.2.1spark-1.2.0-bin-hadoop2.4master,slave2 30G ram,32 vCoreslave4 60G ram,24 vCoreslave5 60G ram,24 vCore测试用例:根据关联条件对2个文件进行关联操作,并将关联后...
2015-01-06 16:37:37
2340
原创 Hadoop 坑爹的Speculative 机制
更多内容,请访问bbhhhh.github.io最近一直在搞Hadoop Hbase。我们有一个需求是从HDFS上读取输入文件,解析后输出到Hbase。由于输入文件非常大,TB级别,为了提高写库性能,我们尝试通过map程序在所有data node上并发读取并输出到Hbase。程序很快完成,并顺利完成入库任务。我们写了一个统计程序用于检查导入的记录是否与输入文件中的记录数一致。...
2014-12-18 16:27:00
6194
2
原创 如何基于NTLM代理服务器使Maven能够联网工作
更多内容,请访问bbhhhh.github.io最近在研究Hadoop 和Spark,需要自己编译一个spark包,用到maven工具。版本是:3.2.3,问题是公司的服务器在内网,而公司的HTTP代理是基于NTLM的,maven默认是不支持的,比如:你在settings.xml中有以下配置: <proxy> <id>my-proxy</i...
2014-12-18 15:17:05
1404
原创 HBase 学习一: 客户端写缓冲区 autoFlush
更多内容,请访问bbhhhh.github.ioHBase的表操作,默认情况下客户端写缓冲区是关闭的,即table.isAutoFlush() = true, 这种情况下,对表的单行操作会实时发送到服务端完成。因此,对于海量数据插入,修改,RPC通信频繁,效率比较低。这种场景下,可以通过激活客户端缓冲区,批量提交操作请求,提高操作效率。下面是一个简单的关于autoFlush的...
2014-08-28 15:16:03
6036
原创 关于Eclipse 中用Ant编译Java程序的JDK环境设置问题
更多内容,请访问bbhhhh.github.io日前在开发项目过程中碰到一个Java编译环境配置问题,折腾了不少时间,特写下来以备后用:问题是这样的,有一个java程序,通过Eclipse 的export jar功能能够正常编译并打包,但用Ant编译却报下面的错误:"java.lang.UnsupportedClassVersionError: com/sun/tools/ja...
2014-08-26 12:08:56
1431
原创 CentOS7 yum 命令使用心得-代理上网,从光盘安装软件
更多内容,请访问bbhhhh.github.io如题,本文只是作者这两天在使用yum时的一些使用心得,如果要了解完整的yum命令,请通过man yum查看。心得1:无法直连公网的情况下如何使用yum本人是在公司电脑上安装CentOS虚拟机,公司电脑需要通过代理才能访问公网。这种情况下,需要修改yum.conf文件,添加代理设置才能使yum访问公网# cd /etc# v...
2014-08-07 10:47:38
2404
原创 Hadoop学习一:SSH配置
更多内容,请访问bbhhhh.github.io最近在学习Hadoop,在配置伪分布式时需要配置SSH无密码登录。我是在CentOS7上安装Hadoop的,发现《Hadoop权威指南-第二版》以及Hadoop的官方文档关于SSH配置这一步都写的不够完整,导致无法实现SSH无密码登录,看了网上的相关帖子并经实践后,整理如下:1. SSH服务的安装就不细说了,一般都默认安装了。...
2014-08-05 16:18:16
582
原创 android学习二:模拟器上网
更多内容,请访问bbhhhh.github.io在公司学习Android开发,需要通过代理,用户名及密码才能上网,通过以下方式配置模拟器上网:启动模拟器,然后进入 Settings->Wireless & networks->Mobile networks->Access Point Names 然后打开出现在列表中的access point; ...
2014-07-29 13:58:36
597
原创 android 学习一: Context 类
更多内容,请访问bbhhhh.github.ioAndroid中context可以作很多操作,但是最主要的功能是加载和访问资源。在android中有两种context,一种是application context,一种是activity context,通常我们在各种类和方法间传递的是activity context。继承关系:public classApp...
2014-07-29 13:36:39
626
转载 (转)大型网站架构演变和知识体系
更多内容,请访问bbhhhh.github.io转自: http://www.blogjava.net/BlueDavy/archive/2008/09/03/226749.html 之前也有一些介绍大型网站架构演变的文章,例如LiveJournal的、ebay的,都是非常值得参考的,不过感觉他们讲的更多的是每次演变的 结果,而没有很详细的讲为什么需要做这样的演变,再加上近来感觉有不少同学...
2010-04-13 14:59:00
493
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人