- 博客(32)
- 资源 (3)
- 收藏
- 关注
原创 Eclipse MAT(Memory Analyzer Tool) 使用手册
选择Leak Suspects Report后,会弹出报告层default_report,直接查看推测的StackTrace即可。常用的就是Histogram,Dominator_Tree。或者点击Leak Suspects也可以弹出界面。就可以查看到对应的ThreadStacks。然后选择希望查看的对象。
2024-12-10 15:34:17
529
原创 SparkSQL文件格式和压缩算法是否支持Split
CSV:继承自org.apache.spark.sql.execution.datasources.TextBasedFileFormat,所以必须满足文本文件可分割的条件。除此之外还必须满足CSV文件支持Split,CSV实现了两种读取方式TextInputCSVDataSource和MultiLineCSVDataSource,第一种支持Split,第二种不支持,可以自行查看源码。
2023-06-04 13:06:06
1155
原创 Flink Watermark概要
Watermark和代码是基于 Flink1.12版本的,概念相似。有时间会陆续完善Watermark包含几个重要的知识点抽时间积累点知识,网上文档很多,仅根据自己的理解,概括性的记录下名称: 水位线 , 水印都行,就一个名字而已下文中的事件,指代数据库记录,log日志,流量日志,度量信息等等Watermark应用场景,如果这两个场景不满足,则不太需要考虑Watermark1. window算子2. EventTime作为计算时间注:Flink有三个时间,Ingest
2022-05-21 18:42:10
435
原创 Runtime.getRuntime().exec() 日志阻塞问题定位到解决
1. 发现问题工作中使用java程序导数据,该导数据的java程序是通过另外一个java程序通过Runtime.getRuntime().exec() 启动的。总是会出现数据传输到一半就卡住了,不会继续传输,也不会失败纹丝不动,不生不死2. 定位问题查看java进程pid :jps -lm查看java进程占用资源情况: top -p pid再查看该java进程中线程资源使用情况:top -H -p pid发现该java程序,一点资源也不占用,0cpu 0mem..
2020-07-04 18:17:03
2714
原创 Hive任务超时报错 Invalid OperationHandle
一个奇怪的问题有个任务报错如下Invalid OperationHandle: OperationHandle [opType=EXECUTE_STATEMENT, getHandleIdentifier()=373ae075-499f-4ccf-a75b-43152be71c67]查看hiveserver2的日志2020-04-28 06:06:50,413 WARN org...
2020-04-28 10:46:16
12202
2
转载 训练集和测试集的区别
1、训练集和测试集一般来说,训练集用来估计模型中的参数,使模型能够反映现实,进而预测未来或其他未知的信息,而测试集用来评估模型的预测性能。例如:已知1000个小朋友的体重和身高数据,想建立体重与身高的线性回归模型。我们可以用900个小朋友的身高和体重数据(训练集)来拟合模型中的参数,进而预测另外100个小朋友的体重(已知身高数据),预测值和实际值的差别就可以用来衡量模型的预测性能(测试集是...
2020-02-19 15:44:44
43027
3
原创 Hive使用json_tuple, posexplode 解析 json
Hive使用json_tuple, posexplode 解析 json,lateral view
2017-03-18 17:52:55
16325
3
原创 RHEL6.5使用问题解决方案
1.使用yum工具安装gcc时提示没有包可用 解决:将光盘或镜像文件挂载上去:mount /dev/cdrom /media 编辑装载包的文件设置:vi /etc/yum.repos.d/rhel-debuginfo.repo,修改为下面实例 [rhel-Server] name=Red Hat Enter
2015-07-26 09:30:27
887
原创 Linux常用命令操作
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作系统信息 arch 显示机器的处理器架构(1)
2015-05-13 11:29:24
512
转载 Hadoop默认端口查询
Hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询。这里包含我们使用到的组件:HDFS, YARN, HBase, Hive, ZooKeeper:组件节点默认端口配置用途说明
2015-05-07 19:13:19
1764
转载 Linux集群时间同步
本文转载:仅供参考,有linux基础的一般看看就知道要修改些什么了,不能完全照抄,你不一定机器能跟作者一样打算将11台Linux集群时间同步一下,操作系统都为Ubuntu 11.04 x86 64位选定其中一台133.133.10.2作为时间服务器(ntp server),其他节点与该节点进行时间同步。 第一种方法:1、在133.133.10.2(mon
2015-04-29 20:54:31
582
转载 CentOS6.5挂载windows共享文件夹
CentOS6.5挂载windows共享文件夹由于工作需要,需要把本机的文件夹共享出去,然后让CentOS服务器临时使用下。服务器使用的是CentOS系统,而本机使用的win7系统。考虑到是临时使用,所以就不打算搭建FTP和Samba服务器,神思保持通过CentOS挂载windows共享文件夹的方式来达到此目的。既然是使用windows共享文件夹的方式,那么我们
2015-04-26 15:30:03
2428
转载 自己编写脚本启动hadoop各个守护进程需要的特别配置
脚本启动zookeeper集群需要的特别配置我写了一个启动zookeeper的脚本d.sh。启动时提示成功了不了,但实际上没有成功脚本:脚本很简单内容如下:[root@crxy1 local]# more d.sh #!/bin/sh echo "start zkServer..." for i in 1 2 3 do ssh crxy$i "/usr/
2015-01-18 22:17:05
564
转载 crontab : 设置脚本自动执行命令
http://os.51cto.com/art/201205/334502.htm使用crontab你可以在指定的时间执行一个shell脚本或者一系列Linux命令。例如系统管理员安排一个备份任务使其每天都运行如何往 cron 中添加一个作业?# crontab –e0 5 * * * /root/bin/backup.sh这将会在每天早上5点运行 /root/bin/
2015-01-16 18:58:52
703
原创 Nagios4.0.8 详细安装配置
为百度知道的更多,我记录下我与网络上讲述的不一样的地方,标上注意点为新手多点资料,一些小细节烦死人1.下载nagios-4.0.8.tar.gz 和 nagios-plugins-2.0.tar.gzwget http://jaist.dl.sourceforge.net/project/nagios/nagios-4.x/nagios-4.0.8/nagios-4.0.8.tar
2015-01-12 16:42:05
1762
原创 hadoop集群配置Ganglia监控
根据网友的介绍,简单配置了一个集群,用作记录我的集群hadoop1 192.168.1.151 gmetad 和 gmondhadoop2 192.168.1.152 gmondhadoop3 192.168.1.153 gmondha
2015-01-05 16:56:44
696
原创 配置Hadoop-2.4.0的HA+Federation+Yarn详细记录
配置Hadoop-2.4.0的HA+Federation+Yarn详细记录
2014-12-28 10:50:21
1211
原创 Hadoop操作错误记录
1.在手动执行bin/hdfs secondarynamenode -checkpoint force手动执行checkpoint检查时出现错误14/12/20 15:17:43 INFO common.Storage: Cannot lock storage /usr/local/hadoop/dfs/checkpoint. The directory is already locked
2014-12-20 15:28:04
576
原创 HBase伪分布式,集群安装配置
1.常规安装好Hadoop后,需要启动HDFS,HBase是建立在HDFS之上的2.下载HBase版本,这里注意了,你的Hadoop版本要和Hbase版本一致,否则会报两个协议不一致的错误,我用的是Hadoop2.4.0和HBase0.99.2,对于网上说的要用Hadoop里的core文件替换HBase的lib文件夹中包文件,Hadoop2中的core文件已经分散到share文件夹下,我是不会
2014-12-20 13:45:19
821
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人