- 博客(31)
- 资源 (1)
- 收藏
- 关注
原创 spark问题总结
sparkExecutor内存总体布局默认情况下,Executor不开启堆外内存,因此整个 Executor 端内存布局如下图所示:整个Executor内存区域分为两块:1、JVM堆外内存大小由 spark.yarn.executor.memoryOverhead 参数指定。默认大小为 executorMemory * 0.10, with minimum of 384m。此部分内存主要用于JVM自身,字符串, NIO Buffer(Driect Buffer)等开销。此部分为用户代
2021-03-29 21:43:42
479
原创 git pull 冲突 解决方案
git pull 冲突Step1. 在本地仓库中, 更新并合并代码git fetch origingit rebase origin/3d_planningStep2. 依据提示分别打开冲突的文件, 逐一修改冲突代码Step3. 所有冲突都修改完毕后, 提交修改的代码git add -ugit rebase --continueStep4. 更新patchgit push origin HEAD:refs/for/3d_planning问题fatal: unable to ac
2021-03-13 10:49:47
399
原创 spark 中的limit 会导致原本并发处理的任务转换成两个1个task的stage去处理,如果limit后跟的数很大会导致任务阻塞.器
sparksql 中的limit 会导致原本并发处理的任务转换成两个1个task的stage去处理,如果limit后跟的数很大会导致任务阻塞.加了 limit 所以一个stage转换成 两个各只有1task 的stage。不加limit的话 就只有一个3k的stage。sql语句中加了limit的stage、DAG:不加limit的stage、DAG:...
2021-03-13 10:38:02
797
转载 hive UDAF开发入门和运行过程详解
介绍hive的用户自定义聚合函数(UDAF)是一个很好的功能,集成了先进的数据处理。hive有两种UDAF:简单和通用。顾名思义,简单的UDAF,写的相当简单的,但因为使用Java反射导致性能损失,而且有些特性不能使用,如可变长度参数列表。通用UDAF可以使用所有功能,但是UDAF就写的比较复杂,不直观。本文只介绍通用UDAF。UDAF是需要在hive的sql语句和group by联合使用,hive的group by对于每个分组,只能返回一条记录,这点和mysql不一样,切记。UD.
2020-06-15 16:17:12
604
原创 java对象
一. 对象的内存布局HotSpot 虚拟机中,对象在内存中存储的布局可以分为三块区域:对象头(Header)、实例数据(Instance Data)和对齐填充(Padding)。二. 对象头JVM 对象头一般占用两个机器码,在 32-bit JVM 上占用 64bit, 在 64-bit JVM 上占用 128bit 即 8+8=16 bytes(开启指针压缩后占用 4+8=12...
2018-09-20 17:38:34
193
原创 hive 踩过的坑
select SrcIP,DstIP,RecTime from(select get_json_object(json,'RecTime') RecTime ,get_json_object(json,'SrcIP') SrcIP,get_json_object(json,'DstIP') DstIPfrom tmp_json_test t) t2distribute by SrcIP,D...
2018-09-14 15:55:41
277
原创 CDH 安装
注:此为hadoop CDH5.11离线安装查看linux1. cat /proc/version (Linux查看当前操作系统版本信息)2.cat /etc/issue 或cat /etc/redhat-release(Linux查看版本当前操作系统发行版信息)3.lsb_release -a 当前操作系统 的 详细信息linux清理缓存的命令查看缓存的命令 fr...
2018-08-21 17:36:31
1368
原创 ambari搭建HDP集群
1. cat /proc/version (Linux查看当前操作系统版本信息)2.cat /etc/issue 或cat /etc/redhat-release(Linux查看版本当前操作系统发行版信息)3.lsb_release -a 当前操作系统 的 详细信息 先安装一个 cdh试一下 后面再安装这个...
2018-08-21 10:51:31
423
转载 深入理解线程通信
https://crossoverjie.top/%2F2018%2F03%2F16%2Fjava-senior%2Fthread-communication%2F
2018-08-16 15:24:09
115
原创 ELK(分布式大数据搜索和日志挖掘及可视化)之实战(先不要审核只是保存一些记录)
logstash 配置input{ file{ path =>"opt/logs/*.sql" type =>"logjson" start_position => "beginning" sincedb_path =>"/dev/null" }}filter{ js
2017-09-18 09:34:07
927
转载 zookeeper
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。Zookeeper是hadoop的一个子项目,其发展历程无需赘述。在分布式应用中,由于工程师不能很好地使用锁机制,以及基于消息的协调机制不适合在某些应用中使用,因此需要有一种可靠的、可扩展的、分布式的、可配置的协调机制来统一系统的状态。Zookee
2017-09-16 20:40:43
525
原创 Elasticsearch获取ES查询的所有结果,并批量导出Excel2
工作环境是内网所以不能截图。搭建了ELK环境。3500W个dic中查询数据,并要求导出excel。从es中查询 status=500,返回为空,查询时间超过2000ms的数据head插件查询出索引的数据sql更方便查询支持标准sqlselect param from logstash-sql---3p where numfounds=0一、kibana画图1.首先是用kibana画条状图,crea...
2017-09-12 08:33:04
11129
6
原创 TCP/IP socket 等的考点
1.网络由上到下分为 应用层、表示层、会话层、传输层、网络层、数据链路层、物理层 2.http协议是如何包装数据,tcp/ip是如何传输数据, 3.socket是对TCP/IP协议的封装和应用,Socket本身并不是协议,而是一个调用接口(API)。 4.三次握手第一次握手:客户端发送syn包(syn=j)到服务器,并进入SYN_SEND状态,等待服务器确认; 第二次握手:服务器收到syn包
2017-08-31 22:45:32
331
原创 Elasticsearch获取ES查询的所有结果,并批量导出Excel
工作环境是内网所以不能截图。搭建了ELK环境。 3500W个dic中查询数据,并要求导出excel。从es中查询 status=500,返回为空,查询时间超过2000ms的数据 head插件查询出索引的数据 sql更方便查询支持标准sql select param from logstash-sql—3p where numfounds=0 一、kibana画图 1.首先是用kibana
2017-08-31 19:06:21
26063
2
原创 java基础
1.为了更好的组织类,java提供了包机制。 包是类的容器,用于分隔类名空间,定义在同一个包package内的类可以不经过import直接互相使用 2.servlet处于服务器进程中,通过多线程运行其service方法,一个实例可以服务多个请求,实例一般不会销毁,cgi对每个请求都产生新的进程,服务完就销毁 3.static关键字修饰的方法或者变量不需要依赖对象就可以访问,只要类被加载中国类名
2017-08-30 20:59:05
201
原创 hadoop之旅(六)
1。job先提交给resourcemanager,resourcemanager分配给各机器的nodemanager 2.split默认按照行来拆,可以通过inputformat修改。
2017-08-26 21:07:19
209
转载 hadoop之旅(五)
1.配置计算调度系统Yarn和计算引擎Map/Reduce 2.namenode上配置mapred-site.xml mapreduce.framework.name yarn 3.yarn-site.xml的配置 yarn.resourcemanager.hostname master yarn.nodemanager.aux-se
2017-08-20 16:10:06
171
转载 (干货):Spark性能优化
继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。
2017-08-20 10:35:31
236
原创 hadoop之问
1.hadoop主要哪些组件 a. hdfs yarn mapreduce b.hdfs->nn dn 2ndN journalNode 2.hdfs 典型结构(物理+逻辑) 3.hdfs 横向扩展 4.hdfs的典型应用设计,网盘 5.安全与权限kerberos 6.secondary Namenode 7.ha 8.federation超大规模数据中心(name
2017-08-19 23:57:53
168
原创 hadoop之旅(一)环境搭建
前面我们已经搭建好Hadoop,hdfs,一台master两台slaves。 1。hadoop-daemon.sh start/stop namenode/datanode启动/关闭hdfs 2。hdfs dfsadmin -report|more 查看集群情况 3.start-dfs 直接在master启动集群 4.ssh’免密码登录ssh_keygen -t rsa ,生成一个私
2017-08-19 23:43:39
205
原创 hadoop之旅(四)常用操作(拷贝、权限)
hadoop dfsadmin -safemode leave #解除hadoop的安全模式hadoop fs -copyFromLocal URI#拷贝本地文件到hdfs hadoop fs -cat file:///file3 /user/hadoop/file4#将路径指定文件的内容输出到stdout hadoop fs -chgrp [-R] GROUP URI#改变文件的所属组
2017-08-19 23:41:41
412
原创 hadoop之旅(三)java操作HDFS
8.Java操作HDFS URL url=new URL(“http://www“);//远程操作http协议 inputstream in =url.openStream(); IOUtils.copyBytes(in,System.out,4096,true) 1.方式 URL.setURLStreamHandlerfactory(new FsUrlStreamHandler
2017-08-19 23:40:23
247
原创 hadoop之旅(二)
前面我们已经搭建好hadoop,hdfs,一台master两台slaves。 1。hadoop-daemon.sh start/stop namenode/datanode启动/关闭hdfs 2。hdfs dfsadmin -report|more 查看集群情况 3.start-dfs 直接在master启动集群 4.ssh’免密码登录ssh_keygen -t rsa ,生成一个私钥一个公
2017-08-19 23:38:50
279
原创 tensorflow安装python3.6CPUwin10
1,安装python3.6.一定要是64位的tensorflow,一般支持win 64位的2,去官网下载相应的winPython3.6 64位 的tensorflow和numpy(非必须,xiepython 很方便)3,安装3.6 Python\Scripts 自带pip,直接去cmd pip3.6 install 相应tensorflow版本4.不知道是不是tensorflow的bu
2017-08-07 21:42:08
1768
原创 项亮《推荐系统实践》笔记
好的推荐系统个性化推荐系统应用推荐系统评测 离线实验、用户调查和在线实验2。1用户行为数据 协同过滤算法 建立用户兴趣模型 2。4基于邻域的算法是推荐算法中最基本的算法 一基于用户的协同过滤算法 余弦相似度 二是基于物品的协同过滤算法 业界应用最多的算法 活跃
2017-05-08 23:49:43
404
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人