- 博客(162)
- 资源 (48)
- 收藏
- 关注

转载 百万数据查询优化技巧三十则
http://blog.youkuaiyun.com/fenglibing/article/details/69723391.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如: select id from t
2017-08-20 21:00:18
317

转载 软件架构模式
http://blog.youkuaiyun.com/baidy/article/details/6985640浅谈架构模式[此文于2010年7月29日被重新编辑] 软件体系结构通常被称为架构,指可以预制和可重构的软件框架结构。架构尚处在发展期,对于其定义,学术界尚未形成一个统一的意见,而不同角度的视点也会造成软件体系结构的不同理解,以下是一些主流的标准观点。组成派
2017-08-20 20:56:31
372

转载 架构师必看书籍
http://blog.youkuaiyun.com/xiaoxiaocoder/article/details/8807290作为Java程序员来说,最痛苦的事情莫过于可以选择的范围太广,可以读的书太多,往往容易无所适从。我想就我自己读过的技术书籍中挑选出来一些,按照学习的先后顺序,推荐给大家,特别是那些想不断提高自己技术水平的Java程序员们。 一、Java编程入门类 对于没有Java
2017-08-11 23:50:13
1591
转载 10亿数据量的即席查询 spark 和 kylin的对比
数据量大约在10亿+,需要做一个即席查询,用户可以主动输入搜索条件,如时间。可提供一定的预处理时间。每天还有新数据加入。10亿+的数据对于普通的rdbms还是有些压力的,而且数据每天还在不停的增长,所以我们运用了我们的spark技术来做一个计算加速。关于增量更新的相关,我会在后续的博客中介绍。语句如下select count(*) a,b from table_a wher...
2019-11-07 09:55:10
728
转载 PB级海量数据服务平台架构设计实践
基于PB级海量数据实现数据服务平台,需要从各个不同的角度去权衡,主要包括实践背景、技术选型、架构设计,我们基于这三个方面进行了架构实践,下面分别从这三个方面进行详细分析讨论:作者:Yanjun基于PB级海量数据实现数据服务平台,需要从各个不同的角度去权衡,主要包括实践背景、技术选型、架构设计,我们基于这三个方面进行了架构实践,下面分别从这三个方面进行详细分析讨论:实践背景该数据服务...
2019-10-16 18:57:31
1306
转载 VMware网络连接模式——桥接模式、NAT模式以及仅主机模式的介绍和区别
在使用VMware Workstation(以下简称:VMware)创建虚拟机的过程中,配置虚拟机的网络连接是非常重要的一环,当我们为虚拟机配置网络连接时,我们可以看到如下图所示的几种网络连接模式:桥接模式、NAT模式、仅主机模式、自定义网络连接模式。那么这几种网络连接模式都各自有什么主要用途,它们之间又有哪些区别呢? 磨刀不误砍柴工,为了更好地使用虚拟机,了解这几种连接模式的主要用途以...
2019-10-11 10:19:51
329
原创 java源码网站
https://www.programcreek.com/java-api-examples/index.php?project_name=monsonlee/BigData#
2019-08-15 09:32:52
9314
1
转载 Intellij IDEA中Maven解决依赖失效
最近在折腾Maven和Sonatype的Nexus, 倒霉催的国内和公司网络...Nexus配合finalspeed或者kcptun倒是很给力, 但是Intellij就经常出问题, 出现红字也不动, 默认开了auto import也无效解决方式是在IDEA右侧Maven Projects面板中, 点击M图标的CMD输入mvn -U idea:idea坐等结果完成即可...
2019-08-14 16:48:08
308
转载 LinkedHashMap基本用法&使用实现简单缓存
LinkedHashMap——读书笔记《Java编程的逻辑》读书笔记1. 基本用法LinkedHashMap是HashMap的子类,但是内部还有一个双向链表维护键值对的顺序,每个键值对既位于哈希表中,也位于双向链表中。LinkedHashMap支持两种顺序插入顺序 、 访问顺序插入顺序:先添加的在前面,后添加的在后面。修改操作不影响顺序访问顺序:所谓访问指的是get/put操作,对一...
2019-08-08 10:31:39
290
转载 触发JVM进行Full GC的情况及应对策略
堆内存划分为 Eden、Survivor 和 Tenured/Old 空间,如下图所示:从年轻代空间(包括 Eden 和 Survivor 区域)回收内存被称为 Minor GC,对老年代GC称为Major GC,而Full GC是对整个堆来说的,在最近几个版本的JDK里默认包括了对永生带即方法区的回收(JDK8中无永生带了),出现Full GC的时候经常伴随至少一次的Minor ...
2019-08-03 10:45:29
152
转载 Java Web 开发必须掌握的三个技术:Token、Cookie、Session
https://www.cnblogs.com/jiangxwa/p/10289411.html来源:jianshu.com/p/8ef0c5a551d3整编:公众号Java技术栈在Web应用中,HTTP请求是无状态的。即:用户第一次发起请求,与服务器建立连接并登录成功后,为了避免每次打开一个页面都需要登录一下,就出现了cookie,Session。CookieCookie...
2019-08-03 10:33:32
237
转载 [项目规范]JAVA WEB项目实施规范
https://blog.youkuaiyun.com/cloud_xiaobai/article/details/79376763
2019-08-03 10:08:42
171
转载 Hadoop 系列YARN:资源调度平台(YARN参数解读与调优)
.YARN:资源调度平台YARN参数解读与调优yarn-site.xml文件默认参数:http://hadoop.apache.org/docs/r2.7.3/hadoop-yarn/hadoop-yarn-common/yarn-default.xml参数 默认值 说明 yarn.resourcemanager.address ${yarn...
2019-05-28 13:48:38
681
转载 初始hadoop
https://www.cnblogs.com/mtime2004/p/9996413.htmlHadoop是什么?Hadoop是使用Java编写,允许分布在集群,使用简单的编程模型的计算机大型数据集处理的Apache的开源框架。 Hadoop框架应用工程提供跨计算机集群的分布式存储和计算的环境。 Hadoop是专为从单一服务器到上千台机器扩展,每个机器都可以提供本地计算和存储。Had...
2019-05-28 13:43:42
203
转载 利用yarn多队列实现hadoop资源隔离
https://blog.youkuaiyun.com/bbaiggey/article/details/53574468大数据处理离不开hadoop集群的部署和管理,对于本来硬件资源就不多的创业团队来说,做好资源的共享和隔离是很有必要的,毕竟不像BAT那么豪,那么怎么样能把有限的节点同时分享给多组用户使用而且互不影响呢,我们来研究一下yarn多队列做资源隔离请尊重原创,转载请注明来源网站www.sh...
2019-05-28 13:40:24
218
转载 hadoop中YARN的整体架构及作业生命周期
http://www.aboutyun.com/thread-6756-1-1.html本帖最后由 howtodown 于 2014-1-31 16:00 编辑 整体架构 MRAppMaster是MapReduce的ApplicationMaster实现,它使得MapReduce计算框架可以运行于YARN之上。在YARN中,MRAppMaster负责管理MapReduc...
2019-05-27 13:56:26
501
转载 YARN的工作机制
YARN是什么全称 Yet Another Resource Negotiator,是一套全新的任务调度与资源管理框架,是 Hadoop 2(当前我们使用的Hadoop版本)的关键组件之一。不同于 Hadoop 1,YARN 不仅支持 MapReduce,还支持各种计算引擎,是一个通用的资源管理器。YARN架构及工作机制下面介绍一下 YARN 的架构以及它是如何工作的。架构搬一张...
2019-05-27 13:53:18
1013
转载 Yarn 内存分配管理机制及相关参数配置
关于Yarn的详细介绍请参考【Hadoop Yarn详解】一、相关配置情况关于Yarn内存分配与管理,主要涉及到了ResourceManage、ApplicationMatser、NodeManager这几个概念,相关的优化也要紧紧围绕着这几方面来开展。这里还有一个Container的概念,现在可以先把它理解为运行map/reduce task的容器,后面有详细介绍。1.1 RM的内存资...
2019-05-27 13:40:26
239
转载 Hadoop学习之路(二十三)MapReduce中的shuffle详解
https://www.cnblogs.com/qingyunzong/p/8615024.html讨论QQ:1586558083目录概述 MapReduce的Shuffle过程介绍 Spill过程 Sort Spill Merge Copy Merge Sort 正文回到顶部概述1、MapReduce 中,mapper 阶段处理的数据...
2019-05-25 14:06:46
2731
1
转载 hbase教程系列之--Hbase常用Shell命令
文章链接:https://www.cnblogs.com/xing901022/p/6974178.htmlstatus 查看系统状态hbase(main):010:0> status1 active master, 0 backup masters, 4 servers, 0 dead, 6.5000 average loadversion 查看版本号hbase(ma...
2019-05-24 13:41:39
653
转载 图解分布式架构的演进
https://www.cnblogs.com/dump/p/8125539.html参考:https://www.cnblogs.com/my376908915/p/6813321.html一、什么是分布式架构 分布式系统(distributed system)是建立在网络之上的软件系统。 内聚性:是指每一个数据库分布节点高度自治,有本地的数据库管理系统。 透明性:是...
2019-05-07 15:49:11
155
转载 Hive面试问题1
A所有的hive任务都会有reducer的执行吗?答:不是,由于当前hive的优化,使得一般简单的任务不会去用reducer任务;只有稍微复杂的任务才会有reducer任务举例:使用select*fromperson;就不会有reducer使用frompersonpinsertintoperson2selec...
2019-04-29 14:39:24
329
转载 hbase教程系列之--再谈HBase八大应用场景
原文地址:https://www.cnblogs.com/hbase-community/p/8629222.html再谈HBase八大应用场景HBase概述HBase是一个分布式存储、数据库引擎,可以支持千万的QPS、PB级别的存储,这些都已经在生产环境验证,并且在广大的公司已经验证。特别是阿里、小米、京东、滴滴内部都有数千、上万台的HBase集群。选择一个技术的首要条件是对齐大公司...
2019-04-28 21:13:07
269
转载 查看修复HDFS中丢失的块 &HDFS block丢失过多进入安全模式(safe mode)的解决方法
原文地址:https://blog.youkuaiyun.com/mnasd/article/details/82143653检测缺失块1 hdfs fsck -list-corruptfileblocks1 hdfs fsck / | egrep -v '^\.+$' | grep -v eplica查看上面某一个文件的情况1 hdfs fsck /path/to/corrupt/...
2019-04-28 20:14:27
1146
转载 hadoop集群之YARN`s ResourceManager HA(三)
如果有看蒙圈的地方,请看下HDFS HA这篇文章官方给出的方案如下配置目标:node1 node2 node3:3台ZooKeepernode1 node2:为2台ResourceManager首先配置node1,配置etc/hadoop/yarn-site.xml:<property> <name>yarn.resourcemanager.h...
2019-04-28 19:48:15
275
转载 Hadoop集群之HDFS伪分布式安装 HA(二)
https://blog.youkuaiyun.com/q361239731/article/details/535596811、首先看看HA的对象是谁?主要解决的是NameNode的HA2、Datanode不需要HA吗?DataNode的HA是NameNode的checksize机制(主动复制)来解决的3、NameNode为什么需要HA?NameNode的2大功能:● 为客户端提供读写...
2019-04-28 19:47:12
199
转载 Hive的三种Join方式
Hive中就是把Map,Reduce的Join拿过来,通过SQL来表示。参考链接:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+JoinsCommon/Shuffle/Reduce JoinReduce Join在Hive中也叫Common Join或Shuffle Join如果两边数据量都很大,它会进行...
2019-04-28 14:51:55
298
转载 开启Hive的本地模式
原文地址:https://blog.youkuaiyun.com/zyq11223/article/details/78846886先讲一个hive使用的一个小技巧。对于使用惯了oracle数据库的人来说,hive中没有dual啊,想验证一些函数的执行结果很是麻烦。比如我们在oracle数据库里面可以写select (1+2) from dual可以返回3。为了保证使用习惯,我们类似的在hive中...
2019-04-28 14:50:07
545
转载 fsimage与editlog详解
1 概述HDFS中的NameNode被称为元数据节点DataNode称为数据节点。NameNode维护了文件与数据块的映射表以及数据块与数据节点的映射表,而真正的数据是存储在DataNode上。对于NameNode如何存储这些信息,它维护两个文件,一个是fsimage,一个是editlog。2 fsimage与editlog作用fsimage保存了最新的元数据检查点,在HDFS启...
2019-04-24 11:27:39
1064
原创 ambari-agent Controller.py:170 - Registering with localhost
最近在使用ambari安装大数据进群,在进行添加新主机时ambari-agent的日志中出现 Registering with localhost 导致在ambari-server的界面中出现Registering with server failed,后来经过在网上找了好多答案文能解决,特此将解决方法记录下。前提:新添加的主机已经和ambari-server已经做过了免密码登陆,并且通过ss...
2019-02-26 16:25:53
449
原创 [免费]Linux命令行与shell脚本编程大全.第3版
链接: https://pan.baidu.com/s/1-covfUP6LWWCMxAHQrDLlw 提取码: yicg 网上都是需要积分的,这里分享给大家免费可以下载的地方.
2019-01-18 10:30:56
4343
2
转载 hadoop集群balance工具详解
https://blog.youkuaiyun.com/azhao_dn/article/details/7741666 在线上的hadoop集群运维过程中,hadoop 的balance工具通常用于平衡hadoop集群中各datanode中的文件块分布,以避免出现部分datanode磁盘占用率高的问题(这问题也很有可能导致该节点CPU使用率较其他服务器高)。 1) hadoop balanc...
2019-01-04 15:12:04
229
转载 mybatis配置时出现org.apache.ibatis.binding.BindingException: Invalid bound statement (not found)
如果出现:org.apache.ibatis.binding.BindingException: Invalid bound statement (not found)一般的原因是Mapper interface和xml文件的定义对应不上,需要检查包名,namespace,函数名称等能否对应上,需要比较细致的对比,我经常就是写错了一两个字母搞的很长时间找不到错误按以下步骤一一执行:...
2019-01-04 15:09:54
151
原创 Ambari版本新特性
Ambari的最新版本是Ambari 2.7.3Ambari 2.7.0增加了以下功能:Ambari UI,Ambari Server和Ambari Agent已经过重大改造,可以更有效地处理大型集群管理 为了更有效地管理大型集群,已更新AMS架构,并且已改进了度量标准聚合。 更新了默认配置和配置建议,以确保AMS开箱即用。 添加了对轻松添加和管理新HDFS命名空间的支持。 添加了...
2019-01-03 16:23:34
1080
转载 Oracle 表空间和数据文件之间的关系
https://www.cnblogs.com/Kconnie/p/3968668.html首先,你需要明白的一点是:数据库的物理结构是由数据库的操作系统文件所决定,每一个Oracle数据库是由三种类型的文件组成:数据文件、日志文件和控制文件。数据库的文件为数据库信息提供真正的物理存储。 每一个Oracle数据库有一个或多个物理的数据文件(data file)。一个数据库的数据文件包含全部数...
2019-01-02 09:46:59
445
转载 Spark方面的大牛博客地址收集!
http://blog.51cto.com/36006798/1872498Spark方面的大牛博客地址收集! 1、石山园 http://www.cnblogs.com/shishanyuan/ 2、段智华的博客 http://blog.youkuaiyun.com/duan_zhihua 3、西红柿炒土豆 http://blog.cs...
2018-10-25 16:56:29
272
winutils-master-2.6.0~3.0.0.zip
2019-09-05
Hadoop权威指南.大数据的存储与分析.第4版.修订版&升级版
2019-01-18
Microsoft Build Tools 2015
2018-04-09
Java设计模式
2018-01-18
《Maven实战》(许晓斌著)完整高清版PDF
2018-01-13
Oracle9i官方文档CHM合集-SQL参考手册
2011-05-22
MySQL中文参考手册.chm
2011-05-22
商品销售管理系统(完整版)商品销售管理系统(完整版)
2011-03-26
定制Windows登录和安全对话框标题.mht
2011-03-26
51TestingN6[1]51TestingN6[1]51TestingN6[1]
2011-03-26
软件测试工作流程esting软件测试工作流程esting软件测试工作流程esting
2011-03-26
java常用类库java常用类库java常用类库
2011-03-26
谈谈SQL注入攻击(Chinasei)
2011-03-26
超市管理系统(毕业设计C#)
2011-03-04
配置好的eclipse Java可视化开发
2010-11-07
最小化到系统托盘java
2010-11-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人