山海王子-优快云博客

原创 HBase不同版本中对WAL日志的处理

我们知道，HBase在处理写流程（put操作）时，RegionServer会先将数据Append到WAL日志中，在写入MemStore，这时就返回客户端通知成功了。但是，在不同的版本中（HBase 1.6和Hbase 2.x），处理WAL的具体逻辑有很大区别。因此，网络中不同的文章可能会让读者感到迷惑，我们不妨从源码中一探究竟。HBase 2.3.2的流程：1、对要操作的数据添加行锁（List(RowKey)），并添加读锁（这个锁是HRegion类里的可重入读写锁）2、对数据更新timestamp字段

2020-11-03 21:29:49 639

原创 Redis不同版本（单/多线程网络模型）下性能测试

Redis6版本中，使用了多线程处理网络IO，但是执行写命令仍然是单线程。本文就是对Redis5、Redis6两个版本中的不同网络模型，进行性能测试，尤其是对于大的Key和String类型的Value的测试。根据官方介绍，对于Key和String类型的Value，最大不超过512MB，这个限制显然是没有太大参考意义的。那么究竟有没有一个合理的指标和界限，能够区分出单线程和多线程的网络IO模型的性能呢？以下执行的都是set key value命令。可以看出，Redis6中，使用多线程处理网络IO，并没有实

2020-09-15 22:04:39 602

原创 Java线程池的最大容量是多少？5亿！

在ThreadPoolExecutor中有一个重要的属性ctl，类型为AtomicInteger，本质是作为一个bitmap来使用。其中包含两个域，高3位表示线程池的5中状态（Running、ShutDown、Stop、Tidying、Terminated），低29位表示线程池的数量。因此，理论上，线程池的最大容量位2^29-1=536870911（5亿多）。但是实际生产中我们通常需要指定一个合理的线程池容量，5亿没有什么现实意义。那么如何合理的设置我们的线程池容量呢？在《Java并发编程实践》中提

2020-09-04 19:23:29 2195

原创关于“粘包”的解答

TCP是面向字节流的协议，TCP保证字节流按顺序到达，并没有“包”的概念。但应用开发中，的确有“粘包”的问题出现，这是因为我们直接在TCP这种字节流协议上开发应用，这里的包是我们应用层的一个消息或一帧数据。对于短连接的TCP服务，不用考虑分包的问题。对于长连接的TCP服务，由于发送方和接收方分别都有发送缓冲区和接收缓冲区，有可能出现类似两个不完整的报文同时暂存在缓冲区中，应用层读取这样的字节流，就会出现“粘包”的错觉。解决“粘包”也很简单，就好比我们在编写基于http协议的程序时不用考虑粘包问题一样，

2020-09-01 13:36:07 371

原创一文彻底了解Hive

基本概念Hive是基于hadoop的一个数据仓库工具，是一种编程接口，处理结构化数据，将结构化的数据文件映射成表，并提供类SQL查询功能。本质：将HQL转化为MR程序。优缺点：优点：采用类SQL语法，易上手；避免写MR程序，减少学习成本；吞吐量大；支持用户自定义函数缺点：表达能力有限（受限于MR编程模型）；调优困难，粒度较粗Hive架构原理Hive安装及配置Hive的安装很简单，解压安装包即可。Hive需要修改的配置：hive-env.sh文件export HADOOP_HOME=

2020-08-10 00:39:20 681

原创 Spark SQL

Spark SQL简介在Hadoop体系中，有Hive可以帮助我们将SQL转换为MR程序，Hive的基本架构如下：Hive的工作流程为因此，我们说Hive在Hadoop体系中扮演的是“编程”的角色，它本身并没有存储数据。同样的，在我们使用Spark时，也很自然的会有这样的需求——通过编写SQL获取结果，避免重复的编写大量Spark程序代码。在初期是，Shark就是扮演这样的角色，因此也被称为“Hive on Spark”。甚至Shark的整体架构和Hive都是类似的，区别是Hive将SQL转换

2020-08-06 19:35:16 350

原创安装并配置HBase集群（5个节点）

安装并配置HBase集群规划HBase2.3.0安装将安装包拷贝到5台机器上并解压缩配置环境变量配置HBase时间同步修改`/usr/local/src/hbase-2.3.0/conf/hbase-env.sh`文件修改`hbase-site.xml`文件regionservers配置启动hbase验证，访问HBase的web界面之前的分享过使用Paralles Desktop，在虚拟机环境中搭建hadoop集群（2主3从5节点），今天就在这个基础上，再搭建HBase。由于之前安装的Hadoop是2.1

2020-07-30 13:17:12 2522

原创深入浅出了解HBase及RDD编程

深入浅出了解HBaseHBase简介架构HBase是什么样的数据库？关键是数据模型关键要素：什么是单元格时间戳的功能是什么？HBase为什么能存储海量数据创建一个HBase表配置Spark编写程序读取HBase数据编写程序向HBase写入数据HBase简介HBase是Google BigTable的开源实现，Google公司很多数据如搜索、相册、导航数据都保存在BigTable中，2003年Google发布了该技术后，社区实现了HBase。架构HBase在Hadoop中扮演者数据库的角色，但HB

2020-07-30 09:29:31 682

原创数据挖掘算法之支持向量机（SVM）（二）

数据挖掘算法之支持向量机（SVM）（二）软间隔分类器简介三级目录在第一篇中我们讲解了线性可分下的硬间隔分类器，但那只是SVM算法的起点。现实中许多问题并不是线性可分的，如果样本不能被完全分开，那么就是：间隔为负，原问题的可行域为空，对偶问题的目标函数无限，这将导致相应的最优化问题无解。今天我们就讲下针对近似线性可分情况下的软间隔优化。软间隔分类器简介在软间隔分类器中，允许存在少量的“噪音数据”，这些样本点被认为是训练错误。具体地说，就是引入松弛变量ξiξ_iξi来量化分类器的违规行为：其中参数

2020-07-23 16:49:40 336

原创数据挖掘算法之支持向量机（SVM）（一）

支持向量机SVM（一）----硬间隔分类器SVM简介线性可分支持向量机函数间隔和几何间隔间隔最大化凸二次规划SVM简介支持向量机（SVM）是在所有知名数据挖掘算法中最健壮、最准确的方法之一，主要包括支持向量的分类器（SVC）、支持向量回归（SVR）。SVM算法之所以有如此大的影响，是因为该方法有坚实的统计学理论基础。本文将分三篇，由浅入深分别介绍针对线性问题的硬间隔分类器、近似线性问题的软间隔分类器和针对非线性问题的核方法。线性可分支持向量机对于两类线性可分问题，SVC要找到一个最优的决策边界，通

2020-07-18 20:12:18 1258

原创数据挖掘算法之C4.5

算法描述C4.5算法是机器学习和数据挖掘领域中用于处理分类问题的算法。该算法是有监督学习类型的，即：给定一个数据集，每条记录都由一组特征来描述，每条记录仅属于一个标签，在给定的数据集上运行C4.5算法可以学习到一个从特征值到标签的映射，进而可以使用该映射去分类未知的（无标签）数据集。C4.5算法源于ID3（iterative dichotomizers 3，迭代分解器系列算法的第三代），是一种决策树诱导算法。所有的树诱导方法大都遵循一种递归模式。即，用根结点表示一个给定的数据集；然后，从根结点开始，在

2020-07-17 23:44:25 1094

shanhai3000的博客

原创 HBase不同版本中对WAL日志的处理

原创 Redis不同版本（单/多线程网络模型）下性能测试

原创 Java线程池的最大容量是多少？5亿！

原创关于“粘包”的解答

原创一文彻底了解Hive

原创 Spark SQL

原创安装并配置HBase集群（5个节点）

原创深入浅出了解HBase及RDD编程

原创数据挖掘算法之支持向量机（SVM）（二）

原创数据挖掘算法之支持向量机（SVM）（一）

原创数据挖掘算法之C4.5

原创一文彻底搞懂PCA

原创 mac 使用vagrant部署hadoop集群

原创蓄水池抽样算法（Reservoir Sampling）

原创在Hadoop集群中部署Spark

原创 Yaml语法

原创 Docker部署kafka

原创使用Paralles Desktop，在虚拟机环境中搭建hadoop集群（2主3从5节点）

空空如也

空空如也