
大数据专栏
文章平均质量分 82
大数据技术相关
风筝Lee
儿时,你是父母手中的风筝;上学了,你是老师手中的风筝;工作了,你是领导手中的风筝;成家了,你是妻子手中的风筝;老时,你是子女手中的风筝。人生就像风筝,总有一根线牵着你,或长、或短,或紧、或松;你在这头,爱你的人就在那头。
展开
-
zookeeper的ACL权限控制
ACL:Access Control List访问控制列表1. 简介0.概述ACL 权限控制,使用:scheme:id:perm来标识,主要涵盖 3 个方面: 权限模式(Scheme):授权的策略 授权对象(ID):授权的对象 权限(Permission):授予的权限其特性如下: ZooKeeper的权限控制是基于每个znode节点的,需要对每个节点设置权限 每个znode支持设置多种权限控制方案和多个权限 子节点不会继承父节点的权限,客户端无权访问某节点,但...转载 2021-11-10 14:02:36 · 763 阅读 · 0 评论 -
Hive 的事务支持
Hive 开始支持事务,是在 Hive 0.14 之后。HDFS 的文件,只能允许新建,删除,对文件中的内容进行更新,不允许单条修改。Hive 的文件存储是基于 HDFS 文件存在的,所以原则上不会直接对 HDFS 做文件内容的事务更新,只能是采取另外的手段来完成。即用 HDFS 文件作为原始数据,用 delta 文件作为操作日志的记录。当访问 Hive 数据时,根据 HDFS 文件和 delta 文件做合并,查询最新的数据。综上,Hive 支持事务的前提是,初始化数据和增量操作,分开存储。这种存储方转载 2021-09-10 14:17:28 · 1871 阅读 · 0 评论 -
Kylin、Druid、ClickHouse核心技术对比
文章作者:吴建超内容来源:jackywoo.cn出品平台:DataFunTalk导读:Kylin、Druid、ClickHouse是目前主流的OLAP引擎,本文尝试从数据模型和索引结构两个角度,分析这几个引擎的核心技术,并做简单对比。在阅读本文之前希望能对Kylin、Druid、ClickHouse有所理解。01Kylin数据模型Kylin的数据模型本质上是将二维表(Hive表)转换为Cube,然后将Cube存储到HBase表中,也就是两次转换。第一次转换,其实就是传统数据库的C转载 2020-12-04 22:52:30 · 261 阅读 · 0 评论 -
ClickHouse内核分析 MergeTree的存储结构和查询加速
注:以下分析基于开源 v19.15.2.2-stable 版本进行引言ClickHouse是最近比较火的一款开源列式存储分析型数据库,它最核心的特点就是极致存储压缩率和查询性能,本人最近正在学习ClickHouse这款产品中。从我个人的视角来看存储是决定一款数据库核心竞争力、适用场景的关键所在,所以接下来我会陆续推出一系列文章来分析ClickHouse中最重要的MergeTree存储内核。本文主旨在于介绍MergeTree的存储格式,并且彻底剖析MergeTree存储的极致检索性能。MergeT转载 2020-11-22 23:30:45 · 576 阅读 · 0 评论 -
RAFT与PAXOS区别
Raft协议比paxos的优点是 容易理解,容易实现。它强化了leader的地位,把整个协议可以清楚的分割成两个部分,并利用日志的连续性做了一些简化:(1)Leader在时。由Leader向Follower同步日志(2)Leader挂掉了,选一个新Leader,Leader选举算法。但是本质上来说,它容易的地方在于流程清晰,描述更清晰,关键之处都给出了伪代码级别的描述,可以直接用于实现,而paxos最初的描述是针对非常理论的一致性问题,真正能应用于工程实现的mulit-paxos,Lamport老爷转载 2020-07-22 19:30:59 · 3786 阅读 · 0 评论 -
Paxos算法原理和过程解析
我们了解了2PC和3PC之后,我们可以发现,无论是二阶段提交还是三阶段提交都无法彻底解决分布式的一致性问题以及无法解决太过保守及容错性不好。Google Chubby的作者Mike Burrows说过,世上只有一种一致性算法,那就是Paxos,所有其他一致性算法都是Paxos算法的不完整版。Paxos算法是公认的晦涩,很难可能能讲清楚,但是工程上也很难实现,所以有很多Paxos算法的工程实现,如Chubby, Raft,ZAB,微信的PhxPaxos等。这一篇会介绍这个公认为难于理解但是行之有效的Paxos转载 2020-07-22 18:14:48 · 1423 阅读 · 0 评论 -
大数据面试题总结
大数据面试题总结:一. hdfs相关1.1 hdfs读写流程(详细流程)1.2 hdfs pipeline recovery;1.3 hdfs journalnode工作原理;1.4 hdfs ha实现原理;1.5 hdfs 慢节点问题解决方案;1.6 hdfs rpc性能优化方案;1.7hadoop多租户实现方案,利用rbac权限管理;二. hbase相关2.1 hbase实现原理;2.2 hbase compaction和split机制;2.3...原创 2020-07-22 00:25:27 · 163 阅读 · 0 评论 -
Linux设置环境变量小结:设置永久变量&临时变量 全局变量&局部变量
1.总结背景 在linux系统下,如果你下载并安装了应用程序,很有可能在键入它的名称时出现“command not found”的提示内容。如果每次都到安装目标文件夹内,找到可执行文件来进行操作就太繁琐了。 这涉及到环境变量PATH的设置问题,而PATH的设置也是在linux下定制环境变量的一个组成部分。2.变量简介 Linux是一个多用户的操作系统。每个用户登录系统后...转载 2019-06-25 12:41:06 · 715 阅读 · 0 评论 -
scala--嵌套函数
顾名思义,scala嵌套函数是允许在函数内部定义函数。在Scala中是可以定义嵌套函数的。下面定义了函数factorial,用于计算给定数字的阶乘:def factorial(x: Int): Int = { def fact(x: Int, accumulator: Int): Int = { if (x <= 1) accumulator else ...原创 2019-06-14 21:18:26 · 420 阅读 · 0 评论 -
聊聊RPC的拥塞控制
前言这个话题的背景源自于Hadoop内部的底层RPC处理过程,但是笔者认为针对所有其它RPC处理场景中也会碰到类似的拥塞问题,所以可以拿出来简单讲讲。首先来解释一下这里的名词,这里的RPC拥塞指的是系统被大量的用户特定的请求堵住了,导致没办法有资源来处理其它用户的正常请求,这里我们假设请求是被扔到一个请求队列中的。这里我们姑且不讨论发起大量请求的用户操作行为是否合理,但是在这种情况下,确实使得其它RPC被堵住了。本文,我们就来讨论这个在分布式系统中经常会遇到的问题,以及对应的解决思路。拥塞控制的.转载 2020-07-07 18:06:42 · 759 阅读 · 0 评论 -
大数据平台安全加固
大数据平台安全加固1.备份元数据对元数据进行异地冷备以保证元数据安全。分别对Hive、Ambari、Ranger和Oozie进行元数据备份。Hive元数据、Ambari元数据、Ranger元数据和Oozie元数据都是指MySql中meta表,需对其进行异地冷备以保证元数据安全。对元数据库进行定期备份,以及滚动删除备份文件设置等。2.开启高可用功能(HA)开启服务的高可用功能,可以规避单节点故障。分别开启NameNode HA、ResourceManager HA、Hmaster.转载 2020-07-06 14:26:56 · 1944 阅读 · 0 评论 -
spark之RDD、DataFrame、Dataset
在spark中,RDD、DataFrame、Dataset是最常用的数据类型,本篇文章介绍下具体的共性与区别。共性:1、RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利2、三者都有惰性机制,在进行创建、转换,如map方法时,不会立即执行,只有在遇到Action如foreach时,三者才会开始遍历运算,极端情况下,如果代码里面有创建、转换,但是后面没有在Action中使用对应的结果,在执行时会被直接跳过,如val sparkc.转载 2020-07-03 17:18:26 · 1334 阅读 · 0 评论 -
LocalFileSystem
LocalFileSystemHadoop LocalFileSystem是客户端校验的类。在使用LocalFileSystem写文件时,会透明的创建一个.filename.crc的文件。校验文件大小的字节数由io.bytes.per.checksum属性设置,默认是512bytes,即每512字节就生成一个CRC-32校验和。.filename.crc文件会存 io.bytes.per.checksum的信息。在读取的时候,会根据此文件进行校验。在读取文件时需要验证校验和,并且如果检测到错...原创 2020-07-01 10:45:36 · 2575 阅读 · 0 评论 -
Spark Streaming的优化之路—从Receiver到Direct模式
1 业务背景随着大数据的快速发展,业务场景越来越复杂,离线式的批处理框架MapReduce已经不能满足业务,大量的场景需要实时的数据处理结果来进行分析、决策。Spark Streaming是一种分布式的大数据实时计算框架,他提供了动态的,高吞吐量的,可容错的流式数据处理,不仅可以实现用户行为分析,还能在金融、舆情分析、网络监控等方面发挥作用。个推开发者服务——消息推送“应景推送”正是应用了Spark Streaming技术,基于大数据分析人群属性,同时利用LBS地理围栏技术,实时触发精准消息推送,实.转载 2020-06-27 23:50:36 · 215 阅读 · 0 评论 -
kafka的isr机制
Data ReplicationKafka 的 Data Replication 需要解决如下问题:怎样 Propagate 消息在向 Producer 发送 ACK 前需要保证有多少个 Replica 已经收到该消息怎样处理某个 Replica 不工作的情况怎样处理 Failed Replica 恢复回来的情况Propagate 消息通过zookeeper先知道leader在哪一台机器上,然后produce将消息发送到leader上,Follower 在收到该消息并写入其 Log 后,转载 2020-06-27 19:29:28 · 1261 阅读 · 0 评论 -
HBase Region Assign流程详解
Hbase是kv存储,但是逻辑上我们可以把存储在hbase上的kv数据当成表,rowkey可以认为是表的主键。为了便于分布式操作,hbase会把表横向切分成一块一块的数据,而每块就是一个Region。为了提供在线服务,我们必须把Region加载到集群中的某台机器上,这个加载的过程正是region assign要做的。顺便说一句,hbase中把表切分region和HDFS中文件切分成block,Spark中RDD切分成partitions的思想都是一样的。region assgin的流程region.转载 2020-06-12 16:34:39 · 1482 阅读 · 0 评论 -
hbase hbck及region RIT处理
hbase hbck主要用来检查hbase集群region的状态以及对有问题的region进行修复。hbase hbck :检查hbase所有表的一致性,如果正常,就会Print OKhbase hbck -details:检查hbase所有表的一致性,并且输出详细报告。hbase hbck table1 table2:指定检查某些表,可以输入多个表,用空格隔开。HBCK - HBCK检查什么?(1)HBase Region一致性集群中所有region都被assign,而..转载 2020-06-12 16:08:49 · 666 阅读 · 0 评论 -
Kafka+Spark Streaming如何保证exactly once语义
在Kafka、Storm、Flink、Spark Streaming等分布式流处理系统中(没错,Kafka本质上是流处理系统,不是单纯的“消息队列”),存在三种消息传递语义(message delivery semantics),分别是:at least once:每条消息会被收到1次或多次。例如发送方S在超时时间内没有收到接收方R的通知(如ack),或者收到了R的报错,就会不断重发消息直至R传回ack。 at most once:每条消息会被收到0次或1次。也就是说S只负责向R发送消息,R也没有任何转载 2020-06-10 16:12:58 · 867 阅读 · 0 评论 -
【推荐系统】评估指标总结
准确率指标:该类型的指标大部分是推荐算法优化的目标,衡量着推荐算法的优劣。准确率。推荐给用户的商品中,属于测试集的比例,数学公式P(Lu)=Lu⋂BuLuP(Lu)=Lu⋂BuLu。整个测试集的准确率为PL=1n∑uϵUP(Lu)PL=1n∑uϵUP(Lu) 召回率。测试集中有多少在用户的推荐列表中。数学公式R(Lu)=Lu⋂BuBuR(Lu)=Lu⋂BuBu。整个测试集的召回率为RL=1n∑uϵUR(Lu)RL=1n∑uϵUR(Lu) F1值。准确率和召回率的加权,数学公式Fβ=(1+β...转载 2020-06-10 15:12:49 · 670 阅读 · 0 评论 -
metrics 指标分析
metrics简述Metrics可以为你的代码的运行提供无与伦比的洞察力。作为一款监控指标的度量类库,它提供了很多模块可以为第三方库或者应用提供辅助统计信息, 比如Jetty, Logback, Log4j, Apache HttpClient, Ehcache, JDBI, Jersey, 它还可以将度量数据发送给Ganglia、Graphite、grafana+Influxdb以提供图形化的监控。推荐使用grafana。Metrics提供了Gauge、Counter、Meter、Histogram转载 2020-06-10 14:00:49 · 1896 阅读 · 0 评论 -
Flink原理、实战与性能优化读书笔记
第一章 ApacheFlink介绍一、Flink优势1. 目前唯一同时支持高吞吐、低延迟、高性能的分布式流式数据处理框架2. 支持事件事件概念3. 支持有状态计算,保持了事件原本产生的时序性,避免网络传输带来的影响4. 支持高度灵活的窗口操作,Flink将窗口分为Time、Count、Session以及Data-driven等类型的窗口操作,可以灵活的处罚条件定制化来达到对复杂的流传输模式的支持。5. 基于轻量级分布式快照实现容错,大型计算任务的流程拆解成小的计算过程,task分布到转载 2020-06-08 19:30:21 · 1971 阅读 · 0 评论 -
Kafka常见面试题
1 什么是kafkaKafka是分布式发布-订阅消息系统,它最初是由LinkedIn公司开发的,之后成为Apache项目的一部分,Kafka是一个分布式,可划分的,冗余备份的持久性的日志服务,它主要用于处理流式数据。2 为什么要使用 kafka,为什么要使用消息队列缓冲和削峰:上游数据时有突发流量,下游可能扛不住,或者下游没有足够多的机器来保证冗余,kafka在中间可以起到一个缓冲的作用,把消息暂存在kafka中,下游服务就可以按照自己的节奏进行慢慢处理。解耦和扩展性:项目开始的时候,并不能转载 2020-06-08 09:46:55 · 150 阅读 · 0 评论 -
HBase为什么使用LSM树
一般的关系型数据库使用的都是B+树,而《HBase权威指南》中说到HBase使用的LSM树,所以本文就是想来了解一下使用LSM树的好处是啥。先来回顾下B+树:为什么不用二叉树、红黑树?因为二叉树结构中,每个节点至多会有两个子节点,当树的高度很高时,相应的磁盘访问次数就要增加,因为访问磁盘的速度是很慢的,从而导致查询效率低下。所以很自然的想法就是把树的高度降一降,所以B+树就出现了(平衡多路查找树,B+树是一种很适合外存的数据结构)。磁盘读取时的结构:磁盘由多个盘片组成,固定在一个...转载 2020-06-05 15:46:48 · 322 阅读 · 0 评论 -
HBase常用 Shell 命令
一、基本命令打开Hbase Shell:# hbase shell1.1 获取帮助# 获取帮助help# 获取命令的详细信息help 'status'1.2 查看服务器状态status1.3 查看版本信息version二、关于表的操作2.1 查看所有表list2.2 创建表命令格式: create ‘表名称’, ‘列族名称1’,‘列族名称2’,‘列名称N’# 创建一张名为Student的表,包含基本信息(baseInfo)、学校信息转载 2020-06-04 17:10:44 · 251 阅读 · 0 评论 -
HBase原理 –Region split细节梳理
Region自动切分是HBase能够拥有良好扩张性的最重要因素之一,也必然是所有分布式系统追求无限扩展性的一副良药。HBase系统中Region自动切分是如何实现的?这里面涉及很多知识点,比如Region切分的触发条件是什么?Region切分的切分点在哪里?如何切分才能最大的保证Region的可用性?如何做好切分过程中的异常处理?切分过程中要不要将数据移动?等等,这篇文章将会对这些细节进行基本的说明,一方面可以让大家对HBase中Region自动切分有更加深入的理解,另一方面如果想实现类似的功能也可以参考H转载 2020-06-04 13:48:04 · 2357 阅读 · 0 评论 -
hbase region in transition
Region-In-Trasition机制从字面意思来看,Region-In-Transition说的是Region变迁机制,实际上是指在一次特定操作行为中Region状态的变迁,那这里就涉及这么几个问题:Region存在多少种状态?HBase有哪些操作会触发Region状态变迁?一次正常操作过程中Region状态变迁的完整流程是怎么样的?如果Region状态在变迁的过程中出现异常又会怎么样?Region存在多少种状态?有哪些操作会触发状态变迁?HBase在RegionState类中定义了Reg转载 2020-06-03 18:36:37 · 1820 阅读 · 0 评论 -
HBase – 存储文件HFile结构解析
HFile是HBase存储数据的文件组织形式,参考BigTable的SSTable和Hadoop的TFile实现。从HBase开始到现在,HFile经历了三个版本,其中V2在0.92引入,V3在0.98引入。HFileV1版本的在实际使用过程中发现它占用内存多,HFile V2版本针对此进行了优化,HFile V3版本基本和V2版本相同,只是在cell层面添加了Tag数组的支持。鉴于此,本文主要针对V2版本进行分析,对V1和V3版本感兴趣的同学可以参考其他信息。HFile逻辑结构HFile V2的逻转载 2020-05-29 14:02:46 · 671 阅读 · 0 评论 -
Rowkey设计
本页目录Hotspotting 单调递增行键/时序数据 简化行和列 倒序时间戳 行键和列族 行键不可改 行键和region split的关系HBase的rowkey设计可以说是使用HBase最为重要的事情,直接影响到HBase的性能,常见的RowKey的设计问题及对应访问为:Hotspotting行由行键按字典顺序排序,这样的设计优化了扫描,允许存储相关的行或者那些将被一起读的邻近的行。然而,设计不好的行键是导致 hotspotting 的常见原因。当大量的客户端流量( traff转载 2020-05-28 12:45:22 · 289 阅读 · 0 评论 -
一文带你掌握推荐系统[转载]
前言本文的主要内容是推荐系统相关的东西,会涵盖推荐系统相关的大部分知识点,对于非技术人员应该是能基本了解推荐系统了。建议Mark之后慢慢看,毕竟文章有点长,而且第一遍也不一定能看懂…本文主要包括推荐系统的相关概念、推荐系统的架构和流程、常见的推荐算法、挖掘、召回、排序、评估和总结这几部分。概念部分会简述推荐系统相关的理论知识,架构和流程主要是介绍推荐系统的通用架构和常规的推荐流程。算法部分主要是一些常见的推荐算法介绍,挖掘》召回》排序主要是基于推荐流程的详细展开。评估部分指的是如何评转载 2020-05-26 18:17:54 · 903 阅读 · 0 评论 -
YARN的架构及原理
1. YARN产生背景 MapReduce本身存在着一些问题: 1)JobTracker单点故障问题;如果Hadoop集群的JobTracker挂掉,则整个分布式集群都不能使用了。 2)JobTracker承受的访问压力大,影响系统的扩展性。 3)不支持MapReduce之外的计算框架,比如Storm、Spark、Flink等。 与旧MapReduce相比,YARN采用了一种分层的集群框架,具有以下几种优势。 1)Hadoop2.0提出了HDFSFederation;它让...转载 2020-05-25 13:19:54 · 472 阅读 · 0 评论 -
360大数据中心总监:如何制定可奏效的数据安全体系[转载]
在万物互联的大数据时代,数据安全是个不容忽视的大问题。但企业往往缺乏未雨绸缪的意识,直到数据泄露等事件发生时才亡羊补牢,因此造成不可逆的损失和影响。此类事件在近年来频繁发生,而围观的我们是否应该反省自身,及时作出防御措施?因此,dbaplus社群特别邀请到360大数据中心技术总监徐皓老师,围绕「大数据平台安全设计和实践」这一话题展开深度专访。下面让我们一起倾听,专注互联网安全的360会如何洞察和应对数据安全呢?独家专访INTERVIEW徐 皓现任奇虎360大数据中心技术总监,数据中心..转载 2020-05-21 16:01:35 · 620 阅读 · 0 评论 -
java、大数据相关面试题总结
一.java并发1.concurrenthashmap实现原理;2.Semaphore实现原理;3.AQS实现原理;4.javanio实现原理;5.java线程InterruptedException的理解;6.java8stampedlock实现原理;二.数据结构1.二叉树遍历;层序、深度优先、广度优先、前中后序遍历;2.链表反转、判断是否有环;3.Btree 、B+tree;4.平衡二叉树、红黑树;三.算法...原创 2020-05-21 15:25:32 · 339 阅读 · 0 评论 -
Hbase查询速度快的原理分析
HBase能提供实时计算服务主要原因是由其架构和底层的数据结构决定的,即由LSM-Tree(Log-Structured Merge-Tree) + HTable(region分区) + Cache决定——客户端可以直接定位到要查数据所在的HRegion server服务器,然后直接在服务器的一个region上查找要匹配的数据,并且这些数据部分是经过cache缓存的。前面说过HBase会将数据保存到内存中,在内存中的数据是有序的,如果内存空间满了,会刷写到HFile中,而在HFile中保存的内容也是有序转载 2020-05-20 10:06:51 · 1416 阅读 · 0 评论 -
浅谈数据仓库建模方法
概述数据仓库这个概念是由 Bill Inmon 所提出的,其功能是将组织通过联机事务处理(OLTP)所积累的大量的资料和数据,通过数据仓库理论所特点有的信息存储架构,进行系统的分析整理,利用各种的分析方法,比如联机分析处理(OLAP),数据挖掘(Data Mining),进而支持如决策支持系统(DSS)、主管资讯系统(EIS)的创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商务智能(BI)。Bill Inmon 在 "Build the D转载 2020-05-19 11:08:43 · 1025 阅读 · 0 评论 -
HDFS文件比较(HDFS File Comparison)
两种方式:1.diff <(hadoop fs -cat /path/to/file) <(hadoop fs -cat /path/to/file2)2.利用hdfsapi:FileSystem fs = FileSystem.get(conf);chksum1 = fs.getFileChecksum(new Path(/home/test1/test1.txt));chksum2 = fs.getFileChecksum(new Path(/home/tes...原创 2020-05-12 11:24:00 · 1017 阅读 · 0 评论 -
kafka高吞吐量的原因
kafa 吞吐量高的原因顺序读写kafka的消息是不断追加到文件中的,这个特性使kafka可以充分利用磁盘的顺序读写性能顺序读写不需要硬盘磁头的寻道时间,只需很少的扇区旋转时间,所以速度远快于随机读写零拷贝在Linux kernel2.2 之后出现了一种叫做"零拷贝(zero-copy)"系统调用机制,就是跳过“用户缓冲区”的拷贝,建立一个磁盘空间和内存的直接映射,数据不再复制到“用户态缓冲区”分区kafka中的topic中的内容可以被分为多分partition存在.转载 2020-05-11 19:29:39 · 260 阅读 · 0 评论 -
Spark 推测执行(speculative)
一speculative简介在spark作业运行中,一个spark作业会构成一个DAG调度图,一个DAG又切分成多个stage,一个stage由多个Task组成,一个stage里面的不同task的执行时间可能不一样,有的task很快就执行完成了,而有的可能执行很长一段时间也没有完成。造成这种情况的原因可能是集群内机器的配置性能不同、网络波动、或者是由于数据倾斜引起的。而推测执行(speculative)就是当出现同一个stage里面有task长时间完成不了任务,spark就会在不同的executor..转载 2020-05-11 15:57:11 · 1198 阅读 · 0 评论 -
分布式架构之Consistency
一致性(Consistency)是指多副本(Replications)问题中的数据一致性。可以分为强一致性、顺序一致性与弱一致性。强一致性(Strict Consistency)系统中的某个数据被成功更新后,后续任何对该数据的读取操作都将得到更新后的值;也称为:原子一致性(Atomic Consistency)线性一致性(Linearizable Consistency)两个要求:任何一次读都能读到某个数据的最近一次写的数据。系统中的所有进程,看到的操作顺序,都和全局时钟下的顺序一致。转载 2020-05-11 12:57:11 · 320 阅读 · 0 评论 -
分布式一致性算法2PC和3PC
为了解决分布式一致性问题,产生了不少经典的分布式一致性算法,本文将介绍其中的2PC和3PC。2PC即Two-Phase Commit,译为二阶段提交协议。3PC即Three-Phase Commit,译为三阶段提交协议。分布式系统和分布式一致性问题 分布式系统,即运行在多台不同的网络计算机上的软硬件系统,并且仅通过消息传递来进行通信和协调。 分布式一致性问题,即相互独立的节点之间如何就一项决议达成一致的问题。2PC 2PC,二阶段提交协议,即将事务的提交过程分为两个阶段...转载 2020-05-11 12:46:00 · 215 阅读 · 0 评论 -
MySQL B+树索引和哈希索引的区别
在MySQL里常用的索引数据结构有B+树索引和哈希索引两种,我们来看下这两种索引数据结构的区别及其不同的应用建议。二者区别备注:先说下,在MySQL文档里,实际上是把B+树索引写成了BTREE,例如像下面这样的写法:CREATE TABLE t(aid int unsigned not null auto_increment,userid int unsigned not null default 0,username varchar(20) not null default ‘’,d转载 2020-05-10 23:26:42 · 129 阅读 · 0 评论