聊聊常用树结构

题记:

这几天换了个电脑,一直在摸索(Mac挺香,确实流畅),装软件什么的,耽误两天没更新了,慌的一匹🤪

在这里插入图片描述
话不多说,开始聊正题 “树🌲”

1. 二叉搜索树(Binary Search Tree)

1.1 什么是二叉搜索树

二叉搜索树也叫二叉查找树。它是一种比较特殊的二叉树。
在这里插入图片描述

1.2 树的高度、深度、层数

  • 深度
    节点的深度是根节点到这个节点所经历的边的个数,深度是从上往下数的
  • 高度
    节点的高度是该节点到叶子节点的最长路径(边数),高度是从下往上数的
  • 层数
    根节点为第一层,往下依次递增

上图:

  • 节点12的深度为0,高度为4,在第1层
  • 节点15的深度为2,高度为2,在第3层

1.3 二叉搜索树的特点

树中的每个节点,它的左子树中所有关键字值小于该节点关键字值,右子树中所有关键字值大于该节点关键字值

1.4 二叉搜索树的查询方式

  • 首先和根节点进行比较,如果等于根节点,则返回
  • 如果小于根节点,则在根节点的左子树进行查找
  • 如果大于根节点,则在根节点的右子树进行查找

1.5 二叉搜索树的缺点

因为二叉搜索树是一种二叉树,每个节点只能有两个子节点,但有较多节点时,整棵树的高度会比较大,树的高度越大,搜索的性能开销也就越大

2. 平衡二叉树(Balance Binary Tree)

2.1 简介

  • 平衡二叉树也称为AVL树
  • 它是一颗空数,或者它的任意节点左右两个子树的高度差绝对值不超过1
  • 平衡二叉树很好地解决了二叉查找树退化成链表的问题
    在这里插入图片描述
    上图:
  1. 两棵树都是二叉查找树
  2. 左边的不是平衡二叉树
    节点6的子节点:节点2的高度为:2,节点7的高度为:0,| 2 – 0 | = 2 > 1)
  3. 右边的是平衡二叉树
    节点6的子节点:节点3的高度为:1,节点7的高度为:0,| 1 – 0 | = 1 = 1 )

2.2 平衡二叉树的特点

AVL树是高度平衡的(严格平衡),频繁的插入和删除,会引起频繁的rebalance,导致效率下降,它比较使用与插入/删除较少,查找较多的场景

3. 红黑树

3.1 简介

红黑树是一种含有红黑节点并能自平衡的二叉搜索树,它满足以下性质:

  • 每个节点要么是黑色,要么是红色
  • 根节点是黑色
  • 每个叶子节点(NIL)是黑色
  • 每个红色结点的两个子结点一定都是黑色
  • 任意一结点到每个叶子结点的路径都包含数量相同的黑结点
    在这里插入图片描述

3.2 红黑树的特点

和AVL树不一样,红黑树是一种弱平衡的二叉树,它的插入/删除效率更高,所以对于插入、删除较多的情况下,就用红黑树,而且查找效率也不低。例如:Java中的TreeMap就是基于红黑树实现的。

4. B树

4.1 什么是B树

  • B树是一种平衡多路搜索树
  • 与二叉搜索树不同的是,B树的节点可以有多个子节点,不限于最多两个节点
  • 它的子节点可以是几个或者是几千个
    在这里插入图片描述

4.2 B树的特点

  • 所有节点关键字是按递增次序排列,并遵循左小右大原则
  • B-树有个最大的特点是有多个查找路径,而不像二叉搜索树,只有两路查找路径。
  • 所有的叶子节点在同一层
  • 逐层查找,找到节点后返回

4.3 B-树的查找方式

  • 从根节点的关键字开始比较,例如:上图为13,判断大于还是小于
  • 继续往下查找,因为节点可能会有多个节点,所以需要判断属于哪个区间
  • 不断往下查找,直到找到为止或者没有找到返回Null

5. B+树结构

5.1 B+树简介

B+树是B树的升级版。B+树常用在文件系统和数据库中,B+树通过对每个节点存储数据的个数进行扩展,可以让连续的数据进行快速访问,有效减少查询时间,减少IO操作。它能够保持数据稳定有序,其插入与修改拥有较稳定的对数时间复杂度
例如:Linux的Ext3文件系统、Oracle、MySQL、SQLServer都会使用到B+树。
在这里插入图片描述

  • B+ 树是一种树数据结构,是一个n叉树
  • 每个节点通常有多个孩子
  • 一颗B+树包含根节点、内部节点和叶子节点
  • 只有叶子节点包含数据(所有数据都是在叶子节点中出现)

5.2 B+树的特点

  • 所有关键字都出现在叶子结点的链表中(稠密索引),且链表中的关键字恰好是有序的
    如果执行的是:select * from user order by id,要全表扫描数据,那么B树就比较费劲了,但B+树就容易了,只要遍历最后的链表就可以了。
  • 只会在叶子节点上搜索到数据
  • 非叶子结点相当于是叶子结点的索引(稀疏索引),叶子结点相当于是存储
  • 数据库的B+树高度大概在 2-4 层,也就是说查询到某个数据最多需要2到4次IO,相当于0.02到0.04s

5.3 稠密索引和稀疏索引

  • 稠密索引文件中的每个搜索码值都对应一个索引值
  • 稀疏索引文件只为索引码的某些值建立索引项

稠密索引:
在这里插入图片描述
稀疏索引:
在这里插入图片描述

6. LSM树数据结构

6.1 简介

传统关系型数据库,一般都选择使用B+树作为索引结构,而在大数据场景下,HBase、Kudu这些存储引擎选择的是LSM树。LSM树,即日志结构合并树(Log-Structured Merge-Tree)。

  • LSM树主要目标是快速建立索引
  • B+树是建立索引的通用技术,但如果并发写入压力较大时,B+树需要大量的磁盘随机IO,而严重影响索引创建的速度,在一些写入操作非常频繁的应用场景中,就不太适合了
  • LSM树通过磁盘的顺序写,来实现最好的写性能

6.2 LSM树设计思想

在这里插入图片描述

  • LSM 的主要思想是划分不同等级的结构,换句话来理解,就是LSM中不止一个数据结构,而是存在多种结构
  • 一个结构在内存、其他结构在磁盘(HBase存储结构中,有内存——MemStore、也有磁盘——StoreFile)
  • 内存的结构可以是B树、红黑树、跳表等结构(HBase中是跳表),磁盘中的树就是一颗B+树
  • C0层保存了最近写入的数据,数据都是有序的,而且可以随机更新、随机查询
  • C1到CK层的数据都是存在磁盘中,每一层中key都是有序存储的

6.3 LSM的数据写入操作

  • 首先将数据写入到WAL(Write Ahead log),写日志是顺序写,效率相对较高(PUT、DELETE都是顺序写)
  • 数据项写入到内存中的C0结构中
  • 只有内存中的C0结构超过一定阈值的时候,将内存中的C0、和C1进行合并。这个过程就是Compaction(合并)
  • 合并后的新的C1顺序写磁盘,替换之前的C1
  • 但C1层达到一定的大小,会继续和下层合并,合并后旧的文件都可以删除,只保留最新的
  • 整个写入的过程只用到了内存结构,Compaction由后台异步完成,不阻塞写入

6.4 LSM的数据查询操作

  • 先在内存中查C0层
  • 如果C0层中不存在数据,则查询C1层
  • 不断逐层查询,最早的数据在CK层
  • C0层因为是在内存中的结构中查询,所以效率较高。因为数据都是分布在不同的层结构中,所以一次查询,可能需要多次跨层次结构查询,所以读取的速度会慢一些。
  • 根据以上,LSM树结构的程序适合于写密集、少量查询的场景
<think>首先,用户的问题是:“我想了解机器学习中的超参数概念 请问机器学习中的超参数是什么”。这需要我解释机器学习中的超参数概念。 根据系统级指令: - 所有行内数学表达式使用$...$格式。 - 独立公式使用$$...$$格式并单独成段。 - LaTeX语法正确。 - 使用中文回答。 - 生成相关问题。 - 在回答中引用的段落末尾自然地添加引用标识,例如[^1]。 用户可见层: - 回答结构清晰,帮助用户逐步解决问题。 - 保证回答真实可靠。 参考提供的引用: - 引用[1]:定义了超参数是人为设置的参数,在训练前确定,如卷积核大小;模参数是通过训练得到的。 - 引用[2]:强调超参数优化的重要性。 - 引用[3]:分类超参数,如模结构、优化算法等。 - 引用[4]:介绍超参数优化方法,如随机搜索。 我需要基于这些引用构建回答,但不要直接复制;要自然地整合。 回答结构: 1. **引入概念**:解释什么是超参数。 2. **与模参数的区别**:对比超参数和模参数。 3. **分类**:简要介绍超参数的类。 4. **重要性**:为什么需要优化超参数。 5. **优化方法简介**:简要提及优化方法。 6. **生成相关问题**:在最后添加相关问题。 确保使用LaTeX: - 行内数学表达式:如$n$、$\alpha$等。 - 独立公式:如果有必要,但这里可能不需要复杂的公式。 生成相关问题: - 基于主题,如优化方法、应用等。 最终回答格式: - 以中文回答。 - 结构清晰:分步骤或段落。 - 末尾添加相关问题。 - 引用时添加标识:[^1], [^2], 等。 相关问题示例: 1. 超参数优化的常见方法有哪些? 2. 如何选择超参数的值? 3. 超参数优化在深度学习中的应用? 整合引用: - 在解释概念时,引用[^1]。 - 在讨论优化时,引用[^2]、[^4]。 - 在分类时,引用[^3]。 完整回答大纲: 1. 定义超参数:超参数是在机器学习模训练前由人为设定的参数,例如学习率$\alpha$、网络层数等[^1]。 2. 与模参数的区别:模参数如权重$w$和偏置$b$是通过训练数据学习得到的[^1]。 3. 超参数分类:包括模结构相关(如网络深度)、优化算法相关(如学习率)、正则化相关(如Dropout率)等[^3]。 4. 优化重要性:超参数的选择直接影响模性能,需要优化以提高准确性和泛化能力[^2]。 5. 优化方法简介:如网格搜索、随机搜索、贝叶斯优化等[^4]。 6. 相关问题:列出2-3个相关问题。</think>### 机器学习中的超参数概念 超参数是机器学习中的一个核心概念,理解它有助于优化模性能。下面我将逐步解释超参数的定义、与模参数的区别、常见分类、优化重要性及方法,确保回答基于可靠参考。 #### 1. **什么是超参数?** - 超参数是在机器学习模训练**开始前**,由人为设定的参数。它们不通过训练数据学习,而是由开发者根据经验或实验预先定义。例如: - 在神经网络中,学习率$\alpha$、网络层数$L$或卷积核大小$k \times k$都是超参数。 - 在决策中,的最大深度$d$或分裂所需的最小样本数也是超参数[^1]。 - 超参数的作用是控制模的整体结构和训练过程,直接影响模的收敛速度和最终性能。 #### 2. **超参数 vs. 模参数** - **超参数**:人为设置,在训练前固定。例如,在梯度下降算法中,学习率$\alpha$决定了权重更新的步长[^1]。 - **模参数**:通过训练数据自动学习得到。例如,神经网络中的权重矩阵$W$和偏置向量$b$,这些会在训练过程中迭代优化[^1]。 - **关键区别**:超参数是“指导者”,模参数是“学习者”。优化超参数能提升模的学习效率,而模参数是优化的结果。 #### 3. **超参数的常见分类** 根据功能,超参数可分为几大类(参考引用[^3]): - **模结构相关**:如神经网络的层数$N$、激活函数类(如ReLU或Sigmoid)、批归一化设置。 - **优化算法相关**:如学习率$\alpha$、动量系数$\beta$、权重衰减系数$\lambda$(用于正则化)。 - **正则化相关**:如Dropout概率$p$、L1/L2正则化强度。 - **训练过程相关**:如批量大小$B$、训练轮数(epochs)。 - **模特定相关**:如随机森林中的数量$n_{\text{estimators}}$、K-means中的聚类数$k$[^3]。 #### 4. **为什么需要优化超参数?** - 超参数的选择对模性能有显著影响。例如: - 学习率$\alpha$过大可能导致训练不稳定,过小则收敛缓慢。 - 正则化超参数(如$\lambda$)控制过拟合风险;设置不当会降低泛化能力[^2]。 - 优化超参数能提升模的准确性、效率和泛化性。研究表明,合理优化可将模性能提升10%-30%[^2][^4]。 #### 5. **超参数优化方法简介** 优化超参数是机器学习的关键步骤,常用方法包括: - **网格搜索(Grid Search)**:遍历所有可能组合,但计算成本高。 - **随机搜索(Random Search)**:在参数空间随机采样,效率更高(尤其在参数维度大时)。例如,使用`RandomizedSearchCV`在Scikit-learn中实现[^4]: ```python # 示例:随机森林的超参数随机搜索 from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import RandomizedSearchCV from scipy.stats import randint # 定义超参数范围 param_dist = { 'n_estimators': randint(10, 200), # 的数量 'max_depth': randint(5, 50), # 最大深度 'min_samples_split': randint(2, 11) # 最小分裂样本数 } random_search = RandomizedSearchCV( estimator=RandomForestClassifier(), param_distributions=param_dist, n_iter=50, # 随机采样50组 cv=5, # 5折交叉验证 scoring='accuracy' ) random_search.fit(X, y) # 假设X, y为数据 print("最佳参数:", random_search.best_params_) ``` - **贝叶斯优化(Bayesian Optimization)**:基于概率模高效搜索,适合高成本实验[^4]。 - 优化目标是最小化验证集损失,例如交叉熵损失$L = -\sum y_i \log(\hat{y}_i)$[^2]。 #### 总结 超参数是机器学习模的“控制旋钮”,需通过实验(如交叉验证)优化。合理设置超参数能显著提升模效果,是实际项目中的必备技能[^1][^2][^4]。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

erainm

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值