Trie树

翻译自topcoder中的一篇文章:https://www.topcoder.com/community/data-science/data-science-tutorials/using-tries/

简介


有很多种算法和数据结构可以用来在文本中建立字符串的索引和对字符串进行查找,一些已经被包含在了标准库中,一些还没有。Trie这种数据结构是一个还没有被包含在标准库中的一个很好的例子。

假设word表示单个字符串,dictionary表示一大堆字符串的集合。如果我们拥有一个dictionary,我们需要知道一个word是否存在dictionary中,那么trie这种数据结构可以帮助到我们。但是你可能会问题自己,“既然set< string>hash table可以实现这个功能为什么要使用Trie?”。有两个主要的原因:

  1. Trie能够在O(L)的时间复杂度内实现插入和查询操作,L表示单个字符串的长度。这比set< string>快很多。
  2. set< string>hash table只能在dictionary中查询和word完全匹配的字符串,但是Trie允许我们查询有一个字符不同的字符串,这个字符串拥有一个相同的前缀,但是最后的字符不同。

Trie在解决topcoder中的问题时是很有效的,同时在处理软件工程中的很多问题时也是很有效的。例如,考虑一个web浏览器,你知道web浏览器是怎么自动统计你的文本信息或者显示文本中字符串出现的次数的吗?是的,使用Trie你可以非常迅速的完成这个工作。你知道单词检查器是如何检查你输入的单词是否在词典中?同样Trie可以做到。你可以自己制定一个词典使用trie来检验单词的正确性而不是使用英语中的单词。


Trie tree是什么?

你可能了解过Trie tree是多么的棒,但是你可以还不是很清楚Trie是什么以及为什么它拥有Trie这个名字。Trie是”retrieval”(检索)这个单词的中缀这是因为Trie可以在一个dictionary中查询一个单词而仅仅使用这个单词的一部分前缀。Trie这种数据结构的主要思想如下:

  1. Trie是一棵树,这棵树的每一个节点代表一个单词或者一个前缀。
  2. 根节点表示一个空的字符串”“,根节点的直接子节点表示长度为1的前缀,和根节点相距两条边的节点表示长度为2的前缀,和根节点相距三条边的节点表示长度为3的前缀……,换句话说,如果一个节点和根节点相距k条边的长度,那么它代表长度为k的前缀。
  3. 假设vw分别代表Trie中的两个节点,vw的直接的父节点,那么v必定拥有w的前缀。

下面这幅图显示了一棵Trie树是如何表示“tree”, “trie”, “algo”, “assoc”, “all”和“also”这几个单词的:
这里写图片描述


构造Trie树

Trie树可以通过多种方式实现,一些Trie树可能被用来在dictionary中查找一系列单词,这些单词和目标单词仅仅有一点不同;还有可能只查询和目标单词完全匹配的单词。下面的实现仅仅只包含了查询完全匹配的单词,计算拥有某个前缀的单词的数量。这些实现都是伪代码因为不同的程序员可以使用不同的代码来实现它。
我们只编写4个函数:

  1. addWord:这个函数添加单个worddictionary中。
  2. countPreffixes:这个函数计算dictionary中有一个前缀prefix的单词的数量。
  3. countWords: 这个函数计算dictionary中完全匹配word的单词的数量。
  4. 我们的trie将只支持英文字母。

我们需要定义一个数据结构,这个数据结果包含Trie中每个节点的信息。由于我们需要知道完全匹配给定字符串的单词的数量,所以每个节点需要包含一个记录当前节点表示字符的字符的数量。注:词典dictionary中的单词可能会有重复。

由于我们需要知道有某个前缀的单词的数量,所以我们需要另外一个属性用来记录有多少个单词拥有某个节点表示的字符串作为前缀。同时,每一个节点都有指向它可能的26个子节点的指针。了解了这些细节,我们的数据结果可以如下定义:

structure Trie
    integer words;
    integer prefixes;
    reference edges[26];

我们需要定义下面这些函数:

initialize(vertex)
addWord(vertex, word);
integer countPrefixes(vertex, prefix);
integer countWords(vertex, word);

首先定义初始化节点的函数

initialize(vertex)
    vertex.words=0
    vertex.prefixes=0
    for i=0 to 26
        edges[i]=NoEdge

addWord函数

addWord函数包含两个参数,一个表示单词将要插入那个顶点,另一个表示将要插入的单词。当一个字符串word将要添加到节点vertex中时,我们可以根据word的第一个字符找到vertex中相关联的分支,如果这个分支不存在,那么我们需要创建它,并将word除去掉左边的单个字符后的单词插入到这个分支中。

addWord(vertex, word)
    if isEmpty(word)
        vertex.words=vertex.words+1
    else
        vertex.prefixes=vertex.prefixes+1
        k=firstCharacter(word)
        if(notExists(edges[k]))
            edges[k]=createEdge()
            initialize(edges[k])
        cutLeftmostCharacter(word)
        addWord(edges[k], word)

countWords和countPrefixes

countWords和countPrefixes函数非常的相似。如果我们查找一个空的字符串我们只需要返回这个相关联的节点的words和prefixs属性即可。如果我们查找到一个非空的字符串,我们需要查看它的分支,如果这个分支不存在,返回0,如果这个分支存在,去除掉word最左边的字符后继续递归查找。

countWords(vertex, word)
    k=firstCharacter(word)
    if isEmpty(word)
        return vertex.words
    else if notExists(edges[k])
        return 0
    else
        cutLeftmostCharacter(word)
        return countWords(edges[k], word);

countPrefixes(vertex, prefix)
    k=firstCharacter(prefix)
    if isEmpty(word)
        return vertex.prefixes
    else if notExists(edges[k])
        return 0
    else
        cutLeftmostCharacter(prefix)
        return countWords(edges[k], prefix)

分析

在介绍中你可能了解到Trie树的插入和查询的时间复杂度都是线性的,但是我们还没有进行分析。在插入和查询的过程中注意到在Trie Tree中每降低一层需要耗费常数的时间,同时每降低一层字符串的长度也减少了1.所以我们可以总结出每个函数降低L(L表示插入或删除字符串的长度)层就会终止。所以插入和查询的时间复杂度都是O(L)。内存的使用依赖于dictionary中的单词有多少前缀。

这是在leetCode中实现Trie树的代码

内容概要:本文从关键概念、核心技巧、应用场景、代码案例分析及未来发展趋势五个维度探讨了Python编程语言的进阶之路。关键概念涵盖装饰器、生成器、上下文管理器、元类和异步编程,这些概念有助于开发者突破基础认知的核心壁垒。核心技巧方面,介绍了内存优化、性能加速、代码复用和异步处理的方法,例如使用生成器处理大数据流、numba库加速计算密集型任务等。应用场景展示了Python在大数据处理、Web开发、人工智能和自动化运维等多个领域的广泛运用,特别是在FastAPI框架中构建异步API服务的实战案例,详细分析了装饰器日志记录、异步数据库查询和性能优化技巧。最后展望了Python的未来发展趋势,包括异步编程的普及、类型提示的强化、AI框架的深度整合以及多语言协同。 适合人群:已经掌握Python基础语法,希望进一步提升编程技能的开发者,特别是有意向从事数据科学、Web开发或AI相关工作的技术人员。 使用场景及目标:①掌握Python进阶概念和技术,如装饰器、生成器、异步编程等,提升代码质量和效率;②学习如何在实际项目中应用这些技术,如通过FastAPI构建高效的异步API服务;③了解Python在未来编程领域的潜在发展方向,为职业规划提供参考。 阅读建议:本文不仅提供了理论知识,还包含了丰富的实战案例,建议读者在学习过程中结合实际项目进行练习,特别是尝试构建自己的异步API服务,并通过调试代码加深理解。同时关注Python社区的发展动态,及时掌握最新的技术和工具。
内容概要:本文档《Rust系统编程实战》详细介绍了Rust在系统编程领域的应用,强调了其内存安全、零成本抽象和高性能的特点。文档分为三个主要部分:核心实战方向、典型项目案例和技术关键点。在核心实战方向中,重点讲解了unsafe编程、FFI(外部函数接口)和底层API调用,涉及操作系统组件开发、网络编程、设备驱动开发、系统工具开发和嵌入式开发等多个领域,并列出了每个方向所需的技术栈和前置知识。典型项目案例部分以Linux字符设备驱动为例,详细描述了从环境搭建到核心代码实现的具体步骤,包括使用bindgen生成Linux内核API的Rust绑定,定义设备结构体,以及实现驱动核心函数。 适合人群:对系统编程有兴趣并有一定编程基础的开发者,尤其是那些希望深入了解操作系统底层机制、网络协议栈或嵌入式系统的工程师。 使用场景及目标:①掌握Rust在不同系统编程场景下的应用,如操作系统组件开发、网络编程、设备驱动开发等;②通过实际项目(如Linux字符设备驱动)的学习,理解Rust与操作系统内核的交互逻辑;③提高对unsafe编程、FFI和底层API调用的理解和运用能力。 阅读建议:由于文档内容较为深入且涉及多个复杂概念,建议读者在学习过程中结合实际操作进行练习,特别是在尝试实现Linux字符设备驱动时,务必按照文档提供的步骤逐步进行,并多加调试和测试。
内容概要:本文针对现有配电网灵活性评估方法对网络传输能力考虑不足的问题,提出了一种新的评估方法。该方法首先建立了配电网灵活性供需模型,分析了4种供需匹配情况,接着提出3类灵活性评估指标,构建了以运行成本最低为目标的优化调度模型。通过改进的IEEE33节点配电网仿真验证了方法的有效性。重点解决了高比例分布式电源接入带来的波动性问题,为配电网灵活性评估提供了新思路。文中还详细介绍了MATLAB代码实现,涵盖参数初始化、灵活性需求和供给计算、评估指标计算、优化调度模型及可视化结果等方面。此外,对灵活性供需匹配的4种情况进行深入分析,并扩展实现了完整的灵活性评估系统,增加了动态时间尺度、增强可视化和实用扩展等功能,提升了系统的可扩展性和实用性。; 适合人群:从事电力系统研究、配电网规划与运营的专业人士,特别是关注分布式电源接入和电网灵活性评估的研究人员和技术人员。; 使用场景及目标:①评估含高比例分布式电源的配电网灵活性,解决DG接入带来的波动性问题;②通过优化调度模型最小化运行成本,提高配电网的运行效率;③利用扩展实现的系统进行多时间尺度仿真和不同场景下的对比分析,支持实际工程应用。; 其他说明:此资源不仅提供了详细的理论分析和MATLAB代码实现,还通过模块化设计增强了代码的可扩展性和实用性。建议读者结合具体配电网参数调整设备容量约束,根据当地电价政策优化成本系数,并采用历史数据训练更精确的场景生成模型。同时,可以通过并行计算加速仿真过程,采用交叉验证和蒙特卡洛仿真验证结果的稳定性和鲁棒性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值