- 博客(66)
- 收藏
- 关注
原创 正则表达式的高级方法
正则表达式(regex)不仅仅是简单的模式匹配工具,它还提供了一系列高级功能,使得处理复杂文本任务变得更加灵活和强大。命名捕获组允许你为每个捕获的子表达式赋予一个名称,这在处理复杂的匹配时特别有用,因为它可以提高代码的可读性和维护性。可以在正则表达式的某些部分内部启用或禁用标志,而不需要在整个表达式中都应用该标志。有时候你可能只想分组某些部分的表达式而不希望它们被单独捕获,这时可以使用非捕获组。允许根据是否匹配了某个特定的组来决定接下来的匹配规则。表示忽略大小写的匹配,只影响其后的部分。
2024-12-10 23:55:32
565
原创 基于决策树方法的心脏病患者患病因子的可视化分析
对于提取的原始数据,需要检查数据集中的重复数据,分析其噪声数据与异常值,当检测出异常值时,通过直接删除的方式来删除离散值较大的数据。替换缺失值是利用同一数据类型中数据完整的信息的相似性来填补缺失值,其核心思想是发倔相同数据类型的一致特性,拟合缺失值是利用其他一致特性构建模型来填补,虚拟变量则是利用衍生的新变量替换缺失值。这种方式优点是简答明了,但是缺点是牺牲了大量的数据,通过减少原始数据换取数据的完整性,这样可能会造成丢失数据源中隐藏的重要信息的结果。数据来自kaggle社区心脏病患者数据集。
2024-12-10 00:07:18
1496
5
原创 正则表达式实战例子
使用正则表达式来解析这些日志条目,提取出IP地址、时间戳和请求路径等信息。掩盖或删除这些敏感信息。这里我们用正则表达式来识别并替换信用卡号。定义一个合理的电子邮件格式,并检查给定的字符串是否符合这个模式。使用正则表达式来查找HTML文档中所有的。
2024-12-09 23:32:49
468
原创 Python中的正则表达式
正则表达式(Regular Expression,简称regex或regexp)是一种用于匹配字符串中字符模式的工具。它提供了一种灵活且强大的方式来描述和操作文本数据,广泛应用于搜索、替换、验证等场景。在Python中,正则表达式通过。
2024-12-09 23:30:59
538
原创 Beautiful Soup介绍
Beautiful Soup是什么Beautiful Soup是一个用于解析HTML和XML文档的Python库,它提供了简单的方法来遍历、搜索和修改解析树。Beautiful Soup特别擅长处理不完美的或格式不良的标记语言文档,自动将输入转换为Unicode,输出转换为UTF-8,这使得它非常适合用来清理网页内容并从中提取数据。
2024-12-08 23:07:09
719
原创 Scrapy的简单实现
更重要的是,Scrapy拥有活跃的社区支持和丰富的文档资源,这有助于新用户快速上手,并为高级用户提供持续改进的动力。Scrapy不是基于理论模型推导出来的,而是通过对大量现实世界中的爬虫应用案例进行分析总结,抽象出了诸如中间件、管道、选择器等一系列实用的概念和技术实现。它为编写网络爬虫来抓取网站内容提供了高效、灵活的方式,并将这些信息以常见的格式保存,如JSON、CSV或XML。它是用Python编写的,旨在提供一个简单但功能强大的工具集,帮助开发者快速构建高效的网络爬虫。的爬虫,并将结果输出到一个叫做。
2024-12-08 23:01:25
874
原创 Xpath的前世今生
许多编程语言和框架都内置了对XPath的支持,例如Python的lxml库、Java的JAXP API等。随着互联网的发展,结构化数据交换的需求增加,特别是对于Web服务而言,XML成为了一种广泛使用的数据格式。XPath解决了如何在这些复杂的树状结构数据中精确地定位元素的问题,使得开发者能够更加方便地读取和操作XML文档中的特定部分。它是基于对现有XML文档结构的理解构建起来的,提供了多种方式来定位和选取节点,包括绝对路径(从根节点开始)、相对路径(从当前节点开始),以及通过谓语和轴进行高级查询。
2024-12-08 22:54:57
626
原创 华为HCIP AI EI Developer总结和备考建议
最近空余时间考了一个华为的HCIP认证,属于AI方向的四个其中一个,这个主要侧重于机器学习和深度学习的基础知识,比较偏理论。
2024-12-07 00:13:26
1430
1
原创 华为HCIP AI EI Developer 选择题重点总结填空题和判断题重点总结
CANN算子库(CANN)两阶段(2-stage)beamsearch算法。昇腾310和昇腾910。CRF(条件随机场)
2024-12-07 00:12:36
1249
原创 华为HCIP AI EI Developer 选择题重点总结
达芬奇架构(Al Core)计算单元提供了三种基础计算资源,矩阵计算单元(CubeUnit)、向量计算单元Vector Unit)、标量计算单元(Scalar Unit),不包含张量计算单元。前向后向算法计算P(O/A),即输出序列、隐含序列Baum-Welch算法求出最优解:根据最佳序列组合的音素和单词:得出最佳序列根据语言模型形成词和句子。芯片从业务上来讲,主要是用于训练和推理,昇腾310为推理芯片,最大功耗8W;隐马尔科夫链(HMM)的三大问题,学习(训练),评价,解码。
2024-12-06 23:41:17
658
原创 Leanote搭建个人云笔记(超级详细全代码版本)
这里修改bindlp: 172.0.0.1 改为 bindlp:0.0.0.0(注意冒号与ip之间需要一个空格)1.1 宝塔面板官网地址:https://www.bt.cn/new/index.html。安装成功后需要记住内外网的用户名和密码,我们以后会通过这个来访问和管理服务器。但是请注意要分别在宝塔和腾讯云服务器中开放9000端口。但是请注意要分别在宝塔和腾讯云服务器中开放9000端口。如果我们忘记密码了,我们可以通过以下命令来找回密码。我们还需要对宝塔开放端口来支持我们的访问。
2024-12-06 23:25:34
1147
2
原创 数据中台与数据飞轮:如何结合两者优势推动企业数据驱动转型?
在数据飞轮模型中,数据不仅被收集和存储,而且被不断地用于驱动业务流程的优化、创新和增长。更重要的是数据飞轮则是在此基础上,指出数据消费的重要,并提供配套的便捷、易用的数据消费工具,帮助企业形成数据应用和业务价值提升的良性循环。这个枢纽站就像是数据的集中管理和整合中心,将不同来源的数据集中起来,进行清洗、归类和整合,以便可以高效地供各个业务部门使用。而数据飞轮则可以想象为一个共享单车系统,单车(数据)不断被使用并产生信息,这些信息随即被处理和分析,以优化单车的分布和调度。为什么现在都在说数据飞轮?
2024-09-14 22:11:26
483
原创 问题Numpy100前50道练习题
对于一个形如(6,7,8)的数组,第100个元素索引的(x,y,z)是什么 (★☆☆)给定两个数组X和Y,构建柯西矩阵C(Cij =1/(xi - yj)) (★★☆)创建一个[x, y]数组覆盖[0, 1]x[0, 1]区域 (★★☆)给定一个一维数组,将(3, 8)之间的元素原地变为负数 (★☆☆)如何原地计算((A+B)*(-A/2)) (不复制) (★★☆)创建一个5x5的矩阵,其对角线下方为1,2,3,4 (★☆☆)创建一个大小为10的向量,其值为(0, 1) (★★☆)
2024-07-01 23:35:44
558
原创 深度优先搜索简介
深度优先搜索算法(Depth First Search):英文缩写为 DFS。是一种用于搜索树或图的算法。所谓深度优先,就是说每次都尝试向更深的节点走。深度优先搜索采用了回溯思想,该算法沿着树的深度遍历树的节点,会尽可能深的搜索树的分支。当节点v的所在边都己被探寻过,搜索将回溯到发现节点v的那条边的起始节点。这一过程一直进行到已发现从源节点可达的所有节点为止。如果还存在未被发现的节点,则选择其中一个作为源节点并重复以上过程,整个进程反复进行直到所有节点都被访问为止。
2024-06-29 23:57:03
2155
原创 图的定义——数据结构
图(Graph):由顶点的非空有限集合VVV(由n0n > 0n0个顶点组成)与边的集合EEE(顶点之间的关系)构成的结构。其形式化定义为GVEG = (V, E)GVE。顶点(Vertex):图中的数据元素通常称为顶点,在下面的示意图中我们使用圆圈来表示顶点。边(Edge):图中两个数据元素之间的关联关系通常称为边,在下面的示意图中我们使用连接两个顶点之间的线段来表示边。e⟨uv⟩e⟨uv⟩,表示从uuu到vvv的一条边,其中uuu称为起始点,vv。
2024-06-29 23:54:38
949
原创 队列简介-Python
队列(Queue):一种线性表数据结构,是一种只允许在表的一端进行插入操作,而在表的另一端进行删除操作的线性表。我们把队列中允许插入的一端称为「队尾(rear)」;把允许删除的另一端称为「队头(front)」。当表中没有任何数据元素时,称之为「空队」。「插入操作」和「删除操作」。队列的插入操作又称为「入队」。队列的删除操作又称为「出队」。简单来说,队列是一种「先进先出(First In First Out)」的线性表,简称为「FIFO 结构」。第一个方面是「线性表」。
2024-06-28 00:30:13
974
原创 Python数据分析第二课:conda的基础命令
我们这里所说的conda是指我们安装Anaconda中的一个核心部件,另外还有一个Miniconda是比Anaconda更加轻量级的发行版。conda是一个开源的包管理系统,可以帮助我们进行管理多个不同版本的软件包,还可以帮助我们建立虚拟环境,以便对不同的项目进行隔离。当我们启动Anaconda时,会出现以下页面,这个是Anaconda的主页面,我们后续也要在这里启动一些核心部件。由于Anaconda是一个开源软件,我们可以借助其他人的环境进行我们的操作,我们可以,按照以下步骤去直接。
2024-06-27 23:20:03
893
1
原创 Python数据分析第一课:Anaconda的安装使用
Anaconda对于Python初学者十分友好,Anaconda可以帮助我们解决或多问题,比如许多常见的功能包,我们不需要一个个安装以及Anaconda附带的十分好用的编译器Jupyter notebook。Anaconda是一个便捷的获取包,并且对包和环境进行管理的虚拟环境工具,Anaconda包括了conda、Python在内的超过180多个包和依赖项。是Anaconda prompt的图形界面,提供图形化显示和鼠标操作,可以管理、安装更新第三方包等,后续我们将借助这个进行一些包的操作。
2024-06-26 23:04:11
1890
原创 Shell的简单介绍(1)
shell是与计算机智能交互的方式之一,专注于命令行和文本。终端是显示shell的窗口,如Windows中的PoweShell,Linux中的Bash。shell的简单实践date#显示时间echo hello#打印 输出结果是 helloshell执行命令的依赖是进行搜索路径,当输入一个命令时,它会检索所有的路径,直到找到与这个命令同名的程序,然后运行它。依靠which + 命令名可以找到执行这个命令的程序在哪里。路径是一种描述计算机上文件位置的方式。
2024-06-01 12:30:27
506
原创 GIT的使用
(3)分布式版本控制系统,每一个电脑上都有全部的代码,会造成一些安全隐患,在本地可以看到全部的记录,可以在本地离线提交。3.GIT和SVN的主要区别:SVN是中央服务器,而GIT每一个都是自己的完整版本库。(2)集中版本控制,所有的版本数据都保存在服务器上面,协同者同步开发。GIT GUI :图像化界面的GIT,不建议初学者使用,尽量先熟悉常用命令。GIT Bash :Unix与Linux风格的命令行,使用最多,推荐最多。(1)本地版本控制,适合个人用的,RCS。我们在日常工作中的是手动控制版本。
2024-05-31 23:56:04
604
原创 使用Xshell连接阿里云服务器(超详细截图版)
1.准备阿里云服务器,找到自己的公网IP。6.远程连接,出现下面表示连接成功。4.Xshell新建会话。
2024-05-31 23:45:21
1090
原创 Win11系统的画图工具和基本Dos命令
Win11系统的画图工具和基本Dos命令今天在练习Dos命令,发现我的Win11电脑上没有画图软件,所以在网上找了一下教程。
2024-05-30 18:04:48
640
原创 01.Priority-Queue
优先队列(Priority Queue):一种特殊的队列。在优先队列中,元素被赋予优先级,当访问队列元素时,具有最高优先级的元素最先删除。优先队列与普通队列最大的不同点在于出队顺序。普通队列的出队顺序跟入队顺序相关,符合「先进先出(First in, First out)」的规则。优先队列的出队顺序跟入队顺序无关,优先队列是按照元素的优先级来决定出队顺序的。优先级高的元素优先出队,优先级低的元素后出队。优先队列符合「最高级先出(First in, Largest out)」的规则。
2024-03-20 23:51:00
960
1
原创 01.Queue-Basic
队列(Queue):一种线性表数据结构,是一种只允许在表的一端进行插入操作,而在表的另一端进行删除操作的线性表。我们把队列中允许插入的一端称为「队尾(rear)」;把允许删除的另一端称为「队头(front)」。当表中没有任何数据元素时,称之为「空队」。「插入操作」和「删除操作」。队列的插入操作又称为「入队」。队列的删除操作又称为「出队」。简单来说,队列是一种「先进先出(First In First Out)」的线性表,简称为「FIFO 结构」。第一个方面是「线性表」。
2024-03-20 23:49:42
791
1
原创 01.Linked-List-Sort
在数组排序中,常见的排序算法有:冒泡排序、选择排序、插入排序、希尔排序、归并排序、快速排序、堆排序、计数排序、桶排序、基数排序等。而对于链表排序而言,因为链表不支持随机访问,访问链表后面的节点只能依靠next指针从头部顺序遍历,所以相对于数组排序问题来说,链表排序问题会更加复杂一点。冒泡排序选择排序插入排序归并排序快速排序计数排序桶排序基数排序。希尔排序。堆排序。希尔排序为什么不适合链表排序?希尔排序:希尔排序中经常涉及到对序列中第i + gap的元素进行操作,其中gap。
2024-03-18 23:49:03
965
原创 01.Linked-List-Basic
链表(Linked List):一种线性表数据结构。它使用一组任意的存储单元(可以是连续的,也可以是不连续的),来存储一组具有相同类型的数据。简单来说,「链表」是实现线性表链式存储结构的基础。以单链表为例,链表的存储方式如下图所示。如上图所示,链表通过将一组任意的存储单元串联在一起。其中,每个数据元素占用若干存储单元的组合称为一个「链节点」。为了将所有的节点串起来,每个链节点不仅要存放一个数据元素的值,还要存放一个指出这个数据元素在逻辑关系上的直接后继元素所在链节点的地址,该地址被称为「后继指针。
2024-03-18 23:48:11
923
原创 字典树简介
字典树(Trie):又称为前缀树、单词查找树,是一种树形结构。顾名思义,就是一个像字典一样的树。它是字典的一种存储方式。字典中的每个单词在字典树中表现为一条从根节点出发的路径,路径相连的边上的字母连起来就形成对应的字符串。例如下图就是一棵字典树,其中包含有aabcacbaccachbchb这 7 个单词。从图中可以发现,这棵字典树用边来表示字母,从根节点到树上某一节点的路径就代表了一个单词。比如 1 → 2 → 6 → 10 表示的就是单词acc。
2024-03-16 00:08:43
1293
原创 Sunday 算法介绍
Sunday 算法」是一种在字符串中查找子串的算法,是 Daniel M.Sunday 于1990年提出的字符串模式匹配算法。Sunday 算法思想:对于给定文本串T与模式串p,先对模式串p进行预处理。然后在匹配的过程中,当发现文本串T的某个字符与模式串p不匹配的时候,根据启发策略,能够尽可能的跳过一些无法匹配的情况,将模式串多向后滑动几位。Sunday 算法思想跟 Boyer Moore 算法思想类似。不同的是,Sunday 算法匹配顺序是从左向右,并且在模式串p匹配失败时关注的是文本串T。
2024-03-16 00:07:35
1411
原创 Horspool 算法介绍
Horspool 算法:是一种在字符串中查找子串的算法,它是由 Nigel Horspool 教授于 1980 年出版的,是首个对 Boyer Moore 算法进行简化的算法。Horspool 算法思想:对于给定文本串T与模式串p,先对模式串p进行预处理。然后在匹配的过程中,当发现文本串T的某个字符与模式串p不匹配的时候,根据启发策略,能够尽可能的跳过一些无法匹配的情况,将模式串多向后滑动几位。可以看出,Horspool 算法思想和 Boyer Moore 算法思想是一致的。
2024-03-15 23:58:33
1125
原创 Boyer Moore 算法介绍
Boyer Moore 算法:简称为 BM 算法,是由它的两位发明者 Robert S. Boyer 和 J Strother Moore 的名字来命名的。BM 算法是他们在 1977 年提出的高效字符串搜索算法。在实际应用中,比 KMP 算法要快 3~5 倍。BM 算法思想:对于给定文本串T与模式串p,先对模式串p进行预处理。然后在匹配的过程中,当发现文本串T的某个字符与模式串p不匹配的时候,根据启发策略,能够直接尽可能地跳过一些无法匹配的情况,将模式串多向后滑动几位。
2024-03-15 23:56:24
1262
原创 KMP 算法介绍
KMP 算法:全称叫做「Knuth Morris Pratt 算法」,是由它的三位发明者 Donald Knuth、James H. Morris、 Vaughan Pratt 的名字来命名的。KMP 算法是他们三人在 1977 年联合发表的。KMP 算法思想:对于给定文本串T与模式串p,当发现文本串T的某个字符与模式串p不匹配的时候,可以利用匹配失败后的信息,尽量减少模式串与文本串的匹配次数,避免文本串位置的回退,以达到快速匹配的目的。
2024-03-15 23:55:25
791
原创 Rabin Karp 算法介绍
Rabin Karp 算法:简称为 RK 算法。是由它的两位发明者 Michael Oser Rabin 和 Richard Manning Karp 的名字来命名的。RK 算法是他们在 1987 年提出的、使用哈希函数以在文本中搜寻单个模式串的字符串搜索算法。Rabin Karp 算法思想:对于给定文本串T与模式串p,通过滚动哈希算快速筛选出与模式串p不匹配的文本位置,然后在其余位置继续检查匹配项。
2024-03-15 23:54:46
1086
原创 Brute Force 算法介绍
Brute Force 算法:简称为 BF 算法。中文意思是暴力匹配算法,也可以叫做朴素匹配算法。BF 算法思想:对于给定文本串T与模式串p,从文本串的第一个字符开始与模式串p的第一个字符进行比较,如果相等,则继续逐个比较后续字符,否则从文本串T的第二个字符起重新和模式串p进行比较。依次类推,直到模式串p中每个字符依次与文本串T的一个连续子串相等,则模式匹配成功。否则模式匹配失败。
2024-03-15 23:42:50
1633
原创 十分钟教你有效运用百度检索式
百度作为国内最大的搜索引擎网站,虽然很多人都喷它的搜索页面广告太多,但是对于不会科学上网的同学来说,似乎除了继续用百度以外也没有更好的选择。 其实搜索引擎一般都会内涵一些高级的搜索技巧,掌握这些技巧之后就可以过滤掉一些不想要的噪音,迅速找带自己想要的信息,只是很少人知道和使用,下面就给大家来分享一下这些搜索技巧。在关键词的前面使用加号,也就等于告诉搜索引擎该单词必须出现在搜索结果中的网页上。逻辑“非”的操作,。百度支持’-‘功能,用于有目的地删除某些无关网页,语法是’A -B’。
2024-03-14 19:17:51
4762
原创 IDEA 如何运行SpringBoot项目(手把手超详细截图)
在GitHub上面找到我们需要部署项目的URL,并且复制粘贴到IDEA中,如下图所示。
2024-02-21 00:34:53
2789
原创 Typora与阿里OSS对象存储便捷发表博客(超详细截图)
在使用Typora的时候,图片会被保存在本地,再进行转移或者发表的时候十分麻烦与苦恼。,而通过阿里云OSS对象存储可以减轻这种痛苦,让我们写博客更加的方便与快捷。
2024-02-20 23:50:51
445
计算机网络常见的大题和小题解析
2024-07-01
PDF 工具pdf工具pdf工具pdf工具pdf工具pdf工具pdf工具pdf工具pdf工具
2024-01-15
2022年计算机组成原理考试试卷包含A卷和B卷,包括卷子和答案
2024-01-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人