啥都鼓捣的小yao-优快云博客

原创课程6. 上下文词嵌入 Word2Vec

在上面的例子中，几乎所有单词的值都是 1，即这种观点假设所有单词对于理解两篇文本都是相同的，但事实并非如此。这个想法基于关于如何在构建单词和文本的向量表示时考虑单词对于特定文本的重要性的考虑。现在让我们注意以下几点：到目前为止我们所做的一切都是基于一些考虑，构建单词/文档的向量/矩阵，以某种方式反映单词/文档的含义。我们将使用大小为 5 的滑动窗口遍历数据集，并在窗口的每个位置使用中心词，教神经网络预测当前窗口中的单词。意义相近的词的向量会很接近，意义相远的词的向量会按照欧几里得距离很远。

2025-04-01 01:39:11 549

原创 Python使用“决策树”算法解决预测钻石成本的问题

待测试的超参数params = [params是一个列表，其中每个元素是一个字典，包含了决策树回归模型的超参数组合，包括criterion（分裂准则）和max_depth（树的最大深度）。

2025-03-30 23:37:46 1157

原创课程6. 决策树

谓词。

2025-03-30 20:00:26 930

原创 Python协程与异步编程——asyncio

实现了。

2025-03-25 03:18:31 642

原创 Python使用SVC算法解决乳腺癌数据集分类问题——寻找最佳核函数

为了检查问题解决方案的质量，请使用参数“test_size=0.2”和“random_state=42”将样本分成训练和测试，以使用“准确度”来检查。作为答案，请提供最佳内核的字符串名称，不带引号和其他小写的附加字符。这是指您传递给 SVC 参数的名称（即不是“多项式”，而是“poly”）填写下面的代码模板并选择最佳内核，保持其他超参数不变。不要忘记使用“StandardScaler”要尝试的内核：线性、多项式、径向、S 形。您的任务是选择最佳内核，使用。证明rbf是最佳核函数。证明rbf是最佳核函数。

2025-03-24 23:19:32 425

原创课程5. 机器学习的核心方法

这个陈述使我们能够更进一步地观察从非线性模型到线性模型的转变，这不仅仅是由于对特征应用了变换，而且是由于。

2025-03-24 22:43:57 962

原创 Python解决“DNA序列编辑距离”问题

题目要求计算将一个受损DNA序列（dna1）转换成一个未受损序列（dna2）所需的最少编辑步骤。编辑步骤包括增加一个碱基、删除一个碱基或替换一个碱基。小R正在研究DNA序列，他需要一个函数来计算将一个受损DNA序列（dna1）转换成一个未受损序列（dna2）所需的最少编辑步骤。编辑步骤包括：增加一个碱基、删除一个碱基或替换一个碱基。输入：dna1 = “AACCGGTT”,dna2 = “AACCTTGG”输入：dna1 = “GGGG”,dna2 = “TTTT”编辑步骤包括增加、删除或替换一个碱基。

2025-03-23 16:11:19 861

原创实战3. 利用Pytorch预写好ResNet-18预测电视剧《辛普森一家》中的人物——图像分类

你将训练一个神经网络来预测电视剧《辛普森一家》中的人物。您将获得一个训练和测试数据集。您将需要在训练数据上训练神经网络并在测试数据上获得预测。

2025-03-23 02:42:13 1277

原创 Python预训练模型实现俄语音频转文字

使用 Common Voice 8.0、Golos 和 Multilingual TEDx 的训练和验证分割对俄语的 facebook/wav2vec2-xls-r-1b 进行了微调。使用此模型时，请确保您的语音输入以 16kHz 采样。我们只需要装好三个功能包，写好你的文件路径即可使用！

2025-03-21 22:48:17 449 1

原创课程5. 迁移学习

model输出：ResNet(model . fc输出：Linear(in_features=512, out_features=1000, bias=True)model输出：ResNet(

2025-03-21 22:20:54 1283

原创 Python解决“特定数组的逆序拼接”问题

题目要求构造一个特定数组，该数组的构造规则是：对于每个 i 从 1 到 n，将数字 n 到 i 逆序拼接，直到 i 等于 n 为止。每次循环生成一个逆序序列，序列的长度从 n 到 1 递减，总共需要生成 n+(n−1)+(n−2)+…最终，输出这个拼接后的数组。输出：[5, 4, 3, 2, 1, 5, 4, 3, 2, 5, 4, 3, 5, 4, 5]例如，当n等于3时，拼接后的数组是 [3, 2, 1, 3, 2, 3]。输出：[4, 3, 2, 1, 4, 3, 2, 4, 3, 4]

2025-03-18 21:17:21 195

原创实战2. 利用Pytorch解决 CIFAR 数据集中的图像分类为 10 类的问题——提高精度

让我们回到图像分类问题 CIFAR。你的主要任务：实现整个模型训练流程，并在测试样本上获得良好的准确度指标值。本任务中用于训练模型的代码已完整实现。您需要做的就是为神经网络类编写代码并试验参数以获得良好的质量。除此之外，你要保证模型的内存使用！

2025-03-18 00:14:00 749

原创 Python解决“永久代币卡回本计划”问题

具体来说，小F需要通过每天登录游戏返还的勾玉来抵消购买卡片的花费。设购买卡片的价格为 a 勾玉，每天返还 b 勾玉，那么需要的天数 d 可以通过公式 d=⌈ba⌉ 来计算。由于直接计算向上取整比较麻烦，我们可以通过 (a+b−1)//b 来实现向上取整的效果。该卡片的价格为 a 勾玉，每天登录游戏可以返还 b 勾玉。功能包里有个math.ceil(a / b)：计算 a / b 并向上取整，得到需要的天数。只使用了常数级别的额外空间。输入：a = 10, b = 1。输入：a = 10, b = 2。

2025-03-17 22:12:25 259

原创课程4. 图像处理算法与卷积神经网络

卷积层从输入图像中提取特定类别的某些特征模式（猫头、狗头、飞机尾巴、车身等）。在神经网络中，那些经过训练的过滤器被激活，以对图像中存在的模式类型做出反应。

2025-03-17 22:00:44 1213

原创 Python手写机器学习的“线性回归”算法

我们只考虑如何手写实现，不考虑效果好不好，和统计学上的使用方法，主要是培养代码算法实现思想，如果您想学习线性回归知识，请看我博客的专门有写文章。

2025-03-16 01:56:03 915

原创 Python实现“经典梯度下降算法”训练逻辑回归模型

"""y_true - 对于对象 x 的真实响应值y_pred - 我们的模型预测的对象 x 属于类别 1 的概率值x - 该对象的特征描述向量期望在输出中得到关于预测 y_pred 值的模型参数的偏导数向量 H。请注意，由于自由系数 a0 的存在，这个梯度的维度应该比 x 的维度大 1。"""# 在特征向量x前添加1，用于计算偏置项的梯度gradient函数用于计算逻辑回归损失函数关于模型参数的梯度。y_true是样本的真实标签（0 或 1），y_pred。

2025-03-16 01:36:48 762

原创 Python解决“创意标题匹配”问题

输入：n = 4, template = “ad{xyz}cdc{y}f{x}e”, titles = [“adcdcefdfeffe”, “adcdcefdfeff”, “dcdcefdfeffe”, “adcdcfe”]输入：n = 5, template = “{abc}xyz{def}”, titles = [“xyzdef”, “abcdef”, “abxyzdef”, “xyz”, “abxyz”]输出：“True,False,True,True,True”因此，总的空间复杂度为 O(n)。

2025-03-13 03:19:13 853

原创课程4. 线性模型

线性分类和回归模型在经典机器学习中发挥着重要作用。我们将看到，线性模型易于使用和学习，具有部分可解释性，并且具有许多有趣的修改。将来，我们将会了解到神经网络在某种程度上是线性模型的扩展，也是线性模型的显著复杂化。线性分类和回归模型彼此有很大不同，因此我们将分别考虑它们。讲座的第一部分将专门讨论线性分类模型，第二部分将专门讨论线性回归模型。我们需要以下概念：向量及其操作。两个向量的标量积。平面、超平面上的直线方程。数理统计要素：数学期望、离差、标准差。广义线性分类器的想法是，我们将采取一些线性曲面，或者

2025-03-13 02:21:43 1104

原创实战1. 利用Pytorch解决 CIFAR 数据集中的图像分类为 10 类的问题

你的任务是建立一个用于 CIFAR 图像分类的神经网络，并实现分类质量 > 0.5。：因为我们实战1里只讨论最简单的神经网络构建，所以准确率达到0.5以上就符合我们的目标，后面会不断学习新的模型进行优化CIFAR的数据集如下图所示：下面我们开始构建模型。

2025-03-09 02:37:19 883

原创课程3. 分批训练与数据规范、标准化

让我们看一下具有几层的神经网络。在训练过程中，各层一起学习。并且网络在训练时每一层都必须适应前一层产生的值。但是在网络训练的时候，网络每一层输出的数值的分布是会发生变化的。并且算法每次迭代时每个隐藏层都必须适应前一层输出的新分布。正因为如此，网络学习得比较慢。同时，在每次训练迭代中，权重可能会发生相当大的变化，这可能会引发其他问题，例如梯度爆炸。规范化神经网络层的输出将有助于解决这个问题。那么我们如何实现层输出的规范化呢？

2025-03-06 21:13:08 804

原创课程3. 度量方法

这些性质绝对是自然而可以理解的：第一个性质表明，我们要调用距离的函数必须大于或等于零（而只有当这两个物体重合时，它们之间的距离才等于零）。这非常方便，因为它允许我们不仅使用来自“sklearn”的类对象作为参数“clf”，还可以使用来自其他库（甚至我们自己的类）的类对象作为参数“clf”。我们希望这个常数在某种“一般意义”上与我们在邻域内已知的函数的所有值尽可能的相似。：监督学习问题（即在训练数据集中给予我们的标签并且我们的任务是学习预测它们的问题）分为几个分支，其中最重要的是分类问题。

2025-03-06 02:08:48 811

原创 Python解决“找出整形数组中占比超过一半的数”问题

使用哈希表（Python中的Counter）可以高效地统计每个数字的出现次数，然后遍历哈希表找到出现次数超过数组长度一半的数字。已知在这些数字中，某个数字的出现次数超过了数字总数的一半。：使用Counter对数组中的每个数字进行计数，生成一个哈希表，键为数字，值为该数字在数组中出现的次数。输入：array = [1, 3, 8, 2, 3, 1, 3, 3, 3]输入：array = [9, 9, 9, 9, 8, 9, 8, 8]输入：array = [5, 5, 5, 1, 2, 5, 5]

2025-03-04 22:33:18 238

原创课程2. 机器学习方法论

在上一讲中，我们讨论了机器学习专家面临的挑战。无论解决的问题类型和解决方法如何，机器学习和数据科学领域的所有专家都会使用一套规则、方法和途径。今天的讲座将专门讨论我们将在课程结束前使用的技术，以及对于那些决定继续学习机器学习和神经网络的人来说，更进一步的学习。因此，在今天的讲座中，我们将假设我们手中不仅有一个数据集X、一组标签y和一个问题陈述，而且还有一个算法A，我们知道如何它（即选择该算法的参数，以便算法能够以足够的质量解决问题）。

2025-03-04 21:32:45 884

原创课程2. 用PyTorch训练神经网络与梯度下降

使用来自“torch.nn”的类更安全、更正确，但是，在专用于“Pytorch”的各种资源上，经常可以找到来自“torch.nn. functional”对象的使用，因此我们认为有必要讲述这种使用激活函数的方法。我们看到图形边缘的近似值存在缺陷，这主要是因为在我们的原始样本中，坐标取自正态分布，因此很少有物体位于 -3 和 +3 的边界之外，这意味着我们的神经网络训练的先例很少。粗略地说，神经网络的输出仍然是网络计算图的一部分，为了将这个张量转换成numpy，我们首先需要将其从网络图中分离出来。

2025-02-27 23:29:37 932

原创 Python解决“比赛配对”问题

题目描述了一个比赛配对的过程，要求计算从 n 支队伍开始，直到决出唯一获胜队伍为止的总配对次数。通过观察可以发现，每次配对后，队伍数会减少一半（偶数情况）或减少一半加一（奇数情况）。最终，队伍数会减少到1，此时不再需要配对。因此，问题的核心在于计算从 n 到 1 的过程中，总共进行了多少次配对。通过数学归纳法可以证明，从 n 支队伍到决出唯一获胜队伍，总共需要进行 n - 1 次配对。小R想知道在比赛中进行的配对次数，直到决出唯一的获胜队伍为止。直接返回 n - 1，不需要额外的计算。

2025-02-27 23:28:37 237 2

原创课程1. 深度学习简介

让三个传入的神经元向我们的绿色神经元的输入发送大小为十、七和三的脉冲。此外，神经元之间的突触具有不同的阻力。而如果网络中两个连续的层之间没有激活函数，那么它们就是两个线性函数的组合，这也是一个线性函数。然而，对于神经网络的隐藏层来说，这种激活函数的选择并不是最佳的。创建一些类似的机器学习模型，其目的是将元素的特征作为输入，并基于这些特征输出该元素的新特征。这与我们从逻辑回归构建完全连接网络的方式一致：网络的最后一层实际上是对数回归本身，所有其他层都是特征转换器，用于将它们馈送到最后一个对数回归层的输入。

2025-02-24 23:40:36 976

原创 Python解决“数字分组求偶数和”问题

题目要求从每个数字组中选择一个数字，使得这些数字组成的数的各位数字之和为偶数。具体来说，我们可以定义两个状态：f[0] 表示当前选择的数字之和为偶数的方案数，f[1] 表示当前选择的数字之和为奇数的方案数。小M面对一组从 1 到 9 的数字，这些数字被分成多个小组，并从每个小组中选择一个数字组成一个新的数。目标是使得这个新数的各位数字之和为偶数。遍历每个数字组的时间复杂度为 O(n)，其中 n 是数字组的长度。对于每个数字组，统计奇数和偶数的个数的时间复杂度为 O(m)，其中 m 是数字组中数字的位数。

2025-02-24 23:39:33 609

原创 Python解决“统计班级中的说谎者”问题

换句话说，如果分数小于等于他的学生数量大于比他分数高的学生数量，则他会说谎。小C发现了一件有趣的事：当且仅当某个学生的成绩小于或等于自己的有更多人时，这个学生会说谎。时间复杂度：排序的时间复杂度为 O(nlogn)，二分查找的时间复杂度为 O(logn)，因此总的时间复杂度为 O(nlogn)。空间复杂度：排序的空间复杂度为 O(1)（如果使用的是原地排序算法），因此总的空间复杂度为 O(1)。输入：A = [19, 27, 73, 55, 88, 88, 2, 17, 22]

2025-02-23 16:19:38 414

原创课程1. 机器学习简介

我确信今天没有人不知道机器学习和人工智能技术。似乎这门神秘的科学已经渗透到人类生活的各个领域：神经网络已经学会翻译几乎所有语言的文本；机器已经学会观察、分析照片和视频，甚至提高它们的质量；基于人工智能的银行算法决定谁应该获得贷款，谁不应该获得贷款；埃隆·马斯克的无人驾驶汽车正在加州的高速公路上行驶，而 Yandex 的无人驾驶汽车则在 Park Kultury 地铁站的郊区行驶。这个列表几乎可以无限地延伸下去。

2025-02-21 03:04:40 1131

原创 Python解决“自助餐厅客流量分析”问题

题目要求计算前i天的客流量平均值，并将其四舍五入为整数。核心信息是每天的客流量数据，需要通过前缀和的方式快速计算前i天的总客流量，然后计算平均值并进行四舍五入。给定餐厅营业的总天数N，以及每天的客流量数据Ri ，你需要输出一个长度为N的序列，其中第i个值表示前i天的平均客流量。她需要计算前ii天的客流量平均值，并将其四舍五入为整数。输入：N = 5 ,R = [1, 2, 3, 4, 10]输入：N = 3 ,R = [5, 10, 15]输出：[1, 2, 2, 3, 4]输出：[5, 8, 10]

2025-02-20 02:09:00 184

原创 Python解决“补给站最优花费”问题

在路程中，小U会经过一些补给站，这些补给站分布在不同的天数上，且每个补给站的食物价格各不相同。现在她想知道，如何规划在不同补给站的购买策略，以使她能够花费最少的钱顺利完成这次旅行。输入：m = 6 ,n = 5 ,p = [[0, 1], [1, 5], [2, 2], [3, 4], [5, 1]]输入：m = 5 ,n = 4 ,p = [[0, 2], [1, 3], [2, 1], [3, 2]]输入：m = 4 ,n = 3 ,p = [[0, 3], [2, 2], [3, 1]]

2025-02-20 01:37:46 496

原创 Python解决“环状DNA序列的最小表示法”问题

为了实现这一点，我们可以生成所有可能的表示方式，并将它们存储在一个集合中，然后从中找到字典序最小的序列。这种环状结构的特点是可以从任何位置开始读取序列，因此一个长度为 n 的碱基序列可以有 n 种不同的表示方式。科学员的任务是从这些表示中找到字典序最小的序列，即该序列的“最小表示”。生成所有可能的表示方式需要 O(n^2) 的时间复杂度，因为我们需要遍历每个位置并生成一个长度为 n 的序列。存储所有可能的表示方式需要 O(n^2) 的空间复杂度，因为每个位置生成的序列都需要存储。输出：‘AGTCCG’

2025-02-18 17:14:11 834

原创 Python解决“反应物浓度”问题

每个操作要么是 ++，表示增加反应物的浓度 1，要么是 --，表示减少反应物的浓度 1。因此，我们可以将问题转化为对操作序列中的每个操作进行遍历，并根据操作的类型来更新反应物的浓度。最终，反应物的浓度就是所有操作对浓度的影响的总和。输入：instructions = [“++”, “++”, “–”, “–”]输入：instructions = [“++”, “–”, “++”]输入：instructions = [“++”, “++”, “–”]++ 表示增加反应物的浓度，每次增加 1。

2025-02-18 16:50:51 254

原创 Python解决“数字字符串千分位转化”问题

题目要求将用户输入的不带千分位逗号的数字字符串转换为带千分位逗号的格式，并且保留小数部分。同时，输入的数字字符串前面可能会有无用的 0，这些也需要精简掉。核心信息是处理整数部分和小数部分，分别进行格式化，并在整数部分添加千分位逗号。A在工作时遇到了一个问题，他需要将用户输入的不带千分位逗号的数字字符串转换为带千分位逗号的格式，并且保留小数部分。A还发现，有时候输入的数字字符串前面会有无用的 0，这些也需要精简掉。字符串处理和格式化输出的知识，是一道典型的字符串处理问题。输出：‘987,654,321’

2025-02-12 20:34:06 286

原创 Python解决“找单独的数”问题

利用异或运算的特性，即 a⊕a=0 和 a⊕0=a，我们可以通过遍历数组并对所有元素进行异或运算，最终得到的结果就是那个只出现一次的数字。有趣的是，除了一个数字之外，所有的数字都恰好出现了两次。输入：cards = [1, 1, 2, 2, 3, 3, 4, 5, 5]异或运算满足交换律和结合律，即 a⊕b⊕a=(a⊕a)⊕b=0⊕b=b。输入：cards = [0, 1, 0, 1, 2]a⊕0=a：任何数与 0 异或结果为该数本身。a⊕a=0：任何数与自身异或结果为 0。

2025-02-12 20:21:40 122

原创 Python解决——“奇妙货币交易”问题

由于这个奇怪的规则，很多X国人都无法快速判断某个物品是否可以用这种方式交易成功，他们常常会请聪明的你来帮助。该国的交易规则也很特别：在一次交易中，双方只能对每种面值的货币使用不超过两次。的交易，且每种面值的货币使用不超过两次。的幂次项，并检查每一步是否满足使用不超过两次的限制。的幂次项且满足条件，则返回 “YES”，否则返回 “NO”。Y是住在一个名为X国的国家，这里的货币非常特殊，面值为。你能帮他们判断一下，是否能按照规则用给定的货币面值。例如，小R想买一件价格为198的物品，货币的基数。

2024-12-31 02:02:07 599

原创 Python解决“兔群繁殖之谜”问题

题目描述了一种特殊的兔子繁殖模式，每对成年兔子每个月会生育一对新的小兔子，新生的小兔子需要一个月成长，到第二个月才能开始繁殖。他想知道在第 A 个月末，总共会有多少对兔子。请你帮助编写一个程序，计算在给定的月份 A 时，兔子群体的总对数。通过分析题目给出的规律，可以发现兔子的数量增长符合斐波那契数列的递推关系，即。第 2 个月末有 2 对兔子：原来那 1 对成年兔子，繁殖了 1 对新生的小兔子。第 1 个月末有 1 对兔子：原来那对变成了成年兔子，并开始繁殖。一个长整数，表示第 A 个月末兔子的总对数。

2024-12-31 01:50:50 755

空空如也

空空如也