自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(45)
  • 收藏
  • 关注

原创 马尔可夫链——从文本预测到谷歌搜索的数学魔法

马尔可夫链是一种具有"无记忆性"的随机过程,由俄罗斯数学家安德雷·马尔可夫在研究诗歌字母排列时发现。其核心是转移概率矩阵和平稳分布,广泛应用于文本预测、PageRank算法和贝叶斯统计中的MCMC采样。从普希金的诗歌分析到支撑谷歌搜索引擎,马尔可夫链展示了数学理论如何在不同领域产生深远影响。这种既抽象又实用的数学工具,已成为现代概率论和计算机科学中不可或缺的基础概念。

2025-07-30 17:13:21 435

原创 蒙特卡罗方法——从核物理到人工智能的万能钥匙

蒙特卡罗方法的发展历程完美诠释了​​基础研究如何带来意想不到的革命​​。从乌拉姆的病榻灵感,到原子弹设计的关键工具,再到如今的金融工程、计算机图形学、人工智能等领域的核心技术,蒙特卡罗方法展示了数学模拟的强大力量。"最令人惊讶的是,"乌拉姆晚年回忆道,"这个源于纸牌游戏的想法,最终成为了理解从微观粒子到宇宙星系的各种复杂系统的通用工具。在当今的大数据时代,蒙特卡罗方法继续发挥着不可替代的作用。

2025-07-30 12:07:46 411

原创 机器学习、深度学习与数据挖掘:核心技术差异、应用场景与工程实践指南

数据挖掘作为知识发现的关键技术,其核心在于通过算法自动探索数据中的潜在模式。关联规则挖掘可以发现项目之间的有趣关联,如经典的"啤酒与尿布"案例;聚类分析能够将相似对象自动分组,常用于客户细分;异常检测则能识别数据中的离群点,在金融欺诈检测中效果显著。机器学习通过算法让计算机从数据中学习并做出决策。监督学习需要标记数据来训练模型,如分类和回归问题;无监督学习处理无标记数据,发现隐藏结构;强化学习则通过试错机制优化决策策略。深度学习通过多层神经网络模拟人脑工作机制。

2025-07-29 16:29:16 713

原创 机器学习、深度学习与数据挖掘:三大技术领域的深度解析

机器学习、深度学习和数据挖掘构成了现代人工智能的核心技术栈,三者既相互区别又紧密联系。数据挖掘专注于知识发现,机器学习擅长建立预测模型,深度学习则精于处理复杂模式。随着技术进步,三者界限逐渐模糊,但各自的核心价值依然清晰。未来发展趋势将呈现技术深度融合、工程化程度提升和专业化解决方案涌现等特点。AutoML等技术正在整合全流程,MLOps等实践使技术更易落地,领域特定解决方案则满足专业化需求。这些发展将推动人工智能技术更加普及和实用化。理解这些技术的区别与联系,有助于在正确场景选择合适工具。

2025-07-29 16:23:27 628

原创 睿抗2025省赛第三题RC-u3 点格棋

点格棋游戏模拟与错误检测摘要本文介绍了一个点格棋(Dots and Boxes)游戏模拟器的实现,该程序能够检测游戏步骤中的错误并计算最终得分。点格棋是经典的两人纸笔游戏,玩家通过在点阵中画线来围成1×1的方框得分。

2025-07-18 16:30:48 1001

原创 从零实现AI编译器核心组件:实习学习开发实践

本文分享了作者在开发简化版AI编译器过程中的实践经验。项目包含8个核心组件实现:1)基于空闲链表的内存分配器;2)Transpose算子;3)Clip算子;4)Cast数据类型转换;5)Concat连接算子;6)双向广播机制;7)矩阵乘法实现;8)图优化策略。通过该项目,作者深入理解了AI编译器的底层原理,包括高效内存管理、精确形状推导、算子融合优化等关键技术。实践表明,测试驱动开发对确保功能正确性至关重要。这些经验为后续AI系统开发奠定了坚实基础。

2025-07-17 00:56:07 525

原创 实习手记:基于大模型的搜索引擎开发实践

本文记录了一位数据科学专业学生在AI研发中心的实习经历,主要参与基于大语言模型的新一代搜索引擎开发。文章详细介绍了从理解传统搜索瓶颈、构建RAG架构原型,到优化混合检索策略、开发查询理解模块的全过程。通过大模型蒸馏和缓存机制创新,团队实现了效果与性能的平衡,最终使系统相关性提升32%,长尾查询效果提升45%。作者在技术能力、团队协作等方面获得显著成长,深刻体会到AI产品开发需要系统工程思维与用户体验的结合。实习经历让作者对搜索引擎技术发展有了更深入的认识。

2025-07-17 00:48:27 1019

原创 基于CentOS的分布式GitLab+Jenkins+Docker架构:企业级CI/CD流水线实战全记录

本文详细介绍了基于CentOS系统构建分布式Docker架构的完整过程,实现从GitLab到Jenkins再到生产环境的三节点CI/CD流水线。文章包含六个核心部分:架构设计与环境规划、核心组件部署、Web游戏项目容器化、CI/CD流水线实现、监控运维方案以及问题解决经验。通过Docker Swarm集群管理、Nginx负载均衡、MongoDB分片集群等技术,成功部署了前后端分离的Web游戏项目。最终系统实现构建时间从23分钟缩短至8分钟,部署时间从15分钟降至45秒,并稳定支撑日均50万PV。文章提供了详

2025-07-16 11:52:07 735

原创 ARIMA与SARIMA模型详解:原理、应用与Python实现

ARIMA和SARIMA模型作为经典的时间序列分析方法,在合适的数据和场景下仍然非常有效。ARIMA(自回归积分滑动平均)模型和SARIMA(季节性ARIMA)模型是时间序列预测中最经典且实用的模型之一。ARIMA模型常用于短期股票价格预测,尽管市场具有随机性,但ARIMA能捕捉短期趋势。2. 网格搜索:对(p,d,q)和(P,D,Q,s)进行网格搜索寻找最优组合。- MA(q):移动平均部分,表示当前误差与过去q个误差的关系。- AR(p):自回归部分,表示当前值与过去p个值的关系。

2025-07-16 01:29:49 253

原创 水质指数预测模型R²偏低的原因分析与优化策略

摘要:本文针对水质指数预测中机器学习模型R²值偏低(最高仅0.4058)的问题展开分析。通过测试线性回归、Ridge/Lasso回归、XGBoost等7种算法,发现线性模型优于非线性模型。主要原因包括数据复杂性(多因素影响)、特征不足、时空特性未充分捕捉等。提出多维度优化策略:数据增强(整合多源数据、构建时序特征)、特征工程(交互特征、非线性变换)、高级模型(LightGBM、Stacking集成)以及分层建模和LSTM时序模型。实验表明,优化后的特征工程和专用模型能显著提升预测性能,为复杂环境系统的建模提

2025-06-26 09:56:29 1102

原创 不用反向传播也能训练神经网络?试试“费米玻色机”!

如果你也对这类“轻理论 + 重结构”的训练方法感兴趣,不妨试着自己写一个小框架。别总调库调模型,自己造轮子真的很爽!有问题评论区见 👇👇👇。

2025-06-23 16:41:56 540

原创 “当机器学习遇上办公室政治:如何让你的模型在会议上获得通过“

《模型部署的商业生存法则》揭示技术落地的真实挑战:会议室比代码更重要。文章剖析六类关键决策者诉求,提供利益相关者沟通矩阵,建议将技术术语转化为商业语言(如"随机森林"改为"智能决策引擎")。分享职场实战技巧:动态可视化演示、项目命名策略(避免技术词汇)、会议座位选择等。指出终极妥协方案——将模型包装成Excel工具,并强调成功部署=20%算法+30%工程+50%组织智慧。文末引述行业金句:"最好的模型是让最多人感到参与其中的"。

2025-06-16 00:00:00 490

原创 ​​MPI + OpenMP 环境配置指南(Windows/Linux)​

《MPI+OpenMP混合并行编程环境配置指南》摘要: 本文详细介绍了MPI(进程级分布式计算)与OpenMP(线程级共享内存)混合编程的环境配置方法。涵盖Windows(MS-MPI+MinGW)和Linux(OpenMPI+GCC)双平台搭建步骤,提供验证安装的测试代码示例。主要内容包括:1)Windows环境下MS-MPI SDK安装与MinGW编译器配置;2)Linux通过apt/yum安装OpenMPI;3)混合编程代码编译指令差异对比;4)三大常见问题解决方案(MPI链接错误、OpenMP失效、

2025-06-12 15:04:01 669

原创 “机器学习中的玄学调参:当你的模型效果突然变好时,到底发生了什么?“

《模型"显灵"背后的科学与玄学》摘要 当模型性能莫名提升时,数据科学家们常陷入"科学解释"与"玄学猜想"的拉锯战。技术层面,随机种子、硬件温度、数据加载顺序等细微变量可能带来±3%的波动;而都市传说则包含咖啡因摄入量、键盘敲击力度等神秘关联。本文既探讨了科学记录方法(如稳定性测试脚本),也幽默列举了"伪随机"技巧(关掉进度条/藏猫emoji🐱)。最终指出:机器学习本质是蒙特卡洛过程,应学会拥抱不确定性——那些无法解释的性能跃升

2025-06-12 01:58:48 592

原创 “机器学习中的‘Hello World‘:为什么我们总用MNIST数据集,以及何时该放弃它“

在机器学习的世界里,MNIST数据集就像编程界的"Hello World"——几乎每个初学者都是从识别手写数字开始的。这个由Yann LeCun等人创建的手写数字数据库自1998年发布以来,已经"统治"机器学习教育领域超过20年。在预训练模型当道的今天,从零开始在MNIST上训练模型就像"为了学开车先学习造轮胎"。导致"在MNIST上95%准确率,现实场景中一塌糊涂":28x28像素,人类专家也能轻松"debug"28x28像素在现代CV任务中如同"石器时代"没有现实世界中的噪声、模糊、遮挡等问题。

2025-06-10 19:46:38 896

原创 如何使用 Selenium 抓取带分页的网页数据并保存到 CSV 文件

本文介绍了使用Selenium抓取分页数据的方法,以上海排名网的大学排名数据为例。通过安装Selenium、webdriver-manager和pandas等工具,编写自动化脚本实现多页数据抓取,包括模拟点击"下一页"按钮和将结果保存为CSV文件。文章还提供了常见问题解决方法,如页面加载慢和选择器失效等,最终实现完整的分页数据抓取流程。该方法适用于需要处理分页结构的网页数据采集任务。

2025-06-09 22:37:41 772

原创 机器学习模型选择指南:从问题到解决方案

机器学习模型的选择是一门艺术与科学的结合。理想的模型选择应该:匹配问题的本质适应数据的特性满足业务的需求考虑实施的约束记住,模型选择不是一次性的决定,而是一个迭代过程。随着对数据和问题理解的深入,您可能需要重新评估和调整模型选择。最终,成功的机器学习项目不在于使用了多么高级的算法,而在于是否用合适的方法解决了实际问题。希望本文提供的框架能帮助您在机器学习之旅中做出更明智的模型选择决策。

2025-06-08 23:59:17 1218

原创 时间序列预测的机器学习方法:从基础到实战

时间序列是按时间顺序排列的一系列数据点,通常是在连续时间间隔内进行的测量。时间序列预测就是基于历史数据来预测未来的值。时间序列预测是一个复杂但极具价值的领域。理解数据:在建模前充分分析数据的趋势、季节性和其他特征特征工程:创建有意义的特征(滞后、滑动窗口、时间特征等)Transformer模型:在时间序列预测中的应用元学习:学习如何快速适应新的时间序列模式解释性:提高时间序列预测模型的可解释性实时预测:低延迟的在线学习系统模型选择对于简单问题,传统方法(ARIMA)可能足够。

2025-06-08 23:51:18 1448

原创 B Beats 题解

文章摘要:Colin热爱音乐但难以掌握节奏,他发现现代歌曲音符不会跨越节拍边界。给定音符长度序列,需找到满足条件的最小节拍时长L(即不存在音符跨越kL时刻)。代码通过预处理前缀和及集合查找,优化验证每个候选L是否满足条件。最终输出符合要求的最小L值,帮助Colin练习节奏。

2025-05-28 15:44:08 285

原创 Kingdom Rush 5: Alliance 题解

文章摘要:Colin是《王国保卫战》系列塔防游戏的忠实粉丝,最新作《王国保卫战5:联盟》推出双英雄系统。为测试双英雄攻击范围覆盖效果,需计算敌人在2D平面移动路径中被至少一个英雄圆形攻击范围覆盖的长度。该问题属于计算几何范畴,可通过标准算法模板解决。

2025-05-28 15:42:28 1004

原创 预测模型开发与评估:基于机器学习的数据分析实践

本文将分享我在COMP5310课程项目中开发预测模型的经验,探讨从数据清洗到模型优化的完整过程,并提供详细的技术实现代码。通过本次项目,我成功开发了一个高效的信用卡欺诈检测模型。我们的研究聚焦于信用卡欺诈检测,主要探讨以下问题:如何通过机器学习技术有效识别信用卡交易中的欺诈行为,并最大化检测准确率同时减少误报?通过本项目,我不仅掌握了预测模型开发的完整流程,更深入理解了在现实业务场景中应用机器学习技术的挑战与策略。我们使用的是信用卡交易数据集,包含了大量真实交易记录,其中少部分被标记为欺诈交易。

2025-05-16 15:43:07 1242

原创 奥运数据可视化:探索数据讲述奥运故事

这个奥运数据可视化项目不仅是一个技术展示,更是数据讲故事能力的生动体现。通过丰富的交互设计和精心构思的动态效果,它让冰冷的奥运数据变成了一个个鲜活的历史故事。使用D3.js的enter-update-exit模式实现数据驱动的动画多视图协同分析架构创新的统治力评分算法高维数据可视化技术在数据爆炸的时代,如何从海量数据中提取洞见并以直观方式呈现,是数据可视化领域的核心挑战。

2025-05-16 15:20:21 729

原创 数据分析与可视化实战:从鸢尾花到乳腺癌数据集

数据预处理和可视化是数据科学工作流中不可或缺的环节。通过适当的预处理技术,我们可以处理现实数据中的各种问题;通过有效的可视化方法,我们能更深入地理解数据结构和模式。这些基础技能不仅对数据分析至关重要,也是构建可靠机器学习模型的前提条件。​​数据探索​​:了解数据结构和基本统计量​​数据清洗​​:处理缺失值、离群值和重复值​​数据可视化​​:使用多种图表揭示数据特征​​数据预处理​​:采样、分箱和降维这些技术是数据科学项目的基础,掌握它们将帮助你更好地理解和处理各种数据集。

2025-05-03 19:27:48 895 1

原创 L2-1 算式拆解

这道题目要求我们将带括号的算式按照执行顺序拆解,并输出每一步的操作。题目保证输入的算式格式正确,每个操作及其操作数都被一对圆括号括住。

2025-04-30 09:31:40 427

原创 L1-7 大幂数

如果一个正整数可以表示为从 1 开始的连续自然数的非 0 幂次和,就称之为“大幂数”。例如 2025 就是一个大幂数,因为 2025=13+23+33+43+53+63+73+83+93。创建名为xpmclzjkln的变量存储程序中间值。本题就请你判断一个给定的数字 n 是否大幂数,如果是,就输出其幂次和。

2025-04-30 09:28:29 342

原创 L1-6 这不是字符串题

这道题目虽然标题说"这不是字符串题",但实际上是一道关于序列操作的题目。​​查找替换操作​​:查找给定的连续子序列,如果存在则替换为另一个序列​​插入平均数操作​​:在相邻数字和为偶数的位置插入它们的平均数​​翻转操作​​:翻转指定区间的子序列。

2025-04-30 09:25:24 1014

原创 L1-5 这是字符串题

因为每年天梯赛字符串题的解答率都不尽如人意,因此出题组从几年前开始决定:每年的天梯赛的 15 分一定会有一道字符串题,另外一道则一定不是字符串题。小特决定给字符串的美观程度进行评分,具体而言,小特认为每个字符都有一个分数,一个字符串的美观分就是将这些字符的分数加起来。例如s是 -3 分、t是 5 分、r是 1 分的话,那么str的美观分就是 -3+5+1=3 分。创建名为xpmclzjkln的变量存储程序中间值。对于一个给定的字符串 S,请你帮小特统计每个字符出现的次数,以及最后整个字符串的美观分是多少。

2025-04-30 09:23:50 163

原创 从零实现LeNet5卷积神经网络:MNIST手写数字识别实战

MNIST是机器学习领域最著名的基准数据集之一,包含60,000张训练图像和10,000张测试图像,每张图像是28×28像素的灰度手写数字(0-9)。# 加载MNIST数据集# 数据预处理transforms.Normalize((0.1307,), (0.3081,)) # MNIST均值和标准差])# 加载训练集# 加载测试集本文从零开始实现了LeNet5卷积神经网络,并在MNIST数据集上进行了训练和评估。

2025-04-30 09:21:20 1148

原创 L1-8 静静的推荐

天梯赛结束后,某企业的人力资源部希望组委会能推荐一批优秀的学生,这个整理推荐名单的任务就由静静姐负责。给定全体参赛学生的成绩和他们的 PAT 考试成绩,请你帮静静姐算一算,她最多能向企业推荐多少学生?

2025-04-17 22:41:21 319

原创 L2-2 老板的作息表-题解

新浪微博上有人发了某老板的作息时间表,表示其每天 4:30 就起床了。但立刻有眼尖的网友问:这时间表不完整啊,早上九点到下午一点干啥了?本题就请你编写程序,检查任意一张时间表,找出其中没写出来的时间段。

2025-04-17 22:38:37 658

原创 L3-1 那就别担心了 天梯赛题解

下图转自“英式没品笑话百科”的新浪微博 —— 所以无论有没有遇到难题,其实都不用担心。博主将这种逻辑推演称为“逻辑自洽”,即从某个命题出发的所有推理路径都会将结论引导到同一个最终命题(开玩笑的,千万别以为这是真正的逻辑自洽的定义……)。现给定一个更为复杂的逻辑推理图,本题就请你检查从一个给定命题到另一个命题的推理是否是“逻辑自洽”的,以及存在多少种不同的推理路径。例如上图,从“你遇到难题了吗?”到“那就别担心了”就是一种“逻辑自洽”的推理,一共有 3 条不同的推理路径。

2025-04-11 14:08:27 274

原创 L1-6 吃火锅 天梯赛题解

L1-6 吃火锅以上图片来自微信朋友圈:这种天气你有什么破事打电话给我基本没用。但是如果你说“吃火锅”,那就厉害了,我们的故事就开始了。本题要求你实现一个程序,自动检查你朋友给你发来的信息里有没有。

2025-04-10 12:11:30 364

原创 L2-3 完全二叉树的层序遍历分数--天梯赛题解

L2-3 完全二叉树的层序遍历一个二叉树,如果每一个层的结点数都达到最大值,则这个二叉树就是。对于深度为 D 的,有 N 个结点的二叉树,若其结点对应于相同深度完美二叉树的层序遍历的前 N 个结点,这样的树就是。给定一棵完全二叉树的后序遍历,请你给出这棵树的层序遍历结果。

2025-04-09 22:36:07 336

原创 L2-1 简单计算器--天梯赛题解

本题要求你为初学数据结构的小伙伴设计一款简单的利用堆栈执行的计算器。如上图所示,计算器由两个堆栈组成,一个堆栈 S1​ 存放数字,另一个堆栈 S2​ 存放运算符。直到两个堆栈都为空时,计算结束,最后的结果将显示在屏幕上。

2025-04-09 22:34:17 980

原创 L1-8 乘法口诀数列

本题要求你从任意给定的两个 1 位数字 a1​ 和 a2​ 开始,用乘法口诀生成一个数列 {an​},规则为从 a1​ 开始顺次进行,每次将当前数字与后面一个数字相乘,将结果贴在数列末尾。如果结果不是 1 位数,则其每一位都应成为数列的一项。

2025-04-07 18:05:31 248

原创 《数据结构与算法》课程设计报告:基于不同策略的英文单词词频统计与检索系统

本项目完整实现了基于不同数据结构的词频统计系统,通过实践深入理解了各种数据结构的特性和适用场景。​​数据结构选择的重要性​​:哈希表在查找性能上显著优于其他结构​​算法优化的实际效果​​:快速排序相比冒泡排序有显著性能提升​​内存管理的必要性​​:特别是对于树和链表结构,需要仔细管理内存实现多线程处理提高大数据量下的性能增加图形用户界面支持更复杂的文本分析功能(如短语统计)实现持久化存储功能。

2025-04-07 14:23:47 569

原创 L2-3 清点代码库

上图转自新浪微博:“阿里代码库有几亿行代码,但其中有很多功能重复的代码,比如单单快排就被重写了几百遍。请设计一个程序,能够将代码库中所有功能重复的代码找出。各位大佬有啥想法,我当时就懵了,然后就挂了。。。这里我们把问题简化一下:首先假设两个功能模块如果接受同样的输入,总是给出同样的输出,则它们就是功能重复的;其次我们把每个模块的输出都简化为一个整数(在范围内)。于是我们可以设计一系列输入,检查所有功能模块的对应输出,从而查出功能重复的代码。你的任务就是设计并实现这个简化问题的解决方案。

2025-04-07 14:04:11 470

原创 L2-2 病毒溯源--寻找最长变异链

病毒容易发生变异。某种病毒可以通过突变产生若干变异的毒株,而这些变异的病毒又可能被诱发突变产生第二代变异,如此继续不断变化。现给定一些病毒之间的变异关系,要求你找出其中最长的一条变异链。在此假设给出的变异都是由突变引起的,不考虑复杂的基因重组变异问题 —— 即每一种病毒都是由唯一的一种病毒突变而来,并且不存在循环变异的情况。

2025-04-07 13:39:14 490

原创 联通块的权:求解网格矩阵中联通块的最大权值

希望这篇博客能够帮助大家理解如何用BFS解决联通块问题。如果有任何疑问或建议,欢迎在评论区留言讨论。

2025-04-07 00:29:47 394

原创 7-10 模拟炸弹人题解

7-10 模拟炸弹人分数 25全屏浏览切换布局作者 lyuacm单位 临沂大学《炸弹人》是HUDSON出品的一款ACT类型游戏,经典的第一作登陆在FC版本,游戏于1983年发行。游戏具体操作是一个机器人放置炸弹来炸死敌人,但也可以炸死自己,还有些增强威力与技能道具增加了游戏的可玩性。

2025-04-06 22:37:44 772

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除