IT喂嘟盲-优快云博客

原创【从零开始编写数据库系统】基于Python语言实现存储引擎

本文介绍了基于Python实现的数据库存储引擎，该系统由四个核心模块组成：RecordSerializer负责数据序列化，Page管理页内记录存储，DiskManager处理磁盘I/O，BufferPool提供内存缓存。存储引擎通过"页管理-磁盘交互-缓存优化-数据转换"的协同机制，实现了数据持久化、高效IO管理和完整性保障。系统采用分层架构，应用层请求经缓冲区管理层的LRU策略处理，未命中时通过磁盘管理层访问物理存储。数据流程包含读写两条路径，写入时记录经序列化存入脏页后刷盘，读取时优

2025-09-09 23:33:21 1151

原创【openGauss数据库】图解执行计划核心关键字（表访问方式、表连接方式、运算符）的工作原理与解析

执行计划核心关键字解析与优化指南本文通过图文结合的方式深入解析SQL执行计划中的三大核心概念：表访问方式、表连接方式和运算符。表访问方式 Seq Scan：全表扫描，适用小表或无索引场景 Index Scan：索引定位+表读取，适合精确查询 Bitmap Index Scan：位图操作，优化多条件查询表连接方式 Nested Loop：小表驱动大表，内表需索引支持 Hash Join：构建哈希表，适合大表等值连接 Merge Join：预排序合并，适合有序数据集优化建议为高频查询条件添加索引小表

2025-08-18 16:09:08 490

原创【openGauss数据库】数据库优化之SQL优化（基于千万级数据）

本文介绍了基于千万级数据的数据库性能优化方法，重点围绕SQL优化展开。通过20道测试题，系统讲解了openGauss的核心优化技术：1）索引优化，包括B-tree索引、函数索引和覆盖索引的应用；2）分区表优化，利用数据分布特点拆分大表；3）SQL语句优化，通过改写查询、调整连接顺序等方式提升性能。文章还提供了详细的测试数据生成脚本，包含1000万条员工数据及关联表，并针对典型查询场景给出具体优化方案和性能对比分析。这些优化技巧可显著降低查询响应时间，从秒级提升至毫秒级，适用于大数据量下的数据库性能调优场景。

2025-08-18 14:49:11 982

原创【推荐系统】5大核心推荐系统算法+可视化实战，代码拿来即用！

信息爆炸时代，推荐算法如何成为你的“智能店员”？本文用电影推荐实战，手把手拆解今日头条/淘宝同款推荐逻辑，附完整Python代码和可视化技巧！

2025-07-30 22:31:47 1172

原创【基于开源大模型（如deepseek）开发应用及其发展趋势的一点思考】

基于开源大模型（如DeepSeek）开发应用现状与发展趋势的一些思考

2025-07-13 21:46:18 1473

原创【从零开始编写数据库：基于Python语言实现数据库ToyDB的ACID特性】

ToyDB是一个“小而美”的数据库教学项目，通过软件工程生命周期的完整实践，验证了ACID特性的实现逻辑。项目代码简洁、模块清晰，为开发者提供了一个可动手实践的学习载体。未来，随着功能的扩展（如索引支持、并发控制），ToyDB将进一步贴近真实数据库的设计逻辑，成为更具深度的数据库原理教学工具。“数据库的本质不是复杂的代码，而是对数据一致性的执着。ToyDB用最朴素的代码，诠释了这一核心思想。

2025-07-12 23:59:39 1442

原创【机器学习应用】基于集成学习的电力负荷预测系统实战案例

本文介绍了一个基于Python3.11.9和机器学习算法的电力负荷预测系统。该系统采用Flask框架+Celery异步任务队列架构，整合MySQL数据库和Redis消息队列，实现了用户认证、电力数据管理、异步预测任务调度等功能。系统架构分为接口层、服务层、数据层、任务队列和模型层，通过JWT实现安全认证，并采用异步处理提升系统性能。核心功能包括用户注册登录、数据导入导出、预测任务提交与结果查询，支持随机森林等机器学习模型进行负荷预测。该系统具有高可用性和可扩展性，可灵活应用于其他预测场景。

2025-07-11 18:34:03 1175

原创【FAISS助力基于本地DeepSeek构建管理个性化知识库：从原理到实战详解】

本文介绍了基于FAISS向量数据库和DeepSeek模型的个性化知识库构建方案。系统采用多格式文档解析、智能文本分块和语义向量化技术，通过FAISS的高效索引结构（IVF+PQ）实现快速检索。架构包含文件处理、文本分块、向量化、FAISS存储和元数据管理等核心模块，支持多用户隔离和增量更新。方案利用sentence-transformers生成384维向量，结合倒排列表和乘积量化技术，在保证精度的同时提升检索效率100倍以上。系统支持PDF/DOCX/TXT等格式，提供ID查询和语义搜索双模式，适用于个人知

2025-07-11 00:41:59 508

原创【基于大模型 + FAISS 的本地知识库与智能 PPT 生成系统：从架构到实现】

本文介绍了一个基于大模型（Ollama+DeepSeek）和FAISS向量数据库的本地知识库与智能PPT生成系统。该系统采用前后端分离架构，包含文档管理、向量检索、PPT生成等核心模块，可实现文档智能解析、语义检索和结构化PPT自动生成。通过MVC设计模式，系统实现了从文档上传、向量存储到内容检索、PPT生成的全流程自动化，有效解决了企业知识管理效率低下的问题。架构设计清晰，功能模块完备，为企业和个人提供了高效的文档处理与二次创作解决方案。

2025-07-10 23:59:46 1411

原创基于DeepSeek构建的openGauss AI智能优化助手：数据库性能提升新利器

基于DeepSeek构建的openGauss AI智能优化助手为华为开源数据库openGauss提供了全面的性能优化解决方案。该项目通过集成大语言模型DeepSeek，结合SQL优化器、性能诊断工具、索引顾问等核心模块，实现对数据库的智能调优。系统架构包含用户交互层、智能代理层、工具集和存储层，支持SQL查询优化、参数调优、索引建议等关键功能，并通过Redis实现对话记忆管理。显著提升了openGauss数据库的管理效率，适用于OLTP、OLAP等多种业务场景。

2025-07-10 00:07:18 1290

原创【机器学习】集成学习算法及实现过程

本文介绍了集成学习的基本概念、核心任务及其主要算法。集成学习通过组合多个模型（如Bagging、Boosting和Stacking）来提升预测性能，解决欠拟合和过拟合问题。Bagging通过并行训练多个模型并投票或平均结果来降低方差，典型代表是随机森林。Boosting则通过迭代训练弱学习器，逐步优化模型，典型算法包括AdaBoost和GBDT。文章还通过代码示例展示了如何使用VotingClassifier进行硬投票和软投票，并比较了不同集成方法的性能。集成学习在提高模型精度、增强泛化能力和处理复杂数据分

2025-05-22 22:57:05 1367

原创【Spark集成HBase】Spark读写HBase表

本文详细介绍了如何使用 Spark 2.3.2 与 HBase 1.4.8 进行数据交互，重点展示了通过 Scala 语言将 CSV 数据写入 HBase 表，并利用 Spark SQL 进行数据分析的完整流程。文章首先提供了实验环境的配置，包括 Spark、HBase、Scala 的版本信息以及 Maven 依赖的配置。接着，详细描述了数据准备、HBase 表结构设计以及代码实现步骤。代码示例涵盖了从 CSV 文件读取数据、批量写入 HBase、全表扫描、数据类型转换以及结构化查询等关键操作，适合大数据开

2025-05-22 11:11:17 1518

原创【Spark Streaming集成Kafka Stream】读取Kafka消息并写入MySQL中

本文介绍了使用Spark Streaming从Kafka消费数据并写入MySQL的完整流程。系统架构包含Kafka作为数据源、Spark Streaming进行实时处理、MySQL存储结果数据。实验步骤包括：创建MySQL表结构、配置Maven项目依赖、编写Scala代码实现数据消费与存储功能。代码部分展示了如何定义Employee样例类、配置Kafka消费者参数、建立Spark Streaming上下文，以及实现从Kafka主题消费员工数据，经处理后存入MySQL数据库的完整逻辑。该方案适用于构建实时数据

2025-05-21 15:52:24 890

原创【Spark分析HBase数据】Spark读取并分析HBase数据

Apache Spark 是一个强大的大数据处理引擎，而 HBase 是一个分布式 NoSQL 数据库，适合存储海量数据。通过结合 Spark 和 HBase，可以实现高效的数据处理和分析。本文以 Spark 2.3.2 读取 HBase 1.4.8 中的 hbase_emp_table 表数据为例，展示了如何实现这一过程。首先，在 IDEA 中创建工程 SparkReadHBaseData，并在 pom.xml 中添加必要的依赖，包括 Spark、HBase 和 Hadoop 的相关库。接着，在 com.

2025-05-14 16:24:51 1725

原创【HBase整合Hive】HBase-1.4.8整合Hive-2.3.3过程

HBase与Hive的集成能够通过Hive的SQL语句操作HBase数据，简化了操作流程，支持复杂查询和数据分析，并提供了数据抽象和统一管理的功能。然而，这种集成也存在性能损耗、功能限制和架构复杂性等弊端。尽管如此，两者的集成仍然具有重要意义，能够实现技术互补、保护企业投资并支持多样化的业务需求。整合过程包括修改Hive配置文件、复制HBase配置文件，并通过创建表和验证操作来确保集成成功。

2025-05-13 15:51:54 1065

原创【机器学习】手撕封装PCA——将高维数据映射到低维数据的过程

本文详细介绍了主成分分析法（PCA）在高维数据降维中的应用。首先，阐述了PCA的基本原理，即通过寻找前k个主成分对应的轴的方向，实现从高维数据向低维数据的映射。随后，讲解了如何通过PCA将样本数据从N维映射到k维，包括主成分的计算矩阵乘法和降维过程的具体实现。此外，还涉及了PCA的编程实现，包括如何封装PCA为一个类，以及如何通过该类进行数据的降维和恢复。最后，通过实际编程实验展示了PCA降维的基本原理和应用效果，强调了PCA在数据降维中的重要作用。

2025-03-22 16:50:23 1434

原创【数据挖掘】数据预处理——以鸢尾花数据集为例

这个案例代码展示了对鸢尾花数据集进行数据挖掘预处理的常见操作，包括数据加载、探索、清理、变换和归约等步骤。

2025-03-21 10:08:58 872

原创【机器学习】什么是逻辑回归

本文主要讲述了逻辑回归算法的基本原理和应用。首先介绍了逻辑回归在机器学习领域的重要地位，然后解释了其名称的由来和如何利用样本特征和概率之间的关系进行分类。通过与线性回归的对比，解释了概率值的概念和如何进行分类。强调了逻辑回归只能解决二分类问题，并介绍了如何通过转换函数将线性回归的结果转换为概率值。最后通过实例说明了如何应用逻辑回归模型进行肿瘤类型的预测。逻辑回归是一种常用的机器学习算法，在各个行业中广泛使用，尤其在非军事和安全领域。逻辑回归的简单性使其易于理解和实现，但同时也非常有用。

2025-03-20 23:40:00 962

原创【数据挖掘】Python基础环境安装配置

本文主要介绍如何在Windows上安装Python3.13.2，然后基于该Python版本安装Jupyter notebook、Numpy、pandas等数据挖掘涉及到的相关库，本文适合Python初学者和数据挖掘初学者作为学习后续课程的准备。

2025-03-18 15:40:00 1828

原创【机器学习】主成分分析法求数据前n个主成分

本文详细讲解了主成分分析法的原理及应用，包括如何通过梯度上升法求出一组数据的前n个主成分。介绍了主成分分析法如何从一个坐标系转换到另一个坐标系，通过逐步去除数据在已有主成分上的分量，求出新的主成分。具体涉及二维数据到高维数据的处理，以及如何通过编程实现主成分分析。最后，阐述了主成分分析法在降维方面的应用，并强调了该方法在数据处理和分析中的重要性。主成分分析法用于求出一组数据的第一主成分，即一个坐标轴方向，使得样本点在该轴上的方差最大。第一主成分将样本点映射到该轴上，保留了样本点之间的最大方差。

2025-03-13 23:19:26 880

原创【数据挖掘】通过心脏病数据案例熟悉数据挖掘的完整过程

特征会影响目标的取值，目标变量target取值为[0,4],其中0表示没有心脏病，1-4表示有心脏病，只是程度不一样。它是一种用于分类任务的统计方法，适用于二元分类问题。分析每个特征与目标变量的关系。

2025-03-12 10:18:12 1095

原创【机器学习】主成分分析法（PCA）

本文主要讲述了主成分分析法（PCA）的原理和应用。PCA通过选择最重要的特征，将高维数据映射到低维空间，同时保持数据间的关系，实现降维和去噪。通过具体的例子和图示解释了PCA的原理，并比较了两种降维方案，解释了为什么选择将数据映射到x轴上可以得到更好的分类效果。最后强调了在PCA之前需要对所有样本的均值进行归零处理。通过这篇文章，读者可以深入了解PCA的原理和应用，并掌握如何使用PCA进行数据降维和去噪，提高分类效果。

2025-03-12 01:28:35 2544

原创【机器学习】应用梯度下降法训练线性回归算法模型

本文主要讲述了在线性回归模型下如何使用梯度下降法。首先，通过生成模拟数据来测试梯度下降法的效果，数据包括一维的x向量和由线性公式及噪声生成的y值。然后，通过编写函数计算损失函数J的值，并处理可能的溢出问题。接着，介绍了梯度下降法的关键部分，即编写函数计算损失函数对θ的导数，使用空数组存储结果，并具体展示了如何计算第一个元素的导数，为后续多维情况的计算奠定基础。

2025-03-04 23:41:33 1387

原创【大模型学习】一个基于大模型给出的学习大模型计划

目标：掌握机器学习、深度学习的基础知识以及自然语言处理的核心概念。

2025-02-26 00:22:19 680

原创【机器学习】梯度下降法及使用一元二次方程模拟使用梯度下降法的代码实现

文本主要讲述了梯度下降法作为机器学习中的一种优化方法用于最小化损失函数。它并非直接解决机器学习问题，而是作为求解最优参数的工具。通过二维坐标图直观展示了梯度下降法的原理，即通过调整参数值来逐步减小损失函数值，直至找到最小值点。同时，强调了导数在梯度下降中的作用，即指示了损失函数随参数变化的趋势，从而指导参数调整的方向。

2025-02-25 22:43:18 1100

原创【机器学习】多元线性回归算法和正规方程解求解

本文围绕多元线性回归的正规方程解展开，为初学者系统介绍了相关基本概念、求解方法、实际应用以及算法封装要点。首先，深入阐释了正规方程解这一多元线性回归的重要求解方法，同时明确了截距和系数的概念及其差异。通过详细步骤，指导读者如何运用正规方程解决多元线性回归问题，并剖析了将截距和系数分开处理的原因，帮助读者理解其背后的数学逻辑和实际意义。接着，全面分析了正规方程解的优缺点，使读者清晰了解该方法在不同场景下的适用性。在此基础上，介绍了正规方程解在实际应用中的具体操作方法，增强了读者将理论知识转化为实践的能力。

2025-02-21 00:30:40 1450

原创【机器学习】衡量线性回归算法最好的指标：R Squared

本文主要介绍了线性回归算法中用于衡量模型优劣的重要指标——R Squared（R方）。R方用于比较模型预测结果与实际结果的拟合程度，其值范围在0到1之间，越接近1表示模型预测效果越好。R方的计算涉及预测误差与总误差的比较，其中分子为预测误差的平方和分母为总误差的平方和。当R方等于1时，表示模型预测无误差；小于零则表明模型效果不佳，可能不适合线性回归。此外，还介绍了如何通过编程实践计算R方值，并在不同的机器学习库中实现该指标的计算。最后，强调了R方作为衡量线性回归模型性能的关键指标的重要性。

2025-02-20 21:05:14 1618

原创【机器学习】衡量线性回归算法的指标：MSE、RMSE、MAE

本文主要讲述了如何评价线性回归算法的模型质量。文中详细介绍了如何使用均方误差（MSE）和平均绝对误差（MAE）等指标来衡量模型的好坏，以及如何使用波士顿房价数据集进行实际应用。通过这些实际应用的例子，可以更好地理解如何评价线性回归算法的模型质量。此外，文中还介绍了如何将数据集分割为训练集和测试集，并使用训练集训练模型，然后使用测试集进行预测，以评估模型的预测准确性。

2025-02-17 00:48:58 1285

原创【机器学习】向量化使得简单线性回归性能提升

本文主要讲述了向量化运算在简单线性回归算法中的应用。通过回顾传统for循环方式实现的简单线性回归算法，介绍了如何通过最小二乘法计算a的值。然而，这种方式在计算性能上存在效率较低的问题。为了提高性能，视频引入了向量化运算的概念，即将计算过程从循环方式转变为向量之间的计算。通过向量化运算，可以快速地计算出结果，相比传统的for循环方式，在性能上具有显著的优势。视频还强调了向量化运算需要基于推导的结果进行，对于入门级别的同学来说，可以先实现更清晰的程序版本，再基于这个版本进行向量化，以更好地理解算法的原理。

2025-02-16 22:32:01 1139

原创【机器学习】简单线性回归算法及代码实现

本文讲解了线性回归算法的基础知识和应用，强调线性回归主要用于解决回归问题。通过分析房产价格与房屋面积的关系，展示了线性回归的基本思想。文中提到线性回归算法的实现简单，但背后有强大的数学支撑。介绍了简单线性回归与多元线性回归的区别，并解释了如何通过最小二乘法找到最佳拟合直线。同时，探讨了线性回归算法的可解释性以及在机器学习中的重要地位，指出它是许多复杂模型的基础。此外，还提到了最优化原理在机器学习算法中的应用，以及如何通过线性回归算法学习机器学习中的重要思想。线性回归算法是机器学习领域的重要算法，

2025-02-13 00:34:04 973

原创【大模型】本地部署DeepSeek-R1:8b大模型及搭建Open-WebUI交互页面

作为一名对 AI 和生成式模型感兴趣的开发者或学习者，了解如何在小规模环境中部署这些模型是有趣且有益的。在个人笔记本上部署 DeepSeek-R1 是一种具有挑战性的但非常有价值的实践。它不仅可以帮助你快速实现文本生成和问答功能，还能通过不断解决遇到的问题，提升你的技术能力和对 AI 模型的理解。尽管过程中可能会遇到资源不足、配置复杂等问题，但通过仔细规划和持续学习，最终可以成功完成部署并享受到模型带来的便利。

2025-02-10 22:23:12 2617 5

原创【机器学习】数据预处理之scikit-learn的Scaler与自定义Scaler类进行数据归一化

本文主要介绍了scikit-learn中Scaler的使用方法，特别强调了数据归一化在机器学习过程中的重要性。讲述了归一化算法在训练模型前对训练数据集的处理，以及预测时对测试数据集的正确归一化方式。强调了保存训练数据集得到的均值和方差的重要性，并介绍了scalar类在数据处理中的封装理念和过程。最后通过实际代码示例，演示了如何使用standard scalar对数据进行归一化处理，并进行了knn分类实验，展示了归一化处理对提高模型预测准确度的重要性。

2025-02-09 17:02:47 1715

原创【机器学习】数据预处理之数据归一化

本文主要讲述了数据归一化（Feature Scaling）的重要性及其方法。首先通过肿瘤大小和发现时间的例子，说明了不同量纲特征在距离计算中可能导致偏差，从而引出数据归一化的必要性。接着，介绍了最值归一化（Normalization）的概念和方法，即将数据映射到0-1之间的尺度，并指出其适用于分布有明显边界的情况。最后，还指出了最值归一化的一个缺点，即受异常值影响较大。

2025-02-09 14:53:06 1631

原创【机器学习】超参数的选择，以kNN算法为例

本博文讲解了机器学习中的超参数问题，以K近邻算法为例，介绍了超参数的概念及其重要性。讲解了如何通过实验搜索确定最佳的超参数值，如k值的选择，并介绍了距离权重的考虑和明可夫斯基距离的计算方法。同时，探讨了如何通过网格搜索策略来寻找最优的超参数组合。最后，强调了机器学习工程师在进行调参时需要考虑领域知识和经验数值的重要性。

2025-02-08 22:19:51 1709

原创【机器学习】训练数据集和测试数据集的划分及KNN准确率测试

本博文围绕机器学习算法性能评估方法展开，重点介绍了训练数据集与测试数据集的分离（train test split）的重要性。内容详细说明了为何不能直接将全部原始数据作为训练集投入生产环境，而是需要通过分割部分数据作为测试集来评估模型性能。讲解了如何进行数据乱序和比例分配，并介绍了使用sklearn库进行train test split的示例。此外，还提到了在进行模型选择时，通过测试数据集的反馈来改进算法的重要性。最后，通过一个简单的knn分类器实例展示了如何应用方法评估机器学习算法的性能。

2025-02-08 01:12:10 1316

原创【机器学习】scikit-learn调用KNN算法并手动模仿封装自己的KNN算法

本文详细介绍了scikit-learn库中机器学习算法的封装过程，特别是k近邻（knn）算法的实现与应用。视频从knn算法的基本原理出发，演示了如何将算法整理成函数，并通过断言确保输入数据的合法性。接着讲解了如何使用scikit-learn中的knn分类器进行预测，并说明了机器学习流程，包括数据训练和预测过程。此外，还讨论了如何自定义封装knn算法类，并进行了测试。视频强调了scikit-learn在机器学习算法封装上的统一性，并提示了在使用预测时需注意数据格式的问题。

2025-02-06 23:59:10 1262

原创【机器学习】K近邻算法的实现

k近邻（k-NN）算法，中文翻译为k进零算法，是机器学习中的经典算法。k-NN算法适用于初学者，因其思想简单、实现容易，且数学要求低。k-NN算法效果良好，实验中可见其有效性。

2025-02-06 00:28:06 934

原创【基于OpenEuler国产操作系统大数据实验环境搭建】

环境搭建，具体包括：Hadoop的分布式环境Spark分布式环境Zookeeper分布式环境HBase分布式环境Flume单机环境Hive单机环境Sqoop单机环境大数据组件的基本用法。

2024-12-11 09:34:27 3009 1

原创【openGauss 5.0.0】事务管理与锁示例

另外，针对窗口2而言，两次查询的结果是不一样的，也就证明了在窗口2当前事务中读取到了不一样的数据，也就是在窗口2事务中出现了【不可重复读】的现象。此时，假设我们在窗口1中也执行插入数据的操作，会产生什么效果呢？由此可以看到，针对窗口1中的事务，无论窗口2的事务提交与否，窗口1事务中读取到的仍然是事务开启前的状态。由此，在可重复读的隔离级别下，保证了窗口1事务不受到其他事务提交的影响。由此，可知，在事务隔离级别为【可重复读】下，openGauss数据库可通过设置表的约束，依然可以保证数据的一致性。

2024-11-05 11:30:37 1138 1

原创【鸿蒙HarmonyOS NEXT】数据存储之关系型数据库RDS

1. RDS关系型数据库简介关系型数据库（Relational Database，RDB）是一种基于关系模型来管理数据的数据库。关系型数据库基于SQLite组件提供了一套完整的对本地数据库进行管理的机制，对外提供了一系列的增、删、改、查等接口，也可以直接运行用户输入的SQL语句来满足复杂的场景需要。支持通过ResultSet.getSendableRow方法获取Sendable数据，进行跨线程传递。为保证插入并读取数据成功，建议一条数据不要超过2M。超出该大小，插入成功，读取失败。

2024-09-25 17:01:55 3101 4

Java编程基本技术.pdf

Java编程基本技术

2021-05-17

HDFS体系结构解析.pptx

HDFS体系结构解析

2021-05-17

电商日志weblogs_rebuild.txt

电商日志-用于测试和实验

2021-06-24

people.json

for spark sql test data

2021-10-14

users.parquet

spark sql test data

2021-10-14

employees.json

spark sql using test data source

2021-10-14

emp.json员工信息

2021-10-14

users.avro for spark sql testing

2021-10-14

TestDataForMR.rar

TestDataForMR

2021-05-17

linux目录树-tree-1.6.0-10.el7.x86_64.rpm

linux目录树-tree-1.6.0-10.el7.x86_64

2021-05-17

Hadoop应用案例.pptx

Hadoop应用案例

2021-05-17

SequenceFile.seq

SequenceFile文件格式

2021-05-25

Linux操作系统基础.ppt

Linux操作系统基础

2021-05-17

Hadoop pseudo-distributed environment (1).mp4

Hadoop分布式环境搭建教程一

2021-05-17

Hadoop pseudo-distributed environment (2).mp4

hadoop伪分布式视频教程二

2021-05-17

SSH password-free login principle.mp4

免密码登录原理教程

2021-05-17

NameNode职责.pptx

NameNode职责

2021-05-17

DataNode职责.pptx

DataNode职责

2021-05-17

SecondaryNameNode职责.pptx

SecondaryNameNode职责

2021-05-17

Kettle课程之作业与参数.pptx

Kettle课程之作业与参数

2021-05-17

机器学习+预测系统+用于机器实战学习、竞赛或者毕业设计参考案例

内容概要：本系统是一个基于Python3.11.9+机器学习算法+Celery异步队列调度模型的电力负荷预测系统实战案例，支持用户认证、电力数据管理、异步负荷预测任务调度及模型预测结果查询。系统通过整合Flask框架、Celery异步任务队列及机器学习模型，实现了高可用、可扩展的电力负荷预测服务。读者可以自行扩展成其他的预测系统，只需要将数据源修改即可改成自己的实战项目和毕业设计。适用范围：机器学习+预测系统+用于机器实战学习、竞赛或者毕业设计参考案例

2025-07-11

数据库+ToyDB ACID+Python+从零开发数据库，适用于学习开发数据库和深入数据库底层实现以及教学领域

内容概要：ToyDB是一个面向学习与研究的数据库项目，通过Python语言实现了基本的SQL操作、事务管理及崩溃恢复功能，严格遵循ACID特性。能学到什么：项目以“小而精”为设计理念，代码总量控制在2000行以内，模块分工明确，核心逻辑透明可追溯，为开发者提供了一个“可拆解、可调试、可验证”的数据库学习范例。适应范围：数据库+ToyDB ACID+Python+从零开发数据库，适用于学习开发数据库和深入数据库底层实现以及教学领域

2025-07-13