自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(96)
  • 收藏
  • 关注

原创 数据化管理(一)---什么是数据化管理

数据化管理是企业在数字化时代提升运营效率和决策科学性的关键手段。第一章围绕数据化管理的概念、作用及核心价值展开,强调数据在企业管理中的重要性。通过标准化数据采集、清洗、存储与分析,企业能够实现精准决策,提高资源配置效率,并提升市场竞争力。本章还介绍了数据驱动管理的基本框架,以及如何从传统管理模式向数据化管理模式转型,为后续章节奠定基础。

2025-03-29 22:10:30 1016

原创 A/B测试入门指南

A/B 测试是一种对比实验方法,通过随机将用户分配到不同方案组,分析其效果差异,以优化产品和运营决策。它广泛应用于网站优化、广告投放、产品功能测试等场景。基本流程包括:确定目标、制定假设、设计实验、运行测试、数据分析和实施优化。A/B 测试能减少主观决策,提高用户转化率和业务增长,是数据驱动决策的重要工具。

2025-03-20 19:38:43 719

原创 常见业务分析模型

业务分析模型是解读数据、指导决策的重要工具,涵盖多种方法:对比分析法通过横向或纵向比较揭示差异;漏斗分析法追踪用户行为路径,识别转化瓶颈;矩阵分析法用于分类评估,如波士顿矩阵;公式分析法量化关键指标关系;多维度拆解法从时间、地域、用户等角度细分问题。综合运用这些方法,可全面洞察业务表现,精准定位问题,优化运营策略,提升企业竞争力。

2025-03-19 06:59:18 1002

原创 数据库的高阶知识

数据库高阶知识涵盖了复杂查询、数据分析和优化技术,主要包括 CASE WHEN 条件表达式、嵌套查询 和 开窗函数 等内容。这些功能能够显著提升 SQL 查询的灵活性和效率,适用于复杂的数据分析和业务逻辑实现。

2025-03-16 23:50:16 916 1

原创 数据库的基本知识

数据库是用于存储和管理数据的系统,常见类型包括关系型数据库(如MySQL、PostgreSQL)和非关系型数据库(如MongoDB)。在SQL中,数据表的创建使用 CREATE TABLE 语句,插入数据用 INSERT INTO,查询数据常用 SELECT。数据查询涉及七个重要关键词:SELECT(查询)、FROM(指定表)、WHERE(筛选条件)、GROUP BY(分组)、HAVING(筛选分组)、ORDER BY(排序)和 JOIN(连接表)。

2025-03-15 18:08:59 1022

原创 浅谈数据分析及数据思维

数据分析是挖掘数据价值、驱动决策优化的重要工具,而数据分析思维则是高效分析和解读数据的核心能力。本博客将探讨数据分析的本质、常见工具及其在实际应用中的价值,同时深入解析如何培养数据分析思维,助力读者提升数据驱动决策能力,让数据真正成为业务增长与创新的引擎。

2025-03-14 19:28:48 1588

原创 DeepSeek:从入门到精通

本文围绕deepseek展开,阐述其相关概念,介绍推理模型与通用模型。深入剖析两者特点与应用,探讨它们在相关领域的重要作用,旨在让读者对deepseek及这两种模型有更清晰认知,把握其核心要点与应用价值。

2025-02-26 18:05:23 672

原创 动手学深度学习---深层神经网络

深层神经网络(DNN)是一种由多层神经元构成的人工神经网络,广泛应用于计算机视觉、自然语言处理等领域。相比浅层网络,DNN 通过增加隐藏层提升模型的特征提取能力,从而更好地学习复杂的非线性关系。关键技术包括反向传播、梯度下降优化以及正则化方法,以提高模型的训练效果并防止过拟合。

2025-02-11 16:34:30 972

原创 基于VARMAX模型的多变量时序数据预测

VARMAX是一种用于多变量时间序列分析的统计建模方法,可同时捕捉多个时间序列变量之间的动态关联和随机扰动。本文介绍了 VARMAX 模型的基本原理,包括 VAR(向量自回归)和 MA(移动平均)成分的作用,并使用 Python statsmodels 库对经济数据进行建模和预测。通过实验分析,不同阶数的 VARMAX 模型在多变量预测中的表现,并探讨参数选择、模型优化及其在金融、电力负荷等领域的应用。

2025-02-08 11:24:50 751

原创 基于机器学习时序库pmdarima实现时序预测

本文章介绍了如何使用 Pmdarima 库实现单变量时间序列预测,重点涵盖了 ARIMA 模型的自动参数选择(auto_arima)、模型训练、滚动交叉验证(Rolling Forecast CV)以及未来趋势预测。文中详细解析了数据预处理、模型拟合、预测评估等关键步骤,并对滚动交叉验证与滑窗交叉验证的区别进行了对比分析。通过实际案例,展示如何优化模型性能并避免常见错误,最终实现对时间序列的精准预测,为电力负荷、金融市场等应用场景提供参考。

2025-02-07 16:33:02 1289

原创 【Kaggle】电信用户流失预测分析

本研究针对电信用户流失问题,构建逻辑回归和决策树模型进行预测分析。通过数据清洗与特征工程提取关键变量,逻辑回归模型用于量化各特征对流失的影响,决策树模型则直观呈现流失规律。结果表明,模型能够较准确地识别潜在流失用户,为电信企业提供精细化管理和个性化服务支持。

2025-01-15 17:52:44 784

原创 Scikit-Learn快速入门

Scikit-learn 是一个强大的 Python 库,广泛用于数据挖掘和机器学习任务。它提供了丰富的算法和工具,支持分类、回归、聚类、降维等常见机器学习任务。通过简洁的一致性 API,用户可以轻松实现数据预处理、模型训练、评估和优化等流程。Scikit-learn 还支持多种模型评估方法、数据集生成工具,并可与其他科学计算库(如 NumPy 和 pandas)无缝结合,是机器学习入门和快速原型开发的理想选择。

2025-01-12 14:26:00 2409

原创 notebook主目录及pip镜像源修改

本文介绍了如何修改Jupyter Notebook的默认主目录以自定义文件存储位置,并提供了更换pip镜像源的方法,以解决下载速度慢的问题,提升使用效率。

2025-01-10 23:57:13 905

原创 优化算法---粒子群算法

粒子群优化算法(PSO)是一种基于群体智能的全局优化算法,模拟鸟群觅食行为,通过粒子在解空间中的迭代更新,实现最优解搜索。该算法具有计算简单、易于实现、收敛速度快等特点,广泛应用于函数优化、神经网络训练、路径规划等领域。本文介绍了PSO的基本原理、求解过程及改进方法,并探讨其在复杂优化问题中的应用与优势。

2025-01-08 18:24:58 1860

原创 优化算法---蚁群算法

蚁群算法(Ant Colony Optimization, ACO)是一种模拟自然界蚂蚁觅食行为的优化算法,广泛应用于解决组合优化问题。通过信息素的传递与挥发,蚂蚁在解空间中探索并寻找最优解。该算法具有全局搜索能力和较强的适应性,能有效处理TSP、排程、路径规划等问题。通过不断迭代更新信息素,蚁群能够渐进式地优化解,逐步收敛至全局最优或近似最优解。

2025-01-07 18:33:10 2359

原创 优化算法---遗传算法

遗传算法(Genetic Algorithm, GA)是一种模拟自然选择和遗传机制的优化算法,广泛应用于求解复杂的优化问题。通过模拟生物的进化过程,GA利用选择、交叉、突变等操作在解空间中进行全局搜索。该算法不依赖于问题的具体性质,具有较强的全局搜索能力,能够处理非线性、多峰值以及高维度问题。遗传算法通过适应度函数评估个体质量,逐代优化,最终收敛于全局最优解。

2025-01-06 18:37:12 1913

原创 基于LightGBM的集成学习算法

LightGBM(Light Gradient Boosting Machine)是一种高效的梯度提升树算法,旨在解决大规模数据集的训练问题。与传统的梯度提升算法不同,LightGBM采用基于直方图的决策树学习和叶子生长策略,在提高训练速度的同时降低内存消耗。它支持类别特征的直接处理,避免了高维稀疏特征的问题,且能够在分布式计算环境中高效运行。由于其优化的计算方式,LightGBM在大数据处理和实时训练中表现优越,广泛应用于机器学习和数据挖掘领域。

2025-01-05 21:08:25 964 1

原创 基于XGBoost的集成学习算法

本文探讨了基于XGBoost算法的集成学习方法,详细介绍了其原理、优势及实现过程。文章还结合实际案例,展示了XGBoost在时间序列、回归任务中的应用,为数据科学领域提供了高效的预测工具和优化策略。

2025-01-03 18:14:23 1007 4

原创 长时间序列预测算法---Informer

Informer是一种针对长序列时间序列预测任务的高效深度学习算法。它通过引入自适应稀疏注意力机制和采样策略,克服了传统自注意力机制计算开销大和长期依赖建模困难的问题。Informer的核心创新在于使用了ProbSparse自注意力机制,以减少计算复杂度并提升预测精度。实验结果表明,Informer在多个长序列预测任务上超越了现有的时间序列预测模型,尤其在处理长序列时展现出显著的性能优势。

2025-01-02 17:38:15 2546

原创 时间序列预测算法---LSTM

文章目录一、前言1.1、深度学习时间序列一般是几维数据?每个维度的名字是什么?通常代表什么含义?1.2、为什么机器学习/深度学习算法无法处理时间序列数据?1.3、RNN(循环神经网络)处理时间序列数据的思路?1.4、RNN存在哪些问题?二、LSTM的基本架构2.1 记忆细胞2.2 遗忘门2.3 输入门2.4 输出门三、应用案例3.1 TensorFlow版3.2 PyTorch版3.2.1 LSTM的输入参数3.2.2 LSTM的三个输出3.2.3 LSTM进行时间序列预测的基本流程3.2.4 案例四、拓展

2024-12-29 08:00:00 3011 2

原创 时间序列异常值处理方法

时间序列数据中的异常值处理是数据清洗中的重要环节,影响着模型的准确性和稳定性。常见的异常值检测方法包括统计法(如标准差法、IQR法)、基于模型的检测法(如ARIMA、SVR)以及机器学习方法(如孤立森林、DBSCAN)。处理异常值的方法包括替换法(均值填充、插值法)、删除法以及修正法(平滑处理、趋势修正)。针对不同类型的异常,选择合适的处理方法有助于提高数据质量和预测模型的表现。

2024-12-21 10:33:19 1026

原创 时间序列异常值检测方法

本博客将介绍几种常用的时间序列异常值处理方法,包括基于统计学的传统方法,如Z-score、IQR(四分位距)法,以及基于机器学习的更先进技术,如孤立森林(Isolation Forest)。我们将详细探讨这些方法的优缺点,应用场景及其在实际项目中的适用性。此外,本博客还会结合代码示例,演示如何使用Python处理时间序列中的异常值,

2024-12-20 18:39:01 1140 3

原创 动手学深度学习---多层感知机

本章介绍了多层感知机(MLP)的基本概念及其在深度学习中的应用。通过引入隐藏层和非线性激活函数,MLP 能有效解决线性模型无法处理的复杂问题。文中详细讲解了模型参数初始化、前向传播、激活函数、损失函数及反向传播的原理,并通过 PyTorch 框架实现了 MLP 的训练和测试,展示了其在分类任务中的性能。

2024-12-13 13:11:22 626

原创 动手学深度学习---实战Kaggle比赛:预测房价

本文介绍了如何通过实战Kaggle比赛来预测房价,主要步骤包括数据预处理、特征工程、模型选择与训练以及模型评估。首先,对数据进行清洗与缺失值处理,提取并转换数值和类别特征。然后,使用PyTorch构建多层感知机模型进行训练,通过均方误差(MSE)优化模型。最后,调参、交叉验证并生成预测结果提交至Kaggle平台。通过本实战,读者可以系统地学习深度学习在回归任务中的应用与实践技能。

2024-12-12 13:15:41 1031

原创 动手学深度学习---线性神经网络

本文介绍了深度学习中的线性神经网络,包括线性回归和Softmax回归模型。通过线性回归,模型学习输入特征与输出目标之间的线性关系,适用于回归任务;而Softmax回归则用于多分类任务,通过将输出转化为概率分布进行分类。文章通过实现这些模型,讲解了损失函数、梯度下降和优化算法等核心概念,帮助读者理解神经网络在实际问题中的应用和训练过程。

2024-12-10 20:03:04 868

原创 动手学深度学习---预备知识

本文介绍了深度学习中的预备知识,重点涵盖了数据操作和数据预处理的重要性。在深度学习任务中,数据的清洗、归一化、特征工程等预处理步骤是提升模型性能的关键。文章还阐述了自动微分的概念,它使得神经网络训练中梯度计算变得高效和自动化,极大地简化了反向传播过程。通过理解数据处理和自动微分的原理,读者可以更好地为深度学习模型的构建和优化做准备。

2024-12-08 21:18:49 984

原创 机器学习算法(八)---朴素贝叶斯

朴素贝叶斯算法是一种基于贝叶斯定理的监督学习方法,广泛用于分类问题。该算法假设特征之间条件独立,通过计算每个类别的后验概率,选择具有最高概率的类别作为预测结果。朴素贝叶斯算法简单高效,特别适用于文本分类、垃圾邮件过滤等任务。其优势在于计算速度快、对小样本数据表现良好,但由于特征独立性假设过于简单,可能无法很好地处理特征之间存在强依赖关系的复杂问题。尽管如此,朴素贝叶斯在许多实际应用中仍具有较高的准确性。

2024-12-05 10:25:17 912

原创 异常点检测

异常点检测算法用于识别数据集中与大多数数据显著不同的异常数据点。常见的方法包括基于统计的Z-score、基于距离的K近邻(KNN)和基于密度的DBSCAN等。Z-score通过计算每个数据点与均值的差异来检测异常,KNN通过度量样本间的距离来识别离群点,而DBSCAN基于数据点的密度进行聚类,从而发现稀疏区域的异常点。异常点检测在欺诈检测、故障诊断、网络安全等领域有广泛应用,能够帮助发现潜在风险和异常行为。

2024-12-01 15:40:43 946 1

原创 机器学习算法(六)---逻辑回归

逻辑斯蒂回归(Logistic Regression)是一种经典的分类算法,用于解决二分类或多分类问题。它通过逻辑函数(如Sigmoid函数)将线性回归的输出映射到0到1之间,表示预测属于某一类别的概率。逻辑斯蒂回归通过最大化似然函数估计模型参数,具有简单高效、易于解释的优点,广泛应用于金融、医疗等领域。尽管适用于线性可分的数据,其性能可能在非线性问题中受限,此时可结合特征扩展或核方法提升效果。

2024-12-01 00:07:51 1708

原创 大模型微调

大语言模型(LLM)因其在自然语言处理任务中的卓越表现,成为了当前研究的热点。然而,这些模型通常规模庞大,参数数量多,微调时需要大量的计算资源。为了解决这一问题,本文提出了使用 LoRA(Low-Rank Adaptation) 和 QLoRA(Quantized Low-Rank Adaptation) 进行轻量化微调的方法。

2024-11-17 17:57:41 1282

原创 神经网络与Transformer详解

Transformers是近年来在自然语言处理和计算机视觉领域取得巨大成功的一类模型。其核心思想是自注意力机制(self-attention),能够捕捉长距离依赖关系,显著提高模型的表达能力。Transformers在多个任务中展现了卓越性能,推动了深度学习的发展。

2024-11-15 18:36:11 1137

原创 LlamaIndex

LlamaIndex(是一个开源框架,用于帮助构建基于语言模型的搜索引擎。它通过索引和组织大量数据,提供高效的文档检索和查询响应,支持多种数据源,如文本、数据库和API。

2024-11-14 20:25:21 951

原创 LangChain

LangChain 是一个开源的框架,旨在帮助开发者创建复杂的应用程序,特别是涉及语言模型(如 GPT 系列)的应用。它为开发者提供了一系列工具和模块,简化了构建、管理和扩展语言模型驱动的应用程序的过程。LangChain 的核心目标是让开发者能够通过轻松集成各种自然语言处理(NLP)组件,创建更加智能和复杂的工作流。

2024-11-13 21:30:22 1004

原创 Prompt Engineering 提示工程

本文概述了Prompt工程的核心概念,重点讨论了提示词的设计、类型及其对模型表现的影响,分析了提示词优化方法。

2024-11-11 20:42:01 1152

原创 python代码打包exe文件(可执行文件)

本文介绍了如何使用Python将代码打包成可执行文件(exe)。通过详细步骤,读者将了解使用PyInstaller等工具实现打包,解决常见问题,并学习如何配置打包选项,以确保生成的exe文件可以在无Python环境的计算机上运行。

2024-11-10 19:56:36 676

原创 python文字识别---基于百度api

文字识别(OCR)技术通过算法将图像中的文本转化为可编辑的文本数据。该技术广泛应用于文档数字化、自动化数据录入、车牌识别等领域。随着深度学习的发展,文字识别精度显著提高,能够识别多种字体、手写文本和复杂背景中的文字。

2024-11-05 17:23:46 513

原创 基于向量检索的RAG大模型

本文探讨了大模型中向量检索的关键技术与应用,分析了向量数据库的构建、检索算法的优化,以及在自然语言处理和计算机视觉等领域的实际应用。通过示例,展示了向量检索在提升信息检索效率中的重要性。

2024-11-03 22:08:15 893

原创 有季节效应的非平稳序列分析

本文针对具有季节效应的非平稳序列进行分析,运用时间序列方法探讨季节性波动对序列特性的影响。研究发现,季节性因素显著影响序列的平稳性,需采用季节性调整和差分处理以消除其影响。文章为季节性非平稳序列的建模与预测提供了理论依据,对实际应用具有重要的指导意义。

2024-11-03 15:22:27 1437

原创 时间序列预测算法---ARIMA

本文探讨了ARIMA(自回归积分滑动平均模型)在时间序列预测中的应用。通过分析序列的平稳性、自相关性和偏自相关性,构建了合适的ARIMA模型。研究结果表明,ARIMA模型能有效捕捉时间序列的动态特征,提高预测精度,为各类时间序列数据分析提供了有力工具。

2024-11-01 21:22:06 3078

原创 时间序列分类任务---tsfresh

本文介绍了tsfresh库在时间序列分类任务中的应用。通过tsfresh提取时间序列的丰富特征,结合机器学习算法实现高效分类。实验表明,tsfresh显著提升了分类性能,为时间序列数据分析提供了便捷的特征提取与分类解决方案。

2024-10-30 19:53:55 1412

数据库的基本知识数据集

数据库的基本知识数据集

2025-03-24

数据库的高阶知识数据集

数据库的高阶知识数据集

2025-03-24

A/B测试实战python实现代码

A/B测试实战python实现代码

2025-03-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除