- 博客(17)
- 资源 (4)
- 收藏
- 关注
原创 什么是时间序列?业务分析师的介绍
在 Python 中,用于时间序列分析的主要数据结构是“pandas.Series”对象,它是一个一维标记数组,可以处理时间序列数据固有的日期/时间索引。一旦我们对时间序列的组成部分和特征有了充分的了解,我们就可以开始开发模型来描述数据并预测未来值。选择的具体建模方法将取决于时间序列的特征、分析的目的以及所需的准确性和复杂性。这对于许多标准时间序列建模技术来说可能是有问题的,因为它们通常假设数据是平稳的。一旦数据采用这种时间序列格式,我们就可以开始分析数据的组成部分和特征,例如趋势、季节性和平稳性。
2024-11-28 08:53:28
989
原创 构建 LLM (大型语言模型)应用程序——从入门到精通(第七部分:开源 RAG)
可以使用提示自定义 Ollama 库中的模型。例如,要自定义。
2024-11-28 08:51:05
1279
原创 营销中的数据科学:使用 Python 进行倾向建模
由此我们可以看出,我们所有的变量都是布尔值,这意味着我们需要执行最少的特征工程。但是,倾向模型可用于预测各种客户行为,例如,我们可以使用倾向模型来预测客户流失、特定产品或优惠的转化率,甚至客户投诉的可能性。下面的代码将我在本教程的其余部分中使用的数据集保存到您的主目录中的文件夹中。我们不需要它来进行建模,所以我们可以删除它,但我们以后可能会需要它,所以让我们先将用户 ID 保存为一个系列,然后删除该列。在本系列的后续文章中,我将介绍营销中的一系列营销数据科学技术,包括提升模型、RFM 分析和营销组合模型。
2024-11-27 08:43:59
860
原创 神经网络的数学——一个完整的例子
我们想应用梯度下降来获得权重 w₇ 的新值。但本质上,要找到更新权重的值,首先计算权重输出神经元的增量,然后从增量中减去旧权重,乘以增量,再乘以权重输入神经元的先前值。现在,由于我们之前已经计算了 δ₀₁ 和 δ₀₂(参见本文输出层部分所做的计算),我们可以将这些增量的值代入方程中。找到一种方法来优化隐藏层权重具有更大的推导量——本节中的任何内容都与计算无关,因此如果需要,可以随意跳过此部分。∂sₕ₁ / ∂w₁ 的值是前一层神经元的输出(在本例中,由于只有一个隐藏层,所以是输入层神经元)。
2024-11-27 08:40:26
3542
1
原创 数据驱动客户获取的完整指南
一旦公司在营销渠道、活动、创意、信息等方面找到吸引每个客户群体的方法,他们就准备在客户获取计划中推出个性化。通过分析,该品牌发现,情人节的目标客户中只有一小部分与母亲节的目标客户重叠。由于 iOS 隐私保护方面的变更,在没有唯一用户标识符的情况下,将用户旅程中的不同接触点关联起来变得越来越困难。借助客户细分提供的详细信息,公司可以确定每个客户群最具吸引力的活动、购物体验和产品,并分析它们为何具有吸引力。正因为如此,当公司开始关注时,他们只需削减无效营销计划的预算,就能获得巨大的增长机会。
2024-11-27 08:39:37
996
原创 决策树和梯度提升的视觉理解
决策树是一种非参数监督学习算法,可用于分类和回归。它使用树状结构来表示决策及其潜在结果。决策树易于理解和解释,并且易于可视化。但是,当决策树模型变得过于复杂时,它无法很好地从训练数据中概括出来,从而导致过度拟合。梯度提升是一种集成学习模型,我们将许多弱学习器组合起来以开发强学习器。弱学习器是单独的决策树,每个学习器都试图关注先前学习器的错误。与单个深度决策树相比,梯度提升通常不太容易过度拟合。本文将直观地解释分类和回归问题中决策树背后的直觉。我们将了解该模型的工作原理以及它为什么会导致过
2024-11-26 15:23:54
1268
原创 营销中的因果机器学习
在会议进行过程中,一位营销经理仍然很好奇,想知道如果数据科学家对获得折扣的公司和未获得折扣的公司销售额进行简单、朴素的均值比较,而不控制任何混杂变量,估计效果会是什么。如果我们试图通过比较享受折扣的公司和未享受折扣的公司的平均销售额来确定折扣对销售额的影响,我们将得到错误的结果。因此,为了评估活动的有效性,团队最初考虑比较获得折扣的客户公司和未获得折扣的客户公司的平均销售额。他们解释说,简单地比较获得折扣的公司和未获得折扣的公司之间的销售额可能会得出错误的结论。出于保密原因,案例研究中使用的数据是模拟的。
2024-11-26 15:20:28
640
原创 如何使用任何监督学习模型预测时间序列数据(含代码及数据集)——将时间序列数据转化为经典 ML 模型的标准表格格式,并使用 AutoML 提高准确性
接下来,我们演示如何将这个问题重新定义为一个标准的多类分类问题,我们可以将任何机器学习模型应用于该问题,并展示如何通过使用强大的监督 ML 获得卓越的预测。样本外准确率相当低,仅为 43%。下面我们可以看到 AutoML 平台中的模型评估估计,展示了所有自动拟合和评估的不同类型的 ML 模型(包括多个梯度提升模型),以及通过最佳组合它们的预测构建的集成预测器。对于我们的 PJM 每日能源消耗数据,我们发现,将数据转换为表格格式并对其进行特征化,与使用我们的 Prophet 预测模型建立的基线准确度相比。
2024-10-22 15:07:17
1040
原创 组合优化的强化学习
自人类诞生之初,即数百万年前,每一项技术创新和每一项改善我们生活和我们在地球上生存和繁衍能力的发明,都是由聪明的人类的聪明才智设计的。从火到轮子,从电到量子力学,我们对世界和周围事物的复杂性的理解已经增加到我们常常难以直观掌握的程度。如今,飞机、汽车、轮船、卫星、复杂结构等许多领域的设计者都严重依赖算法来改进它们,而算法往往以人类无法实现的微妙方式来改进。除了设计之外,优化在网络路由(互联网和移动)、物流、广告、社交网络甚至医学等日常事务中也发挥着至关重要的作用。
2024-10-18 17:26:45
961
原创 构建 LLM (大型语言模型)应用程序——从入门到精通(第五部分:搜索与检索)
通过检索增强生成 (RAG) 应用程序的视角学习大型语言模型 (LLM)。
2024-10-15 11:46:41
1360
原创 构建 LLM (大型语言模型)应用程序——从入门到精通(第四部分:矢量数据库)
Eps 代表 epsilon,这是一个用户定义的输入,表示集群中要考虑的两个点之间的最大距离,而 minPts 是指形成集群所需的最小数据点数。当收到查询点时,算法会遍历森林中的每棵树,以找到该点所属的叶节点。矢量数据库中算法的选择取决于任务的具体要求,包括数据集的大小和维数、可用的计算资源以及准确度和效率之间可接受的权衡。因此,准确度可能受到森林中树木的数量和搜索期间检查的点数的影响,这两者都可以根据任务的具体要求进行调整。码本中的代表性向量越多,子空间中向量的表征就越准确,但搜索码本的计算成本就越高。
2024-10-15 11:06:49
532
原创 构建 LLM (大型语言模型)应用程序——从入门到精通(第三部分:句子转换器)
通过检索增强生成 (RAG) 应用程序的视角学习大型语言模型 (LLM)。
2024-10-15 10:42:01
932
原创 构建 LLM (大型语言模型)应用程序——从入门到精通(第二部分:数据准备)
在应用领域,游戏规则的改变在于你如何塑造你的数据——无论是 Markdown、PDF 还是其他文本文件。想象一下:你有一份厚重的 PDF,你急于提出有关其内容的问题。问题是什么?将整个文档和你的问题扔给模型的传统方法失败了。为什么?好吧,让我们谈谈模型上下文窗口的局限性。进入 GPT-3.5 及其同类。将上下文窗口想象成文档的一瞥,通常仅限于一页或几页。现在,一次共享整个文档?不太现实。但不要害怕!诀窍在于对数据进行分块。将其分解为易于理解的部分,仅将最相关的部分发送给模型。
2024-10-15 10:13:23
727
原创 构建 LLM (大型语言模型)应用程序——从入门到精通(第一部分:简介)
通过检索增强生成 (RAG) 应用程序的视角学习大型语言模型 (LLM)。本系列博文简介(本帖)数据准备句子转换器矢量数据库搜索与检索大语言模型开源 RAG评估服务LLM高级 RAG。
2024-10-15 09:41:14
405
原创 决策树回归详解讲解(含代码及图片讲解,适用于初学者)
决策树是一种使用树状结构预测数值的模型。它根据关键特征对数据进行拆分,从根问题开始并向外分支。每个节点询问一个特征,进一步划分数据,直到到达具有最终预测的叶节点。要获得结果,您需要遵循从根到叶的与数据特征相匹配的路径。图1 回归决策树通过遵循一系列数据驱动的问题来预测数值结果,并缩小到最终值。
2024-10-15 09:04:06
2276
3
原创 多类型的LSTM 模型进行时间序列预测(Python实现)——适用于初学者,含代码
单变量 LSTM 模型长短期记忆网络(简称LSTM)可应用于时间序列预测。有许多类型的 LSTM 模型可用于每种特定类型的时间序列预测问题。在本教程中,您将了解如何为一系列标准时间序列预测问题开发一套 LSTM 模型。本教程的目标是为每种时间序列问题的每个模型提供独立示例,作为您可以复制和调整的模板,以适应您的特定时间序列预测问题。完成本教程后,您将了解:如何开发用于单变量时间序列预测的 LSTM 模型。如何开发用于多元时间序列预测的 LSTM 模型。
2024-09-29 13:24:39
1153
1
评估高等教育中数学学习的数据集(论文+数据集)
2024-11-29
如何使用任何监督学习模型预测时间序列数据(含数据集和完整代码)-将时间序列数据转化为经典 ML 模型的标准表格格式,并使用 A
2024-10-22
智能停车车项目:停车位检测
2024-10-18
电子商务微服务架构(JAVA)
2024-10-18
Rwf‐Rust Web 框架
2024-10-18
用于处理 NMR、MALDI MSI、MALDI 单细胞、拉曼光谱、LC-MS 和 GC-MS 原始数据、化学信息学数据分析和数
2024-10-18
KeyAuth 加载器菜单(C#)
2024-10-18
CEF4Delphi : Salvador Díaz Fau 创建的开源项目
2024-10-18
使用 Hotwire在Ruby on Rails中创建动态依赖表单字段的示例项目
2024-10-18
一个 3D 涡流建模系统(Fortran语言)
2024-10-18
撰写导航器(Kotlin语言项目)
2024-10-18
SwiftUI/Swift 项目,学习如何以原生方式开发 iOS 应用程序
2024-10-18
一个完整且功能齐全的编译器开发项目
2024-10-18
心脏起搏器计划(Matlab语言)
2024-10-18
Oracle 数据库数据仓库设计 ETL 流程和业务分析查询设计
2024-10-18
采用 Cypress 的 OrangeHRM 自动化
2024-10-18
用于记录波特兰监狱数据库变化的抓取工具
2024-10-18
YOLOs-CPP:单个 c++ 头文件和高性能应用程序
2024-10-18
PIETOOLS工具箱( MATLAB)
2024-10-18
Android版俄罗斯方块游戏(使用Android Studio构建)
2024-10-18
机器人路径规划使用遗传算法
2024-10-18
基于LabVIEW中的NI-DAQmx的数字IO控制
2024-10-17
UE5中的电影卡通渲染的终极解决方案(最新版MooaToon)
2024-10-17
FPGA实验用DE10-Standard开发板引脚表
2024-10-17
蓝桥杯竞赛-算法竞赛技巧、常用数据结构、蓝桥杯题解
2024-10-17
一个练习记忆密码的脚本
2024-10-17
采用多系统单片机进行数字日历时钟电路的仿真设计
2024-10-17
水下机器人3D路径跟踪模拟(matlab simulink仿真)
2024-10-17
注意力机制初学者代码学习
2024-10-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人