
统计学
文章平均质量分 90
主要介绍一些统计学的基础知识和日常操作等。
双木的木
种一棵树最好的时间是十年前,其次是现在。
展开
-
数据派THU | MOIRAI-MOE: 基于混合专家系统的大规模时间序列预测模型
作为早期时间序列基础模型之一,Salesforce 开发的 MOIRAI 凭借其出色的基准测试性能以及开源的大规模预训练数据集 LOTSA 在业界获得了广泛关注。本文在此前对 MOIRAI 架构原理的深入分析基础上,重点探讨其最新升级版本 MOIRAI-MOE。该版本通过引入混合专家模型(Mixture of Experts, MOE) 机制,在模型性能方面实现了显著提升。这一改进也与大语言模型模型采用的多专家机制形成了技术共鸣。原创 2025-03-16 21:18:37 · 1060 阅读 · 0 评论 -
菜鸟学Python | 四大经典算法之一:贪心算法思想
所谓贪心,就是一直追求最好的选择。由于算法执行时重点关注的区域是本层执行空间,即本层循环或作用域,所以贪心算法的侧重点也是本层执行空间。因为其他层空间的参数无法直接涉及,所以贪心算法就是在本层空间或者本次执行中追求最优的算法结果。所以,贪心思想追求的是局部最优,并且是每一步都追求局部最优。但是本次局部最优可能会对上一次的局部最优造成影响,因此贪心思想可能无法获取最优解。但是,这对一些无最优解的问题又是很适合的。原创 2025-01-16 17:48:23 · 835 阅读 · 0 评论 -
Coggle数据科学 | Kaggle赛题总结:CMI儿童网络成瘾预测
在当今数字化时代,儿童和青少年的问题性互联网使用日益成为一个关注点。更好地理解这一问题对于解决如抑郁和焦虑等心理健康问题至关重要。原创 2025-01-05 11:40:16 · 758 阅读 · 0 评论 -
kaggle竞赛宝典 | LLM解决时间序列问题——语言模型+时序模型的对齐与融合建模
直接基于预训练的大语言模型(LLM)解决时间序列问题,是一个最近的重要研究点。之前的研究中,主要尝试用LLM进行zero-shot learning,或者基于LLM的参数进行finetune。随着研究的深入,研究者发现,单独的一个LLM模型,或者单独的用LLM在时序数据上finetune,并不能取得最优的效果。因此除了上述优化之外,另一些工作尝试同时引入LLM构建文本模型和时序模型,并对两种模态的信息进行对齐,提升时序预测效果。原创 2024-12-26 19:41:36 · 1047 阅读 · 0 评论 -
一个数据人的自留地 | 用户复购行为,如何分析?
这么说吧,一家店要想活得长久,靠的就是回头客。稳定的客源是销量的保证,复购率差则像蓄水池蓄不住水,所有用户流一遍就走掉,无论获客拉新做得再好,业务上也很难挣着钱。原创 2024-12-20 02:30:00 · 1401 阅读 · 0 评论 -
Coggle数据科学 | 竞赛总结:科大讯飞2024 企业经营健康评估挑战赛 Top3
企业经营不善的话,会导致破产或倒闭,会对企业本身和全球经济产生负面影响。简而言之,对于许多相关金融机构来说,评估企业的健康是一项非常重要的任务。金融机构需要有效的预测模型,以便做出适当的贷款决定。原创 2024-12-10 17:47:34 · 748 阅读 · 0 评论 -
kaggle竞赛宝典 | 2024时序预测都有哪些经典工作——总结篇
在这一节里,会为大家整体介绍2024年的时间序列一些具有突破性进展的领域。后续章节将持续在知识星球中更新,深入解读和串联这些领域的相关工作。原创 2024-11-23 20:40:19 · 1168 阅读 · 0 评论 -
程序员学长 | 最强总结,机器学习中处理不平衡数据集的五种方法!!
不平衡数据集是指在分类任务中,不同类别的样本数量差异显著的数据集,通常表现为少数类样本远少于多数类样本。这样的数据集在现实生活中很常见,比如欺诈检测、医疗诊断、故障预测等场景。原创 2024-11-09 22:20:29 · 2498 阅读 · 0 评论 -
kaggle竞赛宝典 | 高维多变量下的Transformer时序预测建模方法
今天给大家介绍一篇CIKM 2024中的时间序列预测工作,这篇文章针对高维多变量时序预测问题,提出了一种基于Transformer的建模方法。原创 2024-11-08 17:07:58 · 674 阅读 · 0 评论 -
python | Python pandas实现数据追加和合并的最佳方法
在数据分析和处理的过程中,经常需要将新的数据追加到现有的数据集上,例如将新的记录添加到数据框(DataFrame)中或将多个数据集合并成一个更大的数据集。Python的pandas库提供了多种方式来高效地追加数据,不论是追加单行、合并多行数据,还是将不同的数据集组合在一起,都能轻松实现。原创 2024-11-07 17:31:37 · 1358 阅读 · 0 评论 -
一个数据人的自留地 | 如何提升用户画像标签质量及信任度?
用户画像标签的准确性和业务的信任度是用户画像标签建设和CDP(Customer Data Platform,客户数据平台)产品中的核心痛点,主要体现在下面几个方面。原创 2024-10-26 21:24:29 · 775 阅读 · 0 评论 -
Coggle数据科学 | CSIG挑战赛飞桨-工银瑞信赛道 baseline
股票市场是一个充满挑战与机遇的领域,其动态变化的特性要求投资者具备敏锐的洞察力和高效的决策能力。近年来,随着计算机视觉技术的飞速发展,其在金融领域的应用也逐渐受到广泛关注。原创 2024-10-24 05:15:00 · 1027 阅读 · 0 评论 -
戎易大数据 | 数据分析实操篇:基于MySQL和Tableau的淘宝用户购物行为数据分析
为提高平台GMV和实现精细化运营,本项目首先使用MySQL(实际上是用Navicat Premium连接了MySQL,方便数据导入)对来自某电商的数据集进行数据预处理,然后通过多维度拆解,从用户和商品两个大的角度分别进行分析,最后借助Tableau搭建仪表盘实现数据可视化。原创 2024-09-23 20:47:30 · 1707 阅读 · 0 评论 -
机器学习算法与Python实战 | 概率、统计学在机器学习中应用:20个Python示例(建议收藏!)
在数据科学和机器学习领域,概率论和统计学扮演着至关重要的角色。Python作为一种强大而灵活的编程语言,提供了丰富的库和工具来实现这些概念。本文将通过20个Python实例,展示如何在实际应用中运用概率论和统计学知识。原创 2024-09-17 08:55:18 · 926 阅读 · 0 评论 -
机器学习算法那些事 | 这是我见过最通俗易懂的SVD(奇异值分解)算法介绍
线性代数是机器学习领域的基础,其中一个最重要的概念是奇异值分解(SVD),本文尽可能简洁的介绍SVD(奇异值分解)算法的基础理解,以及它在现实世界中的应用。原创 2024-08-24 21:07:29 · 1363 阅读 · 0 评论 -
Coggle数据科学 | Kaggle 知识点:时序模型 Prophet
Prophet使用了可分解的时间序列模型,模型包含三个主要组件:趋势、季节性和假日。它们通过以下方程组合在一起:是趋势函数,用于模拟时间序列值的非周期性变化表示周期性变化(例如每周和每年的季节性变化)表示假日效应,这些假日在一个或多个不规则时间安排的日子内发生误差项表示模型未能捕捉的变化Prophet如果你有假期或其他重复出现的事件需要建模,必须为它们创建一个数据框。数据框包含两列(holiday 和 ds),每行对应一次假期的发生。原创 2024-07-25 19:49:53 · 915 阅读 · 0 评论 -
kaggle竞赛宝典 | 时序表示学习的综述!
本文综述了时间序列数据中的通用表示学习方法,提出了一种新颖的分类方法,并讨论了其对提高学习表示质量的影响。文章全面回顾了各种神经网络架构、学习目标和数据相关技术,并总结了常用的实验设置和数据集。原创 2024-07-23 21:04:14 · 1055 阅读 · 0 评论 -
DataFunTalk | 数据在零售供应链领域的应用
本次分享题目为数据在零售供应链领域的应用。原创 2024-07-19 17:47:19 · 1652 阅读 · 0 评论 -
python | bashplotlib,一个有趣的Python库!
Bashplotlib 库是一个功能强大且易于使用的命令行数据可视化工具,能够帮助开发者在无图形界面的环境中快速绘制简单的图表。通过支持命令行图表绘制、轻量级、支持多种图表类型、可定制和快速展示,Bashplotlib 提供了强大的功能和灵活的扩展能力。本文详细介绍了 Bashplotlib 库的安装方法、主要特性、基本和高级功能,以及实际应用场景。希望本文能帮助大家全面掌握 Bashplotlib 库的使用,并在实际项目中发挥其优势。原创 2024-07-16 17:56:31 · 747 阅读 · 0 评论 -
程序员学长 | 快速学会一个算法,xLSTM
今天给大家分享一个超强的算法模型,,xLSTM。xLSTM(Extended Long Short-Term)是对传统 LSTM(Long Short-Term Memory)模型的扩展和改进,旨在提升其在处理时间序列数据和序列预测任务中的性能。传统的 LSTM 模型通过引入遗忘门、输入门和输出门,解决了标准 RNN(Recurrent Neural Network)在长序列数据中存在的梯度消失和梯度爆炸问题。然而,LSTM 仍然存在一些局限性,尤其是在处理非常长的序列或需要更高维度特征提取时。原创 2024-07-07 19:58:42 · 1323 阅读 · 0 评论 -
Python数据科学 | Python 离群点检测算法 -- GMM
星星在天空中聚集或分散,呈现出自然的分布。在统计学中,K-均值法是一种著名的聚类技术,可以识别出不同的聚类。而高斯混合模型(GMM)则提供了另一种视角,假设星星可能遵循多个不同的高斯分布。与 K-均值法相比,GMM 更具灵活性,因为 K-均值法只是 GMM 的一种特例。原创 2024-05-10 17:24:31 · 1370 阅读 · 0 评论 -
机器学习算法与Python实战 | 多项式朴素贝叶斯分类器(Python代码)
多项分布是一种重要的概率分布,适用于描述多类别、多次试验的情况,是概率论和统计学中的基础之一。它表示实验可以有N个不同的输出,重复M次。可以把它看作投掷硬币的二项分布的概括,就像反复计算掷骰子的每面一样。多项式朴素贝叶斯分类器的总体思想与高斯朴素贝叶斯分类器非常相似,只是在拟合和预测计算上有所不同。为了学习每个类别的多项概率参数,可以简单地将训练集沿特征求和,并将结果除以该向量的和。这提供了对概率的估计。使用一个平滑的技巧可以处理在训练中未出现的特征。原创 2024-04-18 21:47:06 · 1967 阅读 · 0 评论 -
机器学习算法那些事 | 使用Transformer模型进行时间序列预测实战
时间序列预测是一个经久不衰的主题,受自然语言处理领域的成功启发,transformer模型也在时间序列预测有了很大的发展。本文可以作为学习使用Transformer 模型的时间序列预测的一个起点。原创 2024-03-24 13:52:39 · 8313 阅读 · 3 评论 -
kaggle竞赛宝典 | 两大Kaggle时序金牌级强特
今天介绍在时间序列中非常强势的两个特征,这些特征在一些序列问题分类以及回归问题中起到非常大的作用,在非常多的问题中都展现了极好的效果。原创 2024-03-24 13:29:15 · 402 阅读 · 0 评论 -
机器学习算法与Python实战 | 常见统计概率分布实现(内含python代码)
在平时的科研中,我们经常使用统计概率的相关知识来帮助我们进行城市研究。因此,掌握一定的统计概率相关知识非常有必要。本文涉及的概念包括:随机变量(Random Variable)密度函数(Density Functions)伯努利分布(Bernoulli Distribution)二项式分布(Binomial Distribution)均匀分布(Uniform Distribution)泊松分布(Poisson Distribution)正态分布(Normal Distribution)原创 2024-02-16 21:58:51 · 1076 阅读 · 0 评论