
机器学习(ML)
文章平均质量分 94
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
Sonhhxg_柒
Save your heart for someone who cares. #愿岁月清净 抬头遇见皆是柔情#
展开
-
【ML】使DBSCAN 变得简单 & 如何使用 Scikit-Learn 进行 Python 教程
HDBSCAN 是“带有噪声的基于分层密度的空间聚类应用程序”的缩写,是原始 DBSCAN 算法的扩展,为基于密度的聚类添加了分层方法。它结合了层次聚类方法和基于密度的聚类方法的优点。DBSCAN(基于密度的噪声应用空间聚类)是一种流行的聚类算法,以查找任意形状的聚类及其在处理噪声方面的鲁棒性而闻名。包括 DBSCAN 在内的聚类算法为揭示数据中隐藏的结构和关系提供了宝贵的工具,这可以带来更深入的见解和更好的决策。请记住,算法的选择取决于数据集的大小、所需的聚类形状、噪声的存在以及数据的性质等因素。原创 2023-09-01 13:43:37 · 1935 阅读 · 0 评论 -
【ML】AdaBoost:实用介绍及如何使用 Python 进行分类和回归
无论您是寻求更高的准确性、对噪声的鲁棒性,还是更好地理解特征重要性,AdaBoost 的自适应增强原理都可以成为您的机器学习工具箱中的宝贵资产。尽管如此,请始终记住,任何算法的成功都取决于深思熟虑的预处理、仔细的超参数调整以及对您要解决的问题的清晰理解。AdaBoost 特别注重通过在数据的不同子集上顺序训练弱学习器(比随机猜测稍好的单个模型)的性能,并为错误分类的样本赋予更多权重。AdaBoost 背后的想法是,通过顺序关注先前弱学习器错误分类的样本,算法适应数据的特征并提高其整体预测能力。原创 2023-08-23 13:31:39 · 2575 阅读 · 0 评论 -
【ML】Dropout:增强鲁棒性和泛化性
过度拟合的产生是由于神经网络固有的复杂性,神经网络具有学习训练数据中复杂关系的能力,包括噪声和异常值。Dropout 的集成学习性质丰富了模型捕获数据中不同模式和关系的能力,最终提高了训练和测试数据的性能。通过在单个网络中引入受控随机性和集成学习,dropout 解决了过度拟合的挑战,并有助于创建更强大和可靠的模型。在这里,我们将探讨在神经网络中使用 dropout 的一些困难,并提供有效解决这些复杂问题的见解。这些挑战提醒我们,在将 dropout 纳入我们的模型时,深思熟虑的实验和适应的重要性。原创 2023-08-22 16:57:59 · 674 阅读 · 1 评论 -
【NLP】生成式人工智能简介
例如,OpenAI 开发的 GPT-3 等语言模型可以在大量文本数据上进行训练,然后用于生成不同语言的新的、连贯的且语法正确的文本(无论是在输入还是输出方面) ,以及从文本中提取相关特征,例如关键字、主题或完整摘要。在这样的技术背后,你可以认识到我们迄今为止在其他领域提到的许多模型——提示的语言理解、图像生成和图像生成的运动,以及人工智能作曲家制作的背景音乐。此功能有几个有趣的业务应用程序,例如生成用于训练计算机视觉模型的合成数据集、生成逼真的产品图像以及为虚拟现实和增强现实应用程序生成逼真的图像。原创 2023-08-17 10:12:58 · 1680 阅读 · 0 评论 -
了解元学习——如何利用更少的数据提高效率
未来拥有令人兴奋的可能性,包括能够适应不断变化的环境并从日益有限的数据中学习的更强大的模型。元学习,或者说学会学习,是一种机器学习方法,专注于改进学习过程,而不仅仅是学习特定的任务或问题。元学习旨在开发算法或技术,使模型能够根据学习多个相关任务的先前经验,以最少的数据和计算快速适应和学习新任务。通过关注学习过程,元学习技术使模型能够从有限的数据中学习并快速适应新任务,展现出卓越的泛化能力。元学习范式中的多种技术包括模型无关元学习 (MAML)、基于度量的元学习和记忆增强神经网络等。有哪些不同的元学习技术?原创 2023-08-17 08:50:13 · 704 阅读 · 1 评论 -
【ML】结构化数据和非结构化数据的区别以及如何将非结构化数据转换为结构化数据
与以特定格式(例如表或数据库)组织的结构化数据不同,非结构化数据缺乏一致的结构或预定义的模式。然而,经过充分分析,它也可以提供有价值的见解,因为它将非结构化数据的灵活性与某些结构化数据组织结合起来。结构化数据以特定格式组织,例如表格或电子表格,而非结构化数据没有特定的形式或结构。结构化数据和非结构化数据之间的主要区别在于,结构化数据可以使用计算机算法轻松组织和分析。总体而言,结构化数据对于组织来说是宝贵的资源,因为它提供了可靠且一致的信息源,可用于制定数据驱动的决策。原创 2023-08-08 10:50:25 · 6389 阅读 · 0 评论 -
【ML】L1 和 L2 正则化解释、何时使用它们以及实际示例
最常用的正则化技术是 L1 正则化 (Lasso)、L2 正则化 (Ridge) 和弹性网络正则化。在实践中,L1 和 L2 正则化的组合(称为弹性网络正则化)通常用于利用这两种技术的优势,并在稀疏性和权重收缩之间找到平衡。请注意,这是从头开始的 L2 正则化的基本实现。因此,正则化技术和正则化参数的选择必须根据具体问题和数据集仔细选择和调整,以在模型性能的偏差和方差之间取得适当的平衡。值得注意的是,L1 和 L2 正则化之间的选择并不总是明确的,可能需要使用不同的正则化技术对模型的性能进行实验和评估。原创 2023-07-31 10:35:52 · 8938 阅读 · 2 评论 -
【ML】少样本学习解释和分步如何使用
通过利用无监督或自监督的预训练,模型可以学习有用的表示,从而有助于泛化到具有有限标记数据的新任务或类。元学习涉及在多个相关任务上训练模型,以快速适应新的、类似的任务,而仅需要几个标记的示例。总体而言,小样本学习为标记数据稀缺、新任务或类频繁出现或需要适应新环境的场景提供了宝贵的学习工具。通过遵循这些步骤,少样本学习技术使模型能够从有限的标记数据中进行泛化,并在新的、未见过的任务或类上表现良好。模型可以通过利用用户的历史行为和用户对新项目或类别的偏好的一些标记示例来学习做出准确的推荐。原创 2023-07-18 08:38:22 · 942 阅读 · 1 评论 -
【ML】前 9 个最受欢迎的激活函数以及何时使用它们
这有助于防止数值上溢或下溢。然而,近年来,ReLU 及其变体的受欢迎程度有所增加,主要是因为它们的简单性和在深度学习模型中的更好性能。值得注意的是,尽管神经网络的各个层可能使用线性激活函数,但堆叠多个线性层不会将模型的表示能力提高到超过单个线性层的表示能力。值得注意的是,与 ReLU 和其他更简单的激活函数相比,由于指数函数,ELU 引入了额外的计算复杂性。然而,改进的性能和减轻的限制使其成为流行的选择,尤其是在深度学习架构中。线性激活函数,也称为恒等函数,是神经网络中使用的最简单的激活函数之一。原创 2023-07-19 08:48:45 · 397 阅读 · 0 评论 -
【ML】机器学习中的随机森林算法
在数据分析领域,每种算法都有其价格。但如果我们考虑整体场景,那么业务问题最多有一个分类任务。考虑到数据的性质,直观地知道要采用什么变得相当困难。随机森林在金融、医疗保健、营销等领域具有多种应用。它们广泛用于欺诈检测、客户流失预测、图像分类和股票市场预测等任务。但今天我们将讨论最受数据专家信赖的顶级分类器技术之一,那就是随机森林分类器。随机森林还有一种回归算法技术,将在此处介绍。术语中的“森林”一词表明它将包含很多树木。原创 2023-06-30 16:07:13 · 826 阅读 · 0 评论 -
【MLOps】第 11 章 : MLOps 实践:消费预测
退一步看,很明显不同的行业有各种各样的机器学习用例,所有这些用例在定义问题、构建模型、推动生产方面都有自己的复杂性——我们在本节中介绍的所有内容书。传输距离越远,传输的能量量越大,所使用的电压就越高:在低端,几十公里,几十兆瓦,需要几十千伏;许多算法不考虑其指标的平滑性,因为它们依赖于数据独立且同分布的假设,在我们的例子中,这是不正确的,因为给定一天的消耗通常与前一天和当天的消耗相关。由于网格在不断演变,很可能会出现新的注入和提取,而没有可用的历史数据,并且消费模式会发生断裂,因此过去的数据不再相关。原创 2023-06-29 16:17:13 · 263 阅读 · 0 评论 -
【MLOps】第 10 章 : MLOps 实践:营销推荐引擎
假设有多个模型版本可用。例如,饮料行业的客户A的推荐引擎可能会始终给出好的产品建议,而电信行业的客户B的推荐引擎可能很少提供好的建议。请注意,出于各种原因,这些算法可能会与更经典的业务规则相结合——例如,避免过滤气泡、不在给定地理区域销售产品,或阻止使用具有统计意义但使用起来不道德的特定关联(例如,向正在康复的酗酒者提议喝酒)。如果客户端 A 的数据集有 100 列,而客户端 B 有 50 列,或者客户端 A 的“购买商品数量”列是整数,而客户端 B 的同一列是字符串,则它们需要经过不同的预处理管道。原创 2023-06-29 16:16:48 · 341 阅读 · 0 评论 -
【MLOps】第 9 章 : MLOps 实践:消费者信用风险管理
因此,它们可以成为其他领域 MLOps 最佳实践的来源,尽管需要进行调整,因为一方面的稳健性和成本效率、价值实现时间以及(重要的)另一方面的团队挫败感之间的权衡可能在其他业务中有所不同。通常,预测模型直接产生的概率并不准确。通过不加注意地对先前模型版本选择的人群训练模型版本,数据科学家将使模型无法准确预测被拒绝的人群,因为它没有出现在训练数据集中,而这正是预期的该模型。例如,如果发生经济衰退或商业政策发生变化,申请人群很可能会发生变化,以至于在没有进一步验证的情况下无法保证模型的性能。原创 2023-06-27 12:52:34 · 210 阅读 · 0 评论 -
【MLOps】第 8 章 : 模型治理
法规是开始寻找的地方,但正如已经讨论过的,意见不是普遍的,也不是固定的。当对女性学校有偏见的招聘系统的开发者调整模型以忽略像“女性”这样的词时,他们发现即使是简历中的语言语气也反映了作者的性别,并对女性造成了不必要的偏见。在不太担心风险或监管合规性的举措中,更轻、更便宜的措施可能是合适的。例如,用于确定不同类型的机上餐食数量的“假设”计算影响相对较小,毕竟,即使在引入机器学习之前,这种组合也从来都不是正确的。相比之下,负责管理风险的人员和管理部署的 DevOps 团队会认为,全面严格的治理应该是强制性的。原创 2023-06-27 12:52:19 · 332 阅读 · 0 评论 -
【MLOps】第 7 章 : 监控和反馈循环
这可以通过检查指标估计不再波动或通过进行适当的统计测试(因为大多数指标是行分数的平均值,最常见的测试是配对样本 T 测试)来以图形方式评估,它产生的概率观察到一个指标高于另一个指标是由于这些随机波动。在调查结果时,我们发现新的模式正在出现。因此,在一个数据集上学到的东西(“如果残留糖分低且 pH 值高,那么葡萄酒好酒的概率就高”)在另一个数据集上可能是错误的,因为,例如,当酒精含量高时,糖就不再重要了。在许多生产环境中,这是一项具有挑战性的任务,因为这两条信息是在不同的系统中以不同的时间戳生成和存储的。原创 2023-06-24 18:55:51 · 434 阅读 · 0 评论 -
【MLOps】第 6 章 : 部署到生产环境
这可能会保护模型免受尚未遇到的新情况的影响,但最重要的是,这可以保护模型免受系统查询故障或对抗性示例的影响(如“机器学习安全”中所述。在深入研究 CI/CD 如何应用于机器学习工作流之前,必须牢记这些概念应该是服务于快速交付质量的工具,第一步始终是识别组织中存在的特定风险. 换句话说,一如既往,CI/CD 方法应该根据团队的需求和业务的性质进行调整。此外,随着模型数量的增加,每个模型的 CI/CD 管道可能会有很大差异,如果不采取任何措施,每个团队将不得不为每个模型开发自己的 CI/CD 管道。原创 2023-06-22 23:56:59 · 301 阅读 · 0 评论 -
【MLOps】第 5 章 : 生产准备
也就是说,即使拥有有效的监控系统和重新训练模型的程序,补救所需的时间也可能是一个关键威胁,特别是如果简单地根据新数据重新训练模型是不够的,并且必须开发新模型的话。这并没有改变理解机器学习模型(即使是相对简单的模型)需要适当培训的事实,但根据应用程序的重要性,更广泛的受众可能需要能够理解模型的细节。但是,当这是不可能的时候(例如,如果数据集太大或者丰富数据需要始终是最新的),生产环境应该访问数据库,从而具有通信所需的适当的网络连接、库或驱动程序安装了数据存储,并且身份验证凭据以某种形式的生产配置存储。原创 2023-06-22 23:56:39 · 214 阅读 · 0 评论 -
【MLOps】第 4 章 : 开发模型
在二元分类问题中,正类(即,由于其预测会触发动作而值得预测的类)很少见,例如出现次数为 5%,因此,不断预测负类的模型的准确度为 95%,而也完全没用。该模型的输入数据可能是房屋固有的东西,如表面积、卧室和浴室的数量、建造年份、位置等,但也可能是其他更多背景信息,如销售时房地产市场的状况,卖家是否着急等等。再次强调,目标比例可能是申请人的比例,也可能是一般人群的比例,尽管前者的可能性更大,同样,组织无法对其无法控制的流程中的偏差负责。然而,由于不同的待遇,它仍可能被认为是歧视性的。原创 2023-06-21 11:39:45 · 194 阅读 · 0 评论 -
【MLOps】第 3 章 : MLOps 的关键特性
需要多长时间重新训练模型取决于现实世界变化的速度以及模型需要的准确性,但重要的是,还取决于构建和部署更好模型的难易程度。这种情况需要数据科学家的直接发明,他们需要了解漂移的原因,并找出如何调整现有的训练数据以更准确地反映最新的输入数据。例如,所需的透明度将强烈影响算法的选择,并可能推动提供解释和预测的需求,以便预测在业务层面转化为有价值的决策。商业实践受到更广泛的立法的影响,以保护社会的弱势群体,并确保在性别、种族、年龄或宗教等标准上的公平竞争环境。在可能的情况下,应该自动监控这些,但这很少是微不足道的。原创 2023-06-21 11:41:33 · 243 阅读 · 0 评论 -
【MLOps】第 2 章 : MLOps中的人
这一点最终很重要,不仅可以确保 ML 模型的最佳结果(良好的结果通常会导致对基于 ML 的系统的更多信任以及增加构建更多的预算),而且,也许更有针对性地保护业务免受概述的风险。从业务角度来看,这意味着该模型不起作用,这是需要返回给构建 ML 模型的人员的重要信息,以便他们能够找到另一种可能的解决方案,例如引入提升模型来帮助营销更好地定位目标可能接受营销信息的潜在流失者。最终,尽管组织的角色略有不同,但数据工程师在生命周期中的角色是优化数据的检索和使用,以最终为机器学习模型提供支持。原创 2023-06-21 11:39:21 · 196 阅读 · 0 评论 -
【MLOps】第 1 章 : 为什么选择它以及现在面临的挑战
它们不仅是在企业层面有效扩展数据科学和机器学习的基本任务,而且还以不让业务面临风险的方式进行。尝试在没有适当 MLOps 实践的情况下部署数据科学的团队将面临模型质量和连续性问题,或者更糟糕的是,他们将引入对业务产生真正负面影响的模型原创 2023-06-21 11:41:06 · 238 阅读 · 0 评论 -
【ML】分类与聚类算法
它的工作假设是一个特征的存在不依赖于其他特征的存在。聚类是无监督学习算法的一个例子,与回归和分类相反,它们都是监督学习算法的例子。在理想情况下,属于某个集群的数据点必须具有相似的特征,而属于其他集群的数据点必须尽可能彼此不同。基于密度的聚类,如 DBSCAN,使用这种策略,但它考虑了更多的因素。K-means 聚类 : 它首先建立一组固定的 k 段,然后使用距离度量来计算将每个数据项与各个段的聚类中心分开的距离。分类方法用于将标签分配给作为将可用数据分类为预定数量的类别的结果而生成的每个类别。原创 2023-06-27 12:52:51 · 263 阅读 · 1 评论 -
【ML】第 1 章:文本机器学习简介
然而,令人惊讶的是,智人是唯一开发这种用于交换信息的复杂媒介的物种,这导致了人类最引人注目的成就。根据该领域的先驱 Andrew Ng 的说法,人工智能是新的电力,有可能将人类从大量的脑力劳动中解放出来,就像工业革命将许多人从体力劳动中解放出来一样。最后,在推理阶段,经过训练的模型用于对看不见的数据进行预测,希望这应该是正确的。该方法的用途是双重的——首先,从样本中删除冗余信息,从而提高学习任务的性能,其次,帮助在 1D、2D 或 3D 中可视化样本,以提供更好的直觉开始分析之前的数据。原创 2023-06-14 14:41:30 · 380 阅读 · 0 评论 -
【ML】2023 年面向初学者的十大机器学习项目
这是工作中的机器学习。为了练习此类项目,新手机器学习工程师使用一个数据集,其中包含通过配备惯性传感器的移动设备收集的少数人(越多越好)的健身活动记录,然后学习者可以建立分类模型来准确预测未来的活动。有抱负的机器学习从业者寻找他们可以在简历中加入的体面的机器学习项目。是一个非常有名的数据集,也是最古老和最简单的机器学习项目之一,适合初学者学习。幸运的是,有一个初学者级别的机器学习项目可以让程序员创建一种算法,该算法采用通过自然语言处理器运行的抓取的推文来确定哪些更有可能匹配特定主题、谈论某些人等等。原创 2023-06-12 16:49:14 · 609 阅读 · 0 评论 -
【ML】介绍 PandasAI:生成式 AI Python 库
请记住,在使用 PandasAI 时,始终从了解您的数据开始,利用其自动清理和插补功能,并探索其强大的特征工程和可视化功能。正如我亲身经历的那样,这就是我要做的——我相信它将把你的数据分析技能提升到一个新的高度,并开启一个充满可能性的世界。因此,无论您处理的是 GB 还是 TB 的数据,PandasAI 都能满足您的需求。凭借其先进的算法和自动化功能,PandasAI 可以轻松处理海量数据集,减少执行复杂数据操作所需的时间和精力。拥抱 PandasAI 的力量,让您的数据分析技能飙升到新的高度。原创 2023-06-10 22:18:01 · 788 阅读 · 0 评论 -
【ML】了解 LightGBM 参数(以及如何调整)
我已经使用一段时间了。这是我解决大多数结构化数据问题的首选算法。列表很长,如果您还没有,我建议您看一下。但我一直很想了解哪些参数对性能影响最大,以及我应该如何调整 lightGBM 参数以充分利用它。我想我应该做一些研究,更多地了解 lightGBM 参数……并分享我的旅程。具体我:深入研究查看了自己做了一些实验在这样做的过程中,我获得了更多关于 lightGBM 参数的知识。原创 2023-03-17 16:30:17 · 5017 阅读 · 0 评论 -
【DL】2023年你应该知道的 10 大深度学习算法
它们是训练有素的神经网络,可将数据从输入层复制到输出层。它们具有相同数量的输入和输出层,但可能有多个隐藏层,可用于构建语音识别、图像识别和机器翻译软件。无论您是初学者还是专业人士,这三大深度学习算法都将帮助您解决与深度学习相关的复杂问题:CNN 或卷积神经网络、LSTM 或长短期记忆网络和 RNN 或递归神经网络 (RNN)。是的,CNN 是一种深度学习算法,负责以网格模式的形式处理受动物视觉皮层启发的图像。深度学习算法几乎可以处理任何类型的数据,并且需要大量的计算能力和信息来解决复杂的问题。原创 2023-02-23 21:52:38 · 15769 阅读 · 4 评论 -
【ML】什么是 XGBoost 和 LightGBM?
GOSS 将对它们进行随机抽样,并用一个常数值对它们进行加权,这样,在关注大梯度点的同时,大部分保留了原始数据分布。由于 XGBoost 使用的拆分方法——需要在拆分之前对数据进行预排序和装箱——它的内存效率不是很高,而且大型数据集可能会导致内存不足的问题。在构建和评分集成方面,LightGBM 的工作方式与 XGBoost 类似——迭代构建决策树,计算它们的梯度,然后将新树拟合到这些梯度以最小化它们。这个过程是迭代的,通常受用户定义的要构建的树的数量限制。这两种方法都是寻找分裂的方法,即分裂数据的决策。原创 2023-02-22 22:07:32 · 470 阅读 · 4 评论 -
【ML】XGBoost 算法:愿它统治万岁!
XGBoost是一种基于决策树的集成机器学习算法,它使用梯度提升框架。在涉及非结构化数据(图像、文本等)的预测问题中,人工神经网络往往优于所有其他算法或框架。然而,当涉及到中小型结构化/表格数据时,基于决策树的算法目前被认为是同类最佳的。请参阅下表,了解多年来基于树的算法的演变。XGBoost 算法从决策树演化XGBoost 算法是作为华盛顿大学的一个研究项目开发的。Tianqi Chen 和 Carlos Guestrin。原创 2023-02-22 21:35:12 · 407 阅读 · 4 评论 -
【ML】现实生活中的十大机器学习示例(让世界变得更美好)
使用地图和路线的平台中的机器学习通过 ML 算法计算出交通较少的最快路线、到达时间、上车地点和到达目的地的最佳路线,确保准时。在进入 python 中的机器学习示例或我们突出显示的机器学习现实生活示例之前,让我们通过示例看一下四种关键的机器学习类型。使用适当的表情符号、Facebook 上有关朋友标签的建议、Instagram 上的过滤、社交媒体平台上的内容推荐和推荐关注者等,都是机器学习如何帮助我们进行社交网络的示例。农业中的机器学习能够以更少的人力实现精确高效的农业生产,从而实现高质量生产。原创 2023-02-07 21:55:27 · 6729 阅读 · 15 评论 -
【ML】机器学习模型的 10 个评估指标
当我们得到一个混淆矩阵,它为概率模型中的每个指标产生不同的值时,即,当每次召回(灵敏度)时,我们得到不同的精度(特异性)值——我们可以绘制接受者操作特征(ROC)曲线和找到曲线下的区域,如下所示。它是通过对错误分类的数据点的预测概率分布的对数求和来计算的。简单来说,它是一个用于二元分类的 2×2 大小的矩阵,一个轴由实际值组成,另一个轴由预测值组成。现在我们知道分类问题的准确率和召回率是什么,同时计算两者——F1,两者的调和平均值,它在不平衡数据集上也表现良好。召回率是模型正确预测的一类样本的分数。原创 2022-12-27 15:00:37 · 2248 阅读 · 32 评论 -
【ML】机器学习中的十大深度学习算法
假设您正在尝试预测句子中的最后一个词“太阳从东方升起”,我们不需要任何进一步的上下文,显然下一个词将是东方。我说一口流利的印地语”。在 CNN 中,数据处理涉及将图像分成许多重叠的图块,而不是将整个图像输入我们的网络。然后,我们在整个原始图像上使用一种称为滑动窗口的技术,并将结果保存为单独的小图片块。滑动窗口是一种蛮力解决方案,我们扫描周围的给定图像以检测所有可能部分的对象,一次每个部分,直到我们得到预期的对象。每个节点都连接到下一层的每个节点,因此信息在多个层之间不断前馈,这就是它被称为前馈网络的原因。原创 2022-12-21 16:23:20 · 3521 阅读 · 12 评论 -
【关于时间序列的ML】项目 10 :用机器学习预测降雨
这里要提到的一点是:我们本可以将 F1-Score 视为判断模型性能而不是准确性的更好指标,但我们已经将不平衡数据集转换为平衡数据集,因此将准确性视为决定最佳模型的指标在这种情况下是合理的。为了做出更好的决定,我们选择了“Cohen's Kappa”,这实际上是一个理想的选择,作为在数据集不平衡的情况下决定最佳模型的指标。最后,我们将检查不同变量之间的相关性,如果我们发现一对高度相关的变量,我们将丢弃一个而保留另一个。因此,我们不会完全拒绝它们,而是会在我们的模型中考虑它们并进行适当的归因。原创 2022-12-25 14:10:39 · 2340 阅读 · 27 评论 -
【关于时间序列的ML】项目 9 :机器学习中的 ARIMA 模型
在选择合适的时间序列预测模型的同时,我们需要将数据可视化,以分析趋势、季节性和周期性。当季节性是时间序列的一个非常强的特征时,我们需要考虑一个模型,例如季节性 ARIMA (SARIMA)。在本文中,我将通过机器学习中一个非常实用的示例(异常检测)向您展示如何使用 ARIMA 模型。上面的输出显示了我们的 ARIMA 预测模型的样本内(训练集)。在这里,我将向您解释我们如何使用 ARIMA 模型进行异常检测。在机器学习中,ARIMA 模型通常是一类统计模型,它给出的输出与随机因素组合中的先前值线性相关。原创 2022-12-24 10:51:10 · 3088 阅读 · 34 评论 -
【关于时间序列的ML】项目 8 :使用 Facebook Prophet 模型预测股票价格
在本文中,我将带您了解 Facebook Prophet 模型在 Google 股票价格预测中的应用。如果你掌握了预测股票价格的艺术,你可以通过在合适的时间投资和卖出来赚取很多,你甚至可以通过指导其他想要探索交易的人来赚取收益。要使用 Facebook Prophet 模型预测股票价格,您必须安装一个名为 fbprophet 的包,可以使用 pip 命令轻松安装。如果你想在我拿过的同一个数据集上练习这个任务,那么你可以。如果你在阅读本文时想在最新的数据集上进行练习,那么你可以从。原创 2022-12-23 13:33:00 · 2513 阅读 · 18 评论 -
【关于时间序列的ML】项目 7 :使用机器学习进行每日出生预测
在本文中,我将使用 Facebook 提供的算法,俗称 Facebook Prophet 模型。我将使用 Facebook Prophet 模型通过机器学习进行每日出生预测。我将在此处使用的数据是机器学习从业者中非常著名的数据集,称为加州每日女性出生率。 在开始使用机器学习进行每日出生预测任务之前,让我介绍一下 Facebook Prophet 模型,因为我将在本文中使用 Facebook Prophet 模型。Facebook Prophet 是 Facebook 核心数据科学团队开发的一种算法。它用于时原创 2022-12-23 13:32:40 · 2100 阅读 · 21 评论 -
【关于时间序列的ML】项目 6 :机器学习中使用 LSTM 的时间序列
其次,一些函数的行为并不相同(例如,tf.trans pose() 创建一个张量的转置副本,而 NumPy 的 T 属性创建一个转置视图,而不实际复制任何数据)。过度拟合的可能解决方案是获取更多数据、简化模型(选择更简单的算法、减少使用的参数或特征的数量,或正则化模型)或减少数据中的噪声。如果将 Perceptron 的激活函数更改为逻辑激活(如果有多个神经元,则更改为 softmax 激活),并且如果使用梯度下降(或其他一些最小化成本函数的优化算法,通常是交叉熵)对其进行训练,则它等同于逻辑回归分类器。原创 2022-12-22 13:45:49 · 2399 阅读 · 17 评论 -
【关于时间序列的ML】项目 5 :用机器学习预测天气
在我们可以对我们的机器学习模型做出和评估任何预测以预测天气之前,我们需要建立一个基线,一个我们希望用我们的模型击败的合理指标。在将我们的 wrangle 函数调用到我们的 global_temp 数据帧之后,我们现在可以看到我们的 global_temp 数据帧的一个新的清理版本,没有缺失值。数据准备的具体步骤将取决于所使用的模型和收集的数据,但需要进行一定数量的数据处理。首先,我们需要一些数据,我用来通过机器学习预测天气的数据是从世界上最负盛名的研究型大学之一创建的,我们将假设数据集中的数据是真实的。翻译 2022-12-22 13:46:06 · 5648 阅读 · 27 评论 -
【关于时间序列的ML】项目 4 :使用机器学习预测迁移
让我们看看数据是什么样的:我想请您注意“Measure”、“Country”和“CitizenShip”列。我希望您喜欢这篇基于如何预测国家间人类迁移的简单现实世界任务的文章。我希望您喜欢这篇关于使用机器学习预测迁移的文章。请随时在下面的评论部分提出您宝贵的问题。在本文中,我将带您完成机器学习任务的真实世界任务,以预测国家之间的人类迁移。人类迁徙是人类流动的一种,其中一次旅行涉及一个人移动以改变他们的住所。我在此任务中用于预测迁移的数据集可以从。将数据拆分为训练集和测试集。使用机器学习预测迁移。原创 2022-12-21 10:08:03 · 2068 阅读 · 14 评论 -
【关于时间序列的ML】项目 3 :基于机器学习的地震预测模型
在此,我们将给定的日期和时间转换为以秒为单位的 Unix 时间和数字。所以我们可以在上面的输出中看到我们用于地震预测的神经网络模型表现良好。这里的输入是时间戳、纬度和经度,输出是幅度和深度。现在,要创建地震预测模型,我们需要将数据分为 Xs 和 ys,分别作为输入输入到模型中,以接收模型的输出。因此,根据以前的数据预测地震的日期和时间、纬度和经度并不是像其他事情那样遵循的趋势,它是自然发生的。随着技术使用的增加,许多地震监测站增加了,因此我们可以使用机器学习和其他数据驱动的方法来预测地震。原创 2022-12-21 10:08:19 · 5473 阅读 · 26 评论