
机器学习
文章平均质量分 90
欢迎来到我们的机器学习专栏!在这里,我们将深入探讨机器学习的前沿技术、应用案例和行业趋势。无论你是初学者还是经验丰富的专业人士,我们都为你准备了易懂、实用的内容,涵盖从基础概念到高级算法的全方位指南。跟随我们的专栏,掌握最新的模型架构、数据处理技巧和实战经验,助你在机器学习领域取得成功。
新华
从事核电安全级仪控系统软件研发,目前正在研发安全级嵌入式实时操作系统......
展开
-
深度学习与机器学习:有什么区别?
正如所讨论的,深度学习是通过深度神经网络实现的。如今每个人都在谈论人工智能,以及在人工智能的帮助下实现人类任务的自动化。人工智能是一个巨大的领域,机器学习和深度学习都是其中的一部分。是机器学习的子领域,它使用“人工神经网络”(人类神经元网络的模拟)像我们的大脑一样做出决策使用神经元做出决定。在本文中,您了解了人工智能及其两种最流行的技术,即机器学习和深度学习。您已经了解了这两个术语的确切含义,以及导致深度学习发展的 ML 的局限性。现在,预测的准确性取决于您提供的用于训练模型(又称训练数据)的数据的质量。原创 2023-12-17 07:48:18 · 75 阅读 · 0 评论 -
项目:Twitter 情绪分析
Twitter 因其大量实时、用户生成的内容而成为情绪分析的重要工具。分析推文及其相关元数据使我们能够获得有关公众看法的宝贵见解并做出数据驱动的决策。情绪分析对于了解消费者情绪和做出数据驱动的决策至关重要。通过分析社交媒体、评论和调查等各种来源的文本数据,企业可以获得有关公众对其产品、品牌和行业的看法的宝贵见解。Twitter 是一个中心社交平台,每天会生成大量文本数据,各种推文不断涌现,帮助我们分析全球人们围绕多元化主题的观点。(NLP) 的应用,我们可以预测给定文本的情感或情绪。为什么情绪分析很重要?原创 2023-12-17 07:42:16 · 288 阅读 · 0 评论 -
项目:BBC新闻分类项目
它由停用词、重复出现的词、标点符号、不一致等组成,这将使我们的模型拟合不足/过度。为了检查我们的机器学习模型在实际数据上是否表现良好,我们将获取 BBC 网站上提供的一些实时数据,看看它们属于什么类别。随机森林模型建立的前提是,不同的不相关模型(决策树)组合使用时的性能明显优于单独使用时的性能。使用 NLP 技术清理和预处理数据集后,我们将使用随机森林和 SVM 等机器学习算法将每个标题分类到各自的类别。似乎是一项艰巨的任务。现在我们已经完成了使用可视化生成见解,让我们继续清理和预处理我们的数据集。原创 2023-12-17 07:33:55 · 250 阅读 · 0 评论 -
项目:使用 MovieLens 的推荐系统
然而,它容易受到“冷启动”的影响。我们正在构建一个电影推荐系统,该系统接收用户和电影 ID,并为每个用户生成可能的电影偏好。如果用户将恐怖和惊悚电影作为他的类型,则协同过滤可以基于偏好犯罪和恐怖的其他用户的偏好向该用户推荐一些喜剧电影。这种方法帮助模型学习用户之间的联系/相似性,以便它可以根据用户的选择、偏好或品味生成最佳推荐选项。最终输出将是一个表,其中包含用户的 id、电影的 id 以及模型为用户推荐的相应电影名称。内容过滤需要用户和项目的配置文件,以便系统可以根据用户和项目的共同属性来确定推荐。原创 2023-12-17 07:28:37 · 178 阅读 · 0 评论 -
项目:机器学习中的客户流失预测项目
为了有效留住客户,电信企业需要能够分析客户流失情况。然而,留住现有客户比获得新客户的成本更高。因此,我们尝试使用客户流失预测项目来预测客户的保留率。原创 2023-12-17 07:20:00 · 135 阅读 · 0 评论 -
项目:波士顿房价预测
它是一个树形结构的分类器,其中内部节点代表数据集的特征,分支代表决策,每个叶节点代表分类结果。此外,该项目可以开发用于任何城市的实时应用程序,帮助开发商、房地产经纪人和买家预测房产价值。在波士顿房价预测项目中,我们正在构建一个预测模型,以根据提供的参数评估房屋的价格。这里的目标是建立一个模型,可以根据犯罪率、房产年龄、空气质量等参数来预测房产价格。在这个项目中,我们将使用线性回归、随机森林和决策树分类器并比较模型的准确性。下面给出的是应用于数据集的每个模型的得分。,满足以下先决条件将是有益的 -原创 2023-12-17 07:08:46 · 144 阅读 · 0 评论 -
项目:泰坦尼克号数据集项目
我们都熟悉泰坦尼克号,这艘不沉的船,它于 1912 年进行了第一次也是最后一次航行。尽管泰坦尼克号是为了不沉没而设计的,但没有足够的救生艇供每个人使用。根据泰坦尼克号乘客整理的数据集,例如他们的年龄、阶级、性别等来预测他们是否会幸存。虽然生存有一定的运气成分,但似乎某些群体比其他群体更有可能生存。它通过 3 个 CSV 文件预先分发 - 训练、测试和性别。根据随机乘客的年龄、性别、机舱、票价等等。首先我们将数据可视化,然后根据我们的需求调整参数值。由此产生的输出将是逻辑回归和随机森林准确性的预测度量。原创 2023-12-17 06:56:16 · 102 阅读 · 0 评论 -
项目:IRIS数据集项目
“萼片宽度,” “花瓣长度,”和“花瓣宽度”。然后,我们将评估和测试模型,看看它是否能对数据做出准确的预测。那么让我们开始我们的 IRIS 数据集项目吧。当模型预测结果时,我们的最终输出将如下所示。我们的输入将包括四个参数:萼片长度、萼片宽度、花瓣长度和花瓣宽度。让我们可视化数据集,看看是否可以找到此 IRIS 数据集项目中的类之间的任何相关性。我们将通过加载数据集开始 IRIS 数据集项目,该数据集位于。这些是我们将用于此 IRIS 数据集项目的一些库和模块。现在让我们将目标值与特征分开,如下所示。原创 2023-12-16 21:45:19 · 63 阅读 · 0 评论 -
杂项:机器学习平台
概述机器学习学科正在快速扩展。因此,选择合适的机器学习平台至关重要,这有助于利用端到端方法成功构建模型。机器学习平台为用户提供了创建、实施和增强机器学习(尤其是机器学习算法)的工具。介绍随着组织收集更多数据,使用机器学习和其他人工智能 (AI)技术将数据转化为见解的必要性,推动商业决策,并改善商品和服务的增长。机器学习平台和工具将复杂的算法与数据集成在一起,使您能够获得业务洞察并扩展创新解决方案。机器学习平台简化数据操作加速数据处理,并增强相关功能。机器学习平台是什么意思?原创 2023-12-16 21:40:47 · 58 阅读 · 0 评论 -
其他:机器学习算法速查表
(LDA) 的分类方法,在一个或多个类别已经被分类后,根据新数据的特征将其分为两个或多个组中的一组。将数据分为 k 组,使得同一组中的数据点连接,而其他组中的数据点分开。换句话说,K-Means 方法的目标是增加簇之间的距离,同时最小化每个簇内的距离。为了限制过度拟合的风险(当函数与少量数据点过于紧密匹配时发生的统计建模错误,从而可能降低模型的预测能力),两种监督学习都使用大量决策树。SVM算法的目标是建立可以将n维空间划分为类的最佳线或决策边界,使我们能够快速对未来的新数据点进行分类。原创 2023-12-16 15:00:52 · 45 阅读 · 0 评论 -
推荐系统:机器学习中基于内容的过滤
顾名思义,基于内容的筛选是一种机器学习实现,它使用系统中收集的内容或功能来提供类似的建议。根据用户观察结果从数据集中获取最相关的信息。最常见的例子是 Netflix、Myntra、Hulu、Hotstar、Instagram Explore 等。例如,如果用户喜欢某个节目或用户将电影添加到Netflix上的列表中,则提要上会弹出类似的建议。如前所述,基于内容的过滤是一种用于查找类似建议的推荐算法。在这里,数据集中的每个唯一值都被分配了关键字或属性,以帮助它们被识别。原创 2023-12-16 14:53:04 · 100 阅读 · 0 评论 -
推荐系统:协同过滤
协同过滤是一种彻底改变电子商务业务的推荐系统。协作系统尝试根据用户过去的购买模式和与其他用户的相似性向用户推荐产品。本文将讨论不同类型的协同过滤、它们的局限性,以及在实际用例中实现协同过滤的示例。原创 2023-12-16 08:07:02 · 42 阅读 · 0 评论 -
推荐系统:机器学习中的推荐系统
推荐系统中使用的机器学习算法向目标用户推荐相关产品。通过为用户提供定制的体验并帮助他们根据自己的喜好与产品建立联系,这些系统希望提高产品的受欢迎程度和收视率。例如,Netflix、Hotstar、Hulu 和 Youtube 等流媒体服务或 Amazon、Myntra 和 Flipkart 等在线购物服务都使用推荐系统。推荐系统是数据过滤系统的一个子集,它使用机器学习算法根据以前的产品向用户推荐类似的产品。机器学习中的推荐系统使用大量数据来有效地过滤掉建议。原创 2023-12-15 20:11:20 · 57 阅读 · 0 评论 -
时间序列分析:使用正向链接进行验证
除了预测值外,机器学习还可以识别数据集中的潜在周期和模式。使用时间序列分析,我们可以预测股票价格、时尚趋势、房屋价值等。在本文中,我们将讨论交叉验证和前向链接,这是时间序列分析中最被低估的两种技术。时间序列分析是一种检查在一段时间间隔内收集的数据点集合的方法。时间序列分析器不是间歇性或任意地捕获数据点,而是在预定的时间长度内以固定的时间间隔记录数据点。时间序列分析对希望了解随时间推移的趋势或系统模式的根本原因的组织具有深远的影响。在本文中,我们将介绍两种帮助我们更好地进行时间序列分析的技术;交叉验证。原创 2023-12-15 20:06:13 · 45 阅读 · 0 评论 -
时间序列分析:ARIMA 在机器学习中的应用
预测未来是世界上最有趣、最迷人的概念之一。人们尽最大努力预测未来,但最终会失败。好吧,我们生活在一个可以尝试预测股票价格、加密货币线程、体育分析等事物的时代。随着时间序列预测的出现,所有这些都成为可能。在本文中,我们将介绍有史以来最流行和最受欢迎的时间序列预测算法之一,ARIMA(自动回归综合移动平均线);它的作用,以及与之一起使用的各种参数和指标。正如我们之前所讨论的,我们可以使用时间和数据模式来分析和预测未来。此活动称为时间序列预测。它推动了大多数工业组织的基本业务规划、采购和生产流程。原创 2023-12-15 20:03:15 · 138 阅读 · 0 评论 -
时间序列分析:稳态数据和自相关
多年来,我们一直在收集数据,随着时间的推移,数据很容易发生变化。因此,研究人员必须关注历史趋势,以便对未来事件进行准确预测。时间是时间序列中的自变量。本文将帮助您在深入研究预测建模之前理解一些基本概念。时间序列中两个值之间的相关性称为自相关。换句话说,时间序列数据是相互关联的。平稳性表示时间序列中没有趋势、恒定方差、恒定自相关模式以及没有季节性变化。让我们研究一下平稳性和自相关如何在时间序列预测中发挥关键作用。在随后的时间间隔内,特定时间序列与其滞后版本之间的相似程度在数学上表示为自相关。原创 2023-12-15 19:58:24 · 219 阅读 · 0 评论 -
时间序列分析:在机器学习中,趋势(Trends)和季节性(Seasonalities)是什么?
机器学习是一种技术,它允许计算机在没有专门编程的情况下独立工作。相反,机器学习模型接收数据,执行各种计算,并在每次分析(如语音识别、图像识别、推荐系统、虚拟现实等任务)中最大限度地提高其精度和准确性。在本文中,我们将了解机器学习的趋势和季节性;它们是什么,以及它们如何影响我们作为机器学习爱好者。除了预测值外,机器学习还可用于找出数据集中的潜在模式和周期。使用时间序列分析,我们可以预测股票价格、时尚趋势、房屋定价等。在时间序列分析。原创 2023-12-15 19:55:12 · 313 阅读 · 0 评论 -
嵌入:机器学习中的时序数据
机器学习中的时间序列数据是在一段时间内似乎处于特定顺序的数据点的集合。如果在图形上绘制点,则其中一个轴将始终是时间。例如,一个图表说明了一个月内特定日期的库存销售量,并针对每天绘制,该图表将是一个时间序列数据。另一方面,横截面数据捕获单个时间点。随时间监控样本的数据集合称为时间序列。机器学习中的时间序列数据允许人们看到影响某些变量的原因。时间序列是数据的集合,其中每个值都有一个特定的时间段。任何与时间相关的可测量数量(例如价格、湿度或人口)都可以用作值。原创 2023-12-15 19:50:25 · 114 阅读 · 0 评论 -
嵌入:机器学习中的融合
人们可能会将机器学习称为人工智能世界的基础。这是我们无需任何编程即可让计算机运行的方法。机器学习模型的精度和准确性随着它使用我们提供的数据执行的每个计算实例而提高。在这个不断扩大的环境中,每小时都会开发新的技术和算法,以提高我们机器学习模型的准确性和精度。在本文中,我们将了解机器学习中的一种此类技术,即混合。正如我们在本文前面所讨论的,科学家和机器学习爱好者开发了许多新兴技术来改进该领域。一个专门的研究团队正在研究聚合多个模型的概念,以提高机器学习模型的整体准确性和效率。这就是混合的用武之地。原创 2023-12-15 19:47:29 · 63 阅读 · 0 评论 -
嵌入:什么是机器学习中的堆叠?
集成学习是机器学习的一个子集。它用于通过集成多个模型的输出来优化模型的性能。集成学习还提高了模型的准确性。机器学习中的堆叠是一种用于预测模型的集成算法,我们可以在其中获得有效的输出。因此,堆叠的一些显着优势是增强了准确性和具有多样化趋势的分层模型。机器学习中的集成模型是将两个或多个模型的结果组合在一起的预测模型。组合模型比单个模型具有更高的精度和效率。我们可以使用类似的算法,例如将多个决策树组合在一起的随机森林,这属于同质集成学习,异构集成学习使用不同的模型(如回归和分类)来产生输出。原创 2023-12-15 19:44:41 · 74 阅读 · 0 评论 -
嵌入:Bagging和Boosting之间的区别
在机器学习的世界里,最令人兴奋和最有前途的概念之一是集成学习。这种方法通过组合多个模型来帮助改进机器学习结果。这对预测准确性有积极贡献。集成模型背后的主要概念是将弱学习者组合在一起,形成主动学习者。Bagging(自助聚合)和 Boosting(提升)是集成学习的两种类型。集成学习克服了当假设空间对于可用数据来说太大时出现的统计、计算和表示问题。简而言之,装袋涉及在数据集的不同样本上拟合多个模型并平均预测,而提升涉及按顺序添加集成成员以纠正先前模型所做的预测并输出预测的加权平均值。原创 2023-12-15 19:38:28 · 60 阅读 · 0 评论 -
嵌入:机器学习中的集成方法
集成方法是一种技术,其中将多个预测变量的输出组合在一起,为问题生成更准确的结果。这在直观上很有意义,因为使用多个模型而不是一个模型有望产生更好的结果。本文将介绍机器学习中一些基本但流行的集成方法。袋装和增压等高级技术将在后续文章中介绍。原创 2023-12-15 19:24:39 · 40 阅读 · 0 评论 -
嵌入:机器学习中的集成
增强模型性能的可靠方法是集成建模。将集成学习应用于您可以开发的任何其他模型之上可能会有很大帮助。人们已经在机器学习模型中使用了嵌入并从中受益。机器学习中融合的基本思想是,弱者在团结起来时会变得更强大。强大的学习器,称为集成模型,是通过仔细组合弱学习器(也称为基础模型)来创建的。为了解决任何一个组件学习器都无法单独有效学习的特定分类/回归问题,集成模型采用了许多学习算法。原创 2023-12-15 19:18:16 · 50 阅读 · 0 评论 -
调整超参数:连续减半搜索
计算机科学中的机器学习是不容忽视的。机器学习是目前最热门的领域之一,它试图教计算机使用历史数据来理解事物。机器学习包含许多活动,包括电子邮件过滤、推荐系统、语音识别和图像识别。由于这是一个不断涌现的领域,因此需要改进现有方法。在本文中,我们将了解这种称为连续减半搜索的方法。正如我们在本文前面所讨论的,机器学习的进步达到了历史最高水平。为了保持领先地位,我们必须适应和学习不同的优化技术。机器学习工程师中最常见的问题之一是他们无法充分利用机器学习模型。原创 2023-12-15 19:13:49 · 107 阅读 · 0 评论 -
调整超参数:机器学习中的网格搜索
说到计算机科学,很难忽视机器学习。机器学习是最新兴和最受欢迎的领域之一,旨在让计算机借助过去的数据自行学习事物。图像识别、语音识别、电子邮件过滤和推荐系统等任务是机器学习包含的众多任务中的一部分。在本文中,我们将讨论网格搜索,这是一种通过更改所述算法的超参数来提高机器学习模型准确性的方法。正如我们之前所讨论的,网格搜索是一种用于超参数优化的机器学习工具。网格搜索对每个机器学习算法上可用的超参数执行多次计算,并提供一组理想的超参数来帮助我们获得更好的结果。原创 2023-12-15 19:09:47 · 76 阅读 · 0 评论 -
调整超参数:机器学习中的随机搜索
优化超参数是开发机器学习和人工智能模型最具挑战性的方面。在开发模型时预测理想参数是很困难的,至少在最初的几次尝试中是这样。那么,如何确定最佳超参数值呢?一种技术是在机器学习中使用随机搜索。在机器学习中,随机搜索是一种使用超参数的随机组合来识别已建立模型的最佳答案的策略。由于参数是随机选择的,并且没有使用智能来对这些组合进行采样,因此机会起着重要作用。超参数搜索是为超参数查找最合适值的最佳技术之一。有多种方法可以实现超参数搜索。其中之一是机器学习中的随机搜索。原创 2023-12-15 19:06:43 · 66 阅读 · 0 评论 -
调整超参数:什么是机器学习中的超参数搜索?
机器学习中的超参数是一个参数,其值调节模型的学习方式。寻找最佳超参数称为超参数搜索,它涉及使用各种超参数设置训练模型并查看它们的性能。训练和推理阶段最关键的一步可能是找到适当的超参数集合,以获得机器学习模型的最佳性能。这种类型的搜索称为超参数搜索。多年来,已经创建了几种方法来有效地选择最佳的超参数集合。首先,我们将讨论最流行的超参数搜索技术。每个机器学习算法都会学习一组参数,这些参数将导致最佳准确的结果预测或最大化某个数学度量。那么,是什么让超参数独一无二呢?原创 2023-12-15 19:04:14 · 89 阅读 · 0 评论 -
无监督学习:机器学习中的 t-随机邻域嵌入(t-SNE)
机器学习是计算机科学中最热门的话题之一。这是因为这个世界上每天涌入的数据是巨大的。由于每天都有如此多的数据出现,因此需要控制并从所述数据中生成见解。因此,许多方法正在世界范围内不断改进机器学习技术。创建机器学习模型时最常见的问题之一是要处理大量变量。由于大多数真实世界的数据集不是以模型友好的方式处理的,因此我们大多数时候都需要处理和过滤掉我们的数据集。在大多数情况下,数据集中有许多自变量会让开发人员感到困难,因为我们对要选择哪些列感到困惑。正如我们之前所讨论的,降维是机器学习工程师最常处理的问题之一。原创 2023-12-15 19:00:11 · 168 阅读 · 0 评论 -
无监督学习:高斯混合模型(GMM)
机器学习不仅仅是分类和预测。还有很多其他问题领域需要我们以另一种方式使用机器学习。其中一个概念称为聚类分析。聚类是一种将数据点排列成相关数据点聚类的技术。可能相关的项目继续位于与另一个组几乎没有相似之处的组中。如本文前面所述,聚类是指根据欧几里得距离等属性对相似的数据点进行分组。因此,在推销各种计划、信用卡、贷款等时,聚类非常有用。在本文中,我们将了解为什么选择高斯混合模型而不是 K-Means,以及 Python 中 GMM 的代码实现。原创 2023-12-15 18:54:08 · 84 阅读 · 0 评论 -
无监督学习:聚类 |DBSCAN扫描
DBSCAN 代表基于密度的空间聚类,适用于有噪声的应用。它是一种无监督聚类算法,用于查找高密度基础样本以扩展聚类。当我们的数据或任意形状的簇中出现噪声时,DBSCAN非常有用。本文介绍使用 Python 在机器学习中实现 DBSCAN 聚类分析。聚类分析,或简称聚类分析,是一种无监督学习方法,它将数据点分成几个特定的批次或组,使得同一组中的数据点具有相似的属性,而不同组中的数据点在特定标准方面具有不同的属性。它包括许多其他基于差分进化的方法。原创 2023-12-15 18:19:00 · 80 阅读 · 0 评论 -
无监督学习:机器学习中的分层聚类
在这个过程中,我们假设所有的数据点都在一个集群中,在每次迭代中,我们将不相似的数据点与集群分开。因此,在这个过程中,我们生成了一系列分层的嵌套聚类,这些聚类通过树状图以图形方式表示。从上图中,我们可以看到三个不同的聚类,但在现实生活中的问题中,可能有数百个不同的聚类。然后,我们通过 sklearn 库的 AgglomerativeClustering 的 fit_predict 方法预测我们的聚类,如前所示。每个数据点都被视为一个单独的聚类,因此如果数据集中有 n 个数据点,则开始时会有 n 个聚类。原创 2023-12-15 17:57:19 · 155 阅读 · 0 评论 -
无监督学习:机器学习中的 K-Means聚类
机器学习中的 K 均值聚类是最简单但功能最强大的无监督机器学习算法之一。机器学习中的 K 均值聚类的工作原理是为所需数量的类创建一个质心,然后根据最接近的参考点将数据点分配给聚类。K-means 算法的关键警告之一是选择 K 的值。在这里,我们讨论了一种在机器学习中的 K-means 算法中选择 K 值的流行方法。该算法有多种应用,包括文档分类、图像分割、推荐系统等。。原创 2023-12-15 17:51:49 · 51 阅读 · 0 评论 -
处理数据:处理不干净数据的标准做法
在实际数据中,由于各种原因,可能需要包含特定片段,包括数据不正确、无法加载信息或提取不充分。对于分析师来说,处理缺失值是最具挑战性的任务之一,因为做出适当的管理决策会产生可靠的数据模型。数据扩充、数据准备、数据清理和数据清理都是同一事物的不同名称:从数据集中更正或删除不准确、损坏或格式异常的数据。通过删除或更改错误、不完整、不相关、冗余或结构不良的数据来准备数据以供分析的行为称为数据清理。数据清理需要大量的工作,并且迫切需要对不干净的数据进行标准实践。数据清理是发展数据。原创 2023-12-14 21:56:15 · 99 阅读 · 0 评论 -
处理数据:处理不干净的数据 - 删除异常值
异常值是与数据集中其他点的异常距离的极值。处理异常值是很棘手的,因为有时,它可以揭示异常情况或具有罕见特征的个体。它还可能扭曲统计分析并违反其假设。通常,可以通过理解甚至删除这些异常值来改进机器学习建模和模型技能。因此,有时建议在将数据馈送到机器学习模型之前从数据中删除异常值。在本文中,我们将了解什么是异常值、何时应该删除它们、可以处理它们的不同统计分析以及删除它们的技术。异常值是与数据集中其他数据点距离极远的数据点。异常值有时带有有关罕见情况的基本信息。原创 2023-12-14 21:51:14 · 265 阅读 · 0 评论 -
处理数据:处理不干净的数据 - 插补缺失值
由于数据中的原因不同,可能会引入缺失值。有时,由于收集和管理错误或故意遗漏,数据未被适当收集。人为错误也会导致数据丢失。大多数机器学习模型不允许缺失值。因此,在将数据馈送到机器学习模型之前,必须对数据进行插补。有几种方法可以插补数据中的缺失值。根据不同的参数,必须明智地选择插补技术。否则,它将通过干扰数据值的整体分布来影响模型的性能。本文将介绍不同类型的缺失值、如何查找缺失值、平均中位数、基于 knn 的插补和统计插补技术。原创 2023-12-14 21:47:27 · 84 阅读 · 0 评论 -
处理数据:在机器学习中处理文本数据
机器学习在计算机科学领域继续快速发展,这是由于每天生成的数据量不断增加。机器学习提供了一个强大的解决方案来理解这些数据并发现有价值的见解。但文本数据可能会给机器学习带来独特的挑战。本文探讨了在机器学习中处理文本数据的复杂性以及如何克服这些复杂性。原创 2023-12-14 21:43:26 · 59 阅读 · 0 评论 -
处理数据:机器学习中的特征分解
在我们计算不同特征的协方差矩阵的步骤中,核技巧允许我们计算特征值和特征向量,而无需实际显式计算 phi(x)。当它们的 ML 计算完成后,我们将它们聚合起来,结果就是我们的输出图像。它最初是为了抵消维度诅咒,它指的是当我们的数据集具有太多值/特征时我们所处的困境。(U:输入矩阵,Σ:对角矩阵,V:项目潜在特征的奇异矩阵)它与 PCA 非常相似,因为截断的 SVD 也是从协方差矩阵生成的。U:(用户潜在因素)的奇异矩阵 S:对角矩阵(显示每个潜在因素的强度) V:(项目-潜在因素)的奇异矩阵。原创 2023-12-14 09:08:44 · 98 阅读 · 0 评论 -
处理数据:机器学习中的特征选择
机器学习中的特征选择有助于通过丢弃不太重要的特征来减轻这种影响。无监督特征选择算法在机器学习中执行特征选择时不使用目标变量,而有监督特征选择算法则使用目标变量来实现相同的目的。机器学习中的特征选择是指从所有特征中选择必要的特征,丢弃无用的特征。此外,过多的冗余特征也会增加模型的训练时间。因此,有必要从数据中识别和选择最合适的特征,并删除不相关或不太重要的特征。在每个阶段,该估计器都会根据估计器的交叉验证分数选择要添加或删除的最佳特征。对于不同场景的机器学习中的特征选择,我们有不同的技术。原创 2023-12-14 09:05:39 · 74 阅读 · 0 评论 -
处理数据:机器学习中的分类数据
因此,我们必须对分类数据进行编码,因为它们可能包含有价值的信息。这是一种很好的编码形式,但以此为基础训练的模型可能容易过度拟合,因为编码侧重于值的平均值。编码是将特定形式的数据从一种形式转换为另一种形式,从数据中提取有价值的信息,使数据适合我们的机器学习模型。该技术涉及将类别编码为序数,然后将这些整数转换为二进制代码,然后将该二进制字符串中的数字拆分为单独的列。在这种类型的编码中,数据中的变量是序数的,序数编码将每个标签转换为整数值,编码后的数据表示标签的序列。向量的数量等于存在的类别的数量。原创 2023-12-14 08:58:32 · 116 阅读 · 0 评论 -
处理数据:机器学习中的分箱
是指如果观测值数量能被箱数整除,则将相同数量的观测值分配给每个箱的过程。因此,如果箱的边界处没有绑定值,则每个箱最终将具有相同数量的观测值。- 1],[分钟+2*�,分钟+3*�-1]⋯[分钟+(�-1)*�,最大限度]1 ] ,[分钟+ 2*如果数值特征的范围存在显着差距,那么使用固定宽度将不会有效,那么将会出现许多没有数据的空箱。换句话说,分箱将采用具有连续数字的列,并根据我们确定的范围将数字放入“箱”中。:[分钟,分钟+�-1],[分钟+�,分钟+2*�-[分钟,分钟+原创 2023-12-14 08:51:51 · 183 阅读 · 0 评论