梦想成为一名机器学习高手-优快云博客

原创 IPhone16评论自然语言处理

最近看到了一个自然语言处理的项目，发现自己也没怎么写过这方面的文章，所以上周写了一篇，上周忘记发了，这周才发。这是两个数据集的概况最近看到了一个IPhone评论数据的自然语言处理的项目，就想到了在GitHub上的一个开源的处理中文文本的模型HanLP，这是他的地址https://github.com/hankcs/HanLP大家可以去学习一下，Jieba是基于传统的词典匹配和HMM，而HanLP2.x版本是基于深度学习，对于分词的处理可能更加精确。

2024-11-04 15:36:53 557

原创数据分析每周挑战——睡眠质量影响因素研究

在当今社会，越来越多的人开始关注睡眠与健康之间的紧密联系。随着可穿戴设备技术的发展，人们可以更精确地追踪自己的睡眠模式和健康状况，从而更好地理解睡眠质量对日常生活的实际影响。本数据集为人工生成的数据集，目的是探究不同因素是如何影响睡眠质量和整体健康的。本数据集模拟了多种情况，通过分析可以了解睡眠和健康之间可能存在的各种联系和变化，非常适合用来做预测分析和研究。

2024-10-23 14:27:49 2977 1

原创数据分析每周挑战——电商用户行为分析

本数据集汇集了某个电商平台的用户基本信息、行为习惯和互动数据。它包括用户的年龄、性别、居住地区、收入水平等基本属性，以及他们的兴趣偏好、登录频率、购买行为和平台互动等动态指标。数据集关注的焦点在于电商领域，旨在通过用户行为的深入分析，揭示其偏好和需求。通过这些数据，商家能够更好地理解消费者，制定有效的市场策略，满足用户期望，推动业务发展。

2024-06-07 02:18:25 2962 4

原创数据分析每周挑战——心衰患者特征数据集

这是一篇关于医学数据的数据分析，但是这个数据集数据不是很多。

2024-06-03 16:28:56 4504 1

原创数据可视化每周挑战——中国高校数据分析

(由于该数据集只有前100为学校有具体数据，其他学校无数据，因此这里只能改99之前的)老规矩第一步将我们需要用到的库先导入，其次，我们可以将绘图时的字体设置好，5 评分 590 non-null float64。10 人才培养 590 non-null float64。11 科学研究 590 non-null float64。首先，我们先对学校的分布进行分析，这里我们直接使用Map来绘图。最近要高考了，这里祝大家金榜题名，旗开得胜。

2024-06-01 17:09:48 731 2

原创 Scala环境的搭建

可以从网上搜索安装包对其进行安装要搭建Scala，我们必须先下载java，由于我的电脑已经搭建好了环境，因此我这里用截图来教大家搭建环境。可以从网上搜索安装包对其进行安装不建议下载最新版的，大家下载的版本可以下载前年的版本，这样出问题网上也会有教程选择64位。

2024-05-28 17:53:45 922

原创大数据——Spark

MLlib是Spark的机器学习（）库，旨在简化机器学习的工程实践工作，并方便扩展到更大规模。MLlib由一些通用的学习算法和工具组成，包括分类、回归、聚类、协同过滤、降维等，同时还包括底层的优化原语和高层的管道API。2.

2024-05-28 17:33:36 1597

原创大数据——大数据架构

大数据架构是关于大数据平台系统整体结构与组件的抽象和全局描述，用于指导大数据平台系统各个方面的设计和实施。数据平台层(数据采集、数据处理、数据分析)数据服务层(开放接口、开放流程、开放服务);6数据应用层(针对企业业务特点的数据应用)数据管理层(应用管理、系统管理)。

2024-05-19 11:42:49 2869

原创数据可视化每周挑战——全国星巴克门店数据可视化

从上面可以看出该数据集中没有缺失值，且营业时间属于标成属性，但是实际中时间应该是时间类型，因此我们将其转换为时间，以便于后续的可视化。广东省、浙江省、江苏省、北京市以超过500家的门店分列第二至五位。1.导入需要用的库，同时设置绘图时用到的字体，同时防止绘图时负号无法正常显示的情况。3.首先先对营业时间进行处理，然后对星巴克在我国分布省份进行统计汇总。这是我国星巴克门店的位置，营业时间等数据。7.对一天内的营业时间进行可视化分析。4.对各省星巴克的占比进行可视化。5.对各省星巴克的数量进行可视化。

2024-05-18 16:56:07 1096

原创机器学习每周挑战——基于统计性分析和回归的球员薪资预测

Is_top_ranked_nation: 方差分析的F值为 34.93，p值非常小，表明球员所代表的国家是否在国际足联世界排名中名列前茅在不同组别中对球员工资有显著的影响。接下来，我们可以对各个特征之间的相关性来进行判断对于相关性的判断我们可以使用热力图，皮尔逊相关系数，斯皮尔曼相关系数等，使用皮尔逊相关系数有一个硬性条件就是数据的分布特征必须符合正态分布，因此我们先对连续型数值数据进行KS检验。从数据上来看df1属于未处理的数据，而df2属于清洗后的数据，因此我们分析时，只需分析清洗后的数据即可。

2024-05-09 14:20:38 1368

原创机器学习每周挑战——基于时间序列的商店销售数据预测

这里的代码是kaggle中一位大佬的代码，这里我只是看懂了代码所表达的意思，如果各位想学习一下，可以私信我要源码，或者去kaggle上找这篇原作，非常厉害的一位大佬。由于代码太多，且环境是jupyter notebook，代码块也非常多，复制粘贴太麻烦。因此我这里使用截图。

2024-05-07 17:13:02 1772 1

原创机器学习每周挑战——二手车车辆信息&交易售价数据

这是数据集的截图本数据爬取自印度最大的二手车交易平台 CARS24，包含 8000+ 该平台上交易车辆的关键评估信息。CARS24 成立于 2015 年，总部位于印度古尔冈，是一个在印度、澳大利亚、泰国和阿联酋运营的二手车交易平台，为用户提供一站式二手车交易服务，包括车辆评估、交易、融资、保险等。CARS24 已成为印度最大的二手车交易平台之一，在印度拥有超过 1000 家线下门店。

2024-05-03 18:25:05 2102 1

原创机器学习每周挑战——客户流失数据预测

读入数据，同时导入需要用到的数据库对于数据的处理，我们可以发现前三列都是类似于ID的数据，对我们数据的分析没有任何用处，因此我们将前三列数据删除。# 客户细分：依据客户的人口统计特征、金融行为及产品偏好等信息，划分出具有不同流失倾向的群体，为精细化营销与服务策略提供依据。# 探索性数据分析：通过多维度客户数据的深度挖掘，揭示潜在关联、趋势与异常，直观呈现客户特征与流失风险之间的内在关系。# Geography 客户所在的国家或地区，提供有关流失的地理趋势的见解。# Gender 客户的性别。

2024-04-30 11:38:08 1476 3

原创机器学习每周挑战——百思买数据

上面是关于字段的说明，由于这种数据属于电商类型的数据，我们一般会分析评分，折扣，成交价格等特征与交易数量之间的关系，我们还可以从用户回答来做文本分析等来分析商品的好坏，预测交易数量等，这里我就不进行分析了，感兴趣的可以试一试，我后面会更新电商评论的文本类型的分析。# esrb_rating ESRB评级（"E for Everyone"（适合所有人）、"T for Teen"（适合青少年）、"M for Mature"（适合成年人）等等）# you_maight_also_need 你可能还需要。

2024-04-28 17:03:12 650

原创机器学习模型——GBDT和Xgboost

GBDT（Gradient Boosting Decision Tree，简称GBDT）梯度提升决策树，是Gradient Boost 框架下使用较多的一种模型，且在GBDT中，其基学习器是分类回归树也就是CART，且使用的是GBDT这个算法还有一些其他的名字, MART（Multiple Additive Regression Tree)，GBRT（Gradient Boost Regression Tree)，Tree Net，Treelink等。

2024-04-08 22:29:55 1940

原创机器学习每周挑战——肥胖数据预测

数据的截图# 字段说明# Gender 性别# Age 年龄# Height 身高# Weight 体重# family_history_with_overweight 家族肥胖史# FAVC 是否频繁食用高热量食物# FCVC 食用蔬菜的频次# NCP 食用主餐的次数# CAEC 两餐之间的食品消费：always（总是）；frequently（经常）；sometimes（有时候）# SMOKE 是否吸烟# CH2O 每日耗水量。

2024-04-06 19:45:47 6699 4

原创机器学习模型——关联规则

Apriori算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过频繁项集生成和关联规则生成两个阶段来挖掘频繁项集。它的主要任务就是设法发现事物之间的内在联系。比如在常见的超市购物数据集，或者电商的网购数据集中，如果我们找到了频繁出现的数据集，那么对于超市，我们可以优化产品的位置摆放，对于电商，我们可以优化商品所在的仓库位置，达到节约成本，增加经济效益的目的。Apriori使用频繁项集的先验知识，使用一种称作逐层搜索的迭代方法，k项集用于探索(k+1)项集。

2024-04-06 12:12:02 1456 1

原创机器学习模型——K—Means算法

基于原型聚类(partitioning methods)K-Means算法，K-Mediods 算法基于层次聚类(hierarchical methods)、Hierarchical Clustering算法、BIRCH算法基于密度聚类(density-based methods)DBSCAN算法。

2024-04-05 23:07:25 1290

原创机器学习模型——集成算法（三）

这样，后续的弱分类器将更加关注难以分类的样本。：在最终的决策中，每个弱分类器的预测结果将按其权重进行加权，通过加权投票的方式得到最终的预测结果。对于新的输入样本，将其分别送入所有的弱分类器进行预测，然后将各个弱分类器的预测结果按照其权重进行加权求和，得到最终的预测结果。也就是说，在第N次迭代中，一共有N个弱学习器，其中N-1个是以前训练好的，其各种参数都不会改变，本次训练第N个学习器。其中弱学习器的关系是第N个弱学习器更可能分对前N-1个弱学习器没分对的数据，最终分类输出要看这N个分类器的综合效果。

2024-04-04 17:26:16 576

原创机器学习模型——集成算法（二）

提升是一个迭代的过程，用于自适应地改变训练样本的分布，使得基分类器聚焦在那些很难分的样本上。因此Boosting结合了很多弱学习器来形成一个强学习器，单个模型表现不佳，但它们在数据集的某些部分表现很好。然后训练第一个基本分类器并用它来对训练集进行测试，对于那些分类错误的测试样例提高其权重（实际算法中是降低分类正确的样例的权重）。第七步：创建另一个模型并对数据集进行预测（此模型尝试更正先前模型中的错误）。后续的模型依赖于之前的模型。第八步：类似地，创建多个模型，每个模型校正先前模型的错误。

2024-04-04 17:26:13 532

原创机器学习模型——逻辑回归

目的分析：因为逻辑回归是为了解决二分类问题，即我们的目的应该是求取参数 w 和 b 使得 p(y l x) 对 0 类和 1 类的分类结果尽可能取最大值。然而我们定义损失函数时往往是为了最大化的达到我们的目的的同时使所付出的代价最小（损失函数最小）。但是对于一个二分类问题，如果我们不仅想知道一个具体的样例是属于哪一类，而且还想知道该类属于某一类的概率多大，有什么办法呢？z的阈值处于(-∞，+ ∞)，此时不能很好的给出属于某一类的概率，因为概率的范围在[0,1]之间，并且这个函数能够具有很好的可微分性。

2024-04-04 16:54:42 748

原创机器学习每周挑战——信用卡申请用户数据分析

其他的列的缺失值较少，woe们可以填充，也可以删除，我觉得对于信用卡这种模型精度要求较严的，我们就删除，填充的值不是很准确，可能对模型造成一定的影响。# 由图可以看出，申请到信用卡的人数比没申请到信用卡的人数少，数据存在不均衡，因此我们建立模型时，要注意处理不均横的数据。# 根据数据集反映的客户画像和信用卡申请情况，如果你是该银行的风控或市场部门负责人，你会提出哪些战略思考或建议？正值意味着个人目前未就业。# 观察数据，我们可以发现，ID，电话号，邮箱这种特征对我们来说没有用

2024-04-03 20:46:15 9929 2

原创机器学习模型——集成算法（一）

集成学习是一种机器学习方法，它通过组合多个弱学习器来形成一个强学习器，以提高预测性能。结合多个学习器：集成学习的核心思想是通过训练多个学习器（基学习器）并结合它们的预测结果来提高整体的预测性能。适用性广泛：集成学习可以应用于多种机器学习任务，包括分类、回归、特征选择和异常检测等领域。弱学习器与强学习器：在集成学习中，单个的基学习器通常被称为弱学习器，而通过集成这些弱学习器形成的综合模型则被称为强学习器。主要算法：集成学习的主要算法包括Bagging、Boosting和Stacking。

2024-03-31 17:13:58 1262

原创机器学习模型——随机森林

1. 从原始样本集m个样本中使用bootstrap （有放回的随机抽样）采样法选出m个样本；2. 从所有n个属性中随机选择K个属性（若k=n则基决策树的构建与传统的决策树相同，若K=1则是选择一个属性用于划分），一般令k的值为log2n;3. 选择最佳分割属性（ID3, C4.5, CART)作为节点创建决策树；4. 每颗决策树都进行最大程度地生长，且不进行剪枝；5. 重复以上4步S次，建立S颗决策树，即形成随机森林;6. 在分类问题中通过多数投票法决定输出属于哪一分类；

2024-03-31 17:13:48 758

原创机器学习——最优化模型

在给定的约束条件下，选择最优的参数和使得目标函数最大化/最小化。

2024-03-31 15:51:50 1367

原创机器学习每周挑战——旅游景点数据分析

至于简介和地址，缺失数据无关紧要，这里我们可以选择用无来填充，也可以用删除来处理，为了不破坏数据的完整性，这里我选择用无来填充。# 由于星级对我们问题的分析帮助很大，所以我们无法用删除，或者众数等方式填充，因此我们用无来填充，将其划分为一个新的类别。# 从销量可以看出北京，上海，江苏，四川，陕西，广东的销量较高，因此，我们着重分析这六个地方的景点评分。# 2、国民出游分析（我们可以分析评分，城市，销量之间的关系）# 2、国民出游分析（我们可以分析评分，城市，销量之间的关系）

2024-03-31 11:00:50 2520 1

原创机器学习模型——SVM（支持向量机）

SVM，即支持向量机（Support Vector Machine），是一种用于分类和回归分析的机器学习算法。线性分类器：SVM的基础是一个线性分类器，这意味着它通过在特征空间中绘制一条直线来区分不同的类别。在二维空间中，这条线就是一条直线；在三维空间中，它变成了一个平面；在更高维的空间中，它是一个超平面。最大间隔：SVM的一个特点是它试图找到最佳的分界线，使得两个类别之间的间隔（距离）尽可能大。这个间隔被称为“最大边距”，这样做的目的是为了确保分类的准确性和可靠性。支持向量。

2024-03-30 16:52:57 1822

原创机器学习模型——决策树

决策树利用树形数据结构来展示决策规则和分类结果，它是一种归纳学习算法，可以将复杂数据转化为可以预测未知数据的模型。每一条从根节点到叶节点的路径都代表一条决策规则。

2024-03-30 16:52:53 1319

原创机器学习模型——朴素贝叶斯

朴素贝叶斯是。朴素贝叶斯算法的核心思想是。它假设各个特征之间是相互独立的，尽管这个假设在实际应用中往往不成立，但这种简化通常能够带来计算上的便利，并且在实践中表现出不错的性能。

2024-03-28 10:19:48 434 1

原创机器学习模型——KNN

KNN(K-Nearest Neighbor)就是k个最近的邻居的意思，即每个样本都可以用它最接近的k个邻居来代表。。核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。相似度的衡量标准一般为距离，即距离越近相似度越高，距离越远相似度越小。

2024-03-27 22:36:52 1692

原创机器学习每周挑战——人力资源分析

EducationField 专业领域：生命科学、医学、市场营销、技术、其他。# BusinessTravel 出差：很少、频繁、不出差。# EnvironmentSatisfaction 工作环境满意度。# YearsAtCompany 在公司工作年数。# JobSatisfaction 工作满意度。

2024-03-25 10:23:21 1430

原创机器学习模型——非线性回归

升维是一种常用的处理非线性问题的方法，它通过将原始数据从低维空间映射到高维空间来增强模型的表达能力。我们可以看出，二维数据用一维直线很难去很好的拟合。升维里的degree设置的不易过大，否则容易造成维度灾难。升维后，拟合的线与原数据比较符合。将非线性问题转换为线性问题。

2024-03-23 17:14:58 1298

原创机器学习每周挑战——全球心理健康调查

心理健康治疗的接受情况：调查受访者是否接受过心理健康治疗与其它变量之间的关系，如家庭背景、个人特征、压力水平等，从而了解心理健康服务利用的情况及影响因素。# 心理健康与个人特征的关系：通过分析性别、职业、是否自雇等个人特征与心理健康指标（如压力、抑郁、焦虑等）之间的关系，探究不同人群在心理健康上的差异和共性。# 家庭背景与心理健康的关联：研究家庭精神健康史与个体心理健康状况之间的联系，探讨家庭因素对心理健康的影响。# Occupation 受访者的职业。

2024-03-23 15:20:54 1274 2

原创机器学习模型——线性回归

在一元线性回归中，损失函数通常采用最小二乘法的形式，其目的是找到一条直线（即回归线），使得所有数据点到这条直线的垂直距离的平方和最小。如果回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。是一种求局部最优的方法，在不断总结经验和优化的过程中，有三种不同的梯度下降的方法被应用到线性回归以及其他机器学习算法中。对于正规方程来说，我们化简的结果涉及到了矩阵的逆，但对于没有逆的矩阵则无法使用此方法。具体的线性回归的原理推荐大家李航老师是《统计学习方法》

2024-03-21 21:59:20 1582 1

空空如也

空空如也