
数据挖掘与机器学习
文章平均质量分 87
数据挖掘与机器学习
我今天ac了吗
这个作者很懒,什么都没留下…
展开
-
机器学习进行情感分析(下)
在机器学习情感分析中,关键的一步是特征提取。特征提取是将原始文本数据转化为机器学习算法能够理解和处理的数值表示。常用的特征提取方法包括词袋模型(Bag-of-Words)、TF-IDF(Term Frequency-Inverse Document Frequency)和词嵌入(Word Embedding)等。这些方法可以将文本转化为向量形式,保留了词汇的语义信息。转载 2024-04-28 06:30:00 · 1034 阅读 · 0 评论 -
机器学习进行情感分析(上)
在机器学习情感分析中,关键的一步是特征提取。特征提取是将原始文本数据转化为机器学习算法能够理解和处理的数值表示。常用的特征提取方法包括词袋模型(Bag-of-Words)、TF-IDF(Term Frequency-Inverse Document Frequency)和词嵌入(Word Embedding)等。这些方法可以将文本转化为向量形式,保留了词汇的语义信息。转载 2024-04-27 15:41:20 · 1989 阅读 · 2 评论 -
泰坦尼克号乘客生存预测 下
泰坦尼克号轮船的沉没是历史上最为人熟知的海难事件之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在船上的 2224 名乘客和机组人员中,共造成 1502 人死亡。这场耸人听闻的悲剧震惊了国际社会,从而促进了船舶安全规定的完善。造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。原创 2024-04-26 00:00:00 · 886 阅读 · 0 评论 -
泰坦尼克号乘客生存预测 中
泰坦尼克号轮船的沉没是历史上最为人熟知的海难事件之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在船上的 2224 名乘客和机组人员中,共造成 1502 人死亡。这场耸人听闻的悲剧震惊了国际社会,从而促进了船舶安全规定的完善。造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。原创 2024-04-25 00:00:00 · 955 阅读 · 0 评论 -
泰坦尼克号乘客生存预测 上
泰坦尼克号轮船的沉没是历史上最为人熟知的海难事件之一。1912年4月15日,在她的处女航中,泰坦尼克号在与冰山相撞后沉没,在船上的 2224 名乘客和机组人员中,共造成 1502 人死亡。这场耸人听闻的悲剧震惊了国际社会,从而促进了船舶安全规定的完善。造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。原创 2024-04-24 00:00:00 · 1181 阅读 · 0 评论 -
玩具销售数据可视化
为了确保分析的准确性和全面性,我们采用了包括多个方面的数据集。首先,我们收集了销售乐高的店铺信息,这包括但不限于店铺的规模、信誉、经营时间等重要因素,这些因素都可能影响到乐高产品的销售情况。其次,我们也关注了乐高的种类产品,因为不同种类的乐高产品可能会受到消费者的不同欢迎程度,从而影响其销售情况。在当前的电子商务环境中,淘宝作为中国最大的在线购物平台之一,对于各类商品的销售情况具有重要的参考价值。定义了价格区间和对应的标签,然后使用pandas的cut函数将价格分为不同的区间,并计算每个区间的数量。原创 2024-04-23 07:00:00 · 1007 阅读 · 0 评论 -
百货商场用户画像描绘and价值分析(下)
本项目内容主要是基于Python的“百货商场用户画像描述与价值分析”,里面有详细的数据预处理、数据可视化和数据建模等步骤。同时,针对传统RFM模型进行了改进,构造了LRFMP模型来分析客户价值,挖掘客户价值的八个字段,并通过WordCloud形式展现了出来,可以对会员用户进行精准画像。原创 2024-04-16 07:00:00 · 2135 阅读 · 0 评论 -
百货商场用户画像描绘and价值分析(上)
本项目内容主要是基于Python的“百货商场用户画像描述与价值分析”,里面有详细的数据预处理、数据可视化和数据建模等步骤。同时,针对传统RFM模型进行了改进,构造了LRFMP模型来分析客户价值,挖掘客户价值的八个字段,并通过WordCloud形式展现了出来,可以对会员用户进行精准画像。原创 2024-04-15 07:00:00 · 1473 阅读 · 0 评论 -
实习僧网站的实习岗位信息数据分析
主要对“实习僧网站”招聘数据挖掘、机器学习的实习岗位信息进行分析。数据主要来自“数据挖掘”、“机器学习”和“算法”这3个关键词下的数据。由于原始数据还比较脏,本文使用pandas进行数据处理和分析,结合seaborn和pyecharts包进行数据可视化。部分代码省略,详细可以。原创 2024-04-14 22:16:50 · 1180 阅读 · 0 评论 -
TMDB电影数据分析(下)
本文对源自Kaggle TMDB电影数据集进行分析影响电影票房的因素,数据分析流程包含数据集概分析、数据清洗、数据统计以及分析影响电影票房的因素。影响票房因素可能是电影预算、电影类型、电影时长、受欢迎程度、电影评分,发行时间等有关系,通过具体数据进行分析影响票房的因素。转载 2024-04-10 09:00:00 · 2114 阅读 · 0 评论 -
TMDB电影数据分析(上)
本文对源自Kaggle TMDB电影数据集进行分析影响电影票房的因素,数据分析流程包含数据集概分析、数据清洗、数据统计以及分析影响电影票房的因素。影响票房因素可能是电影预算、电影类型、电影时长、受欢迎程度、电影评分,发行时间等有关系,通过具体数据进行分析影响票房的因素。转载 2024-04-09 08:00:00 · 1425 阅读 · 0 评论 -
运动员伤病预测
监控训练强度:训练强度与受伤可能性之间存在微弱的正相关关系。因此,建议运动员和教练团队密切监控训练强度,避免过度训练。注意体重和身高:体重和身高是预测受伤可能性的重要因素。运动员应该确保他们的体重和身高比例适当,避免过重或过高的体重增加受伤风险。考虑年龄因素:随着年龄的增长,运动员的身体恢复能力和适应性可能会下降。因此,年长的运动员可能需要更加注意训练强度和恢复时间,以降低受伤风险。预防先前受伤的再次发生:有先前受伤历史的运动员受伤的可能性略高。原创 2024-04-08 08:00:00 · 1366 阅读 · 0 评论 -
玩具销售数据可视化
淘宝销售乐高商品的店铺及其乐高产品、销量的信息进行分析数据集包括销售乐高的店铺信息、乐高的种类产品、销售省份等淘宝、天猫。原创 2024-04-07 08:00:00 · 734 阅读 · 0 评论 -
获取微博热搜数据
首先按住F12或者鼠标右键打开控制台,并且刷新一下,找到目标接口。我们可以发现不同的榜care对应的东西不同。测试复制出来的代码是否能够正常运行。Copy刚刚查到的的Crul链接。接着点击网络,查找对应的链接。,然后点击生成Python。原创 2024-04-06 08:00:00 · 1076 阅读 · 0 评论 -
数据分析与图表绘制(机器学习)
以朝阳医院2018年销售数据为例,目的是了解朝阳医院在2018年里的销售情况,这就需要知道几个业务指标,本次的分析目标是从销售数据中分析出以下业务指标:(1)业务指标1:月均消费次数 月均消费次数 = 总消费次数 / 月份数(同一天内,同一个人所有消费算作一次消费)(2)业务指标2:月均消费金额 月均消费金额 = 总消费金额 / 月份数(3)客单价 客单价 = 总消费金额 / 总消费次数(4)消费趋势(可视化展示,并根据可视化结果给出下属问题分析得出的结论) a、原创 2024-03-31 00:10:08 · 1267 阅读 · 0 评论 -
MNIST手写体识别(机器学习)
给定数据集MNIST,Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npzMNIST是一个计算机视觉数据集,它包含各种手写数字图片0,1,2,…,9MNIST数据集包含:60000行的训练数据集(mnist.train)和10000行的测试数据集(mnist.test)。原创 2024-04-02 13:20:01 · 606 阅读 · 0 评论 -
电影票房数据可视化
我们可以对于电影票房数据进行读取,包括上座率、场均人次、票房占比等信息。数据缺省值处理——去除空值。原创 2024-04-03 08:00:00 · 840 阅读 · 0 评论 -
分类预测与集成学习(机器学习)
从指定的数据源读取数据,对数据进行必要的处理,选取合适的特征,构造分类模型,确定一个人的年收入是否超过50K。数据来源:1994年美国人口普查数据库。(原始数据下载地址:https://archive.ics.uci.edu/ml/datasets/Adult )。数据存放在data目录中,其中,adult.data存放训练数据,adult.test存放测试数据。特征列age:年龄,整数workclass:工作性质,字符串,包含少数几种取值,例如:Private、State-gov等。原创 2024-04-01 14:45:07 · 1308 阅读 · 0 评论